Diff 290737

llvm/docs/LangRef.rst

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 15,818 Lines • ▼ Show 20 Lines

	Overview:			Overview:
	"""""""""			"""""""""

	The '``llvm.experimental.vector.reduce.fmax.*``' intrinsics do a floating-point			The '``llvm.experimental.vector.reduce.fmax.*``' intrinsics do a floating-point
	``MAX`` reduction of a vector, returning the result as a scalar. The return type			``MAX`` reduction of a vector, returning the result as a scalar. The return type
	matches the element-type of the vector input.			matches the element-type of the vector input.

	If the intrinsic call has the ``nnan`` fast-math flag then the operation can			This instruction has the same comparison semantics as the '``llvm.maxnum.*``'
				intrinsic. That is, the result will always be a number unless all elements of
				the vector are NaN. For a vector with maximum element magnitude 0.0 and
				containing both +0.0 and -0.0 elements, the sign of the result is unspecified.

				If the intrinsic call has the ``nnan`` fast-math flag, then the operation can
	assume that NaNs are not present in the input vector.			assume that NaNs are not present in the input vector.

	Arguments:			Arguments:
	""""""""""			""""""""""
	The argument to this intrinsic must be a vector of floating-point values.			The argument to this intrinsic must be a vector of floating-point values.

	'``llvm.experimental.vector.reduce.fmin.*``' Intrinsic			'``llvm.experimental.vector.reduce.fmin.*``' Intrinsic
	^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^			^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
	Show All 9 Lines

	Overview:			Overview:
	"""""""""			"""""""""

	The '``llvm.experimental.vector.reduce.fmin.*``' intrinsics do a floating-point			The '``llvm.experimental.vector.reduce.fmin.*``' intrinsics do a floating-point
	``MIN`` reduction of a vector, returning the result as a scalar. The return type			``MIN`` reduction of a vector, returning the result as a scalar. The return type
	matches the element-type of the vector input.			matches the element-type of the vector input.

	If the intrinsic call has the ``nnan`` fast-math flag then the operation can			This instruction has the same comparison semantics as the '``llvm.minnum.*``'
				intrinsic. That is, the result will always be a number unless all elements of
				the vector are NaN. For a vector with minimum element magnitude 0.0 and
				containing both +0.0 and -0.0 elements, the sign of the result is unspecified.

				If the intrinsic call has the ``nnan`` fast-math flag, then the operation can
	assume that NaNs are not present in the input vector.			assume that NaNs are not present in the input vector.

	Arguments:			Arguments:
	""""""""""			""""""""""
	The argument to this intrinsic must be a vector of floating-point values.			The argument to this intrinsic must be a vector of floating-point values.

	Matrix Intrinsics			Matrix Intrinsics
	-----------------			-----------------
	▲ Show 20 Lines • Show All 4,910 Lines • Show Last 20 Lines

llvm/include/llvm/CodeGen/BasicTTIImpl.h

Show First 20 Lines • Show All 1,344 Lines • ▼ Show 20 Lines	unsigned getTypeBasedIntrinsicInstrCost(const IntrinsicCostAttributes &ICA,
case Intrinsic::fabs:		case Intrinsic::fabs:
ISDs.push_back(ISD::FABS);		ISDs.push_back(ISD::FABS);
break;		break;
case Intrinsic::canonicalize:		case Intrinsic::canonicalize:
ISDs.push_back(ISD::FCANONICALIZE);		ISDs.push_back(ISD::FCANONICALIZE);
break;		break;
case Intrinsic::minnum:		case Intrinsic::minnum:
ISDs.push_back(ISD::FMINNUM);		ISDs.push_back(ISD::FMINNUM);
if (FMF.noNaNs())
ISDs.push_back(ISD::FMINIMUM);
break;		break;
case Intrinsic::maxnum:		case Intrinsic::maxnum:
ISDs.push_back(ISD::FMAXNUM);		ISDs.push_back(ISD::FMAXNUM);
if (FMF.noNaNs())
ISDs.push_back(ISD::FMAXIMUM);
break;		break;
case Intrinsic::copysign:		case Intrinsic::copysign:
ISDs.push_back(ISD::FCOPYSIGN);		ISDs.push_back(ISD::FCOPYSIGN);
break;		break;
case Intrinsic::floor:		case Intrinsic::floor:
ISDs.push_back(ISD::FFLOOR);		ISDs.push_back(ISD::FFLOOR);
break;		break;
case Intrinsic::ceil:		case Intrinsic::ceil:
▲ Show 20 Lines • Show All 539 Lines • Show Last 20 Lines

llvm/lib/CodeGen/ExpandReductions.cpp

Show First 20 Lines • Show All 137 Lines • ▼ Show 20 Lines	for (auto *II : Worklist) {
case Intrinsic::experimental_vector_reduce_add:		case Intrinsic::experimental_vector_reduce_add:
case Intrinsic::experimental_vector_reduce_mul:		case Intrinsic::experimental_vector_reduce_mul:
case Intrinsic::experimental_vector_reduce_and:		case Intrinsic::experimental_vector_reduce_and:
case Intrinsic::experimental_vector_reduce_or:		case Intrinsic::experimental_vector_reduce_or:
case Intrinsic::experimental_vector_reduce_xor:		case Intrinsic::experimental_vector_reduce_xor:
case Intrinsic::experimental_vector_reduce_smax:		case Intrinsic::experimental_vector_reduce_smax:
case Intrinsic::experimental_vector_reduce_smin:		case Intrinsic::experimental_vector_reduce_smin:
case Intrinsic::experimental_vector_reduce_umax:		case Intrinsic::experimental_vector_reduce_umax:
case Intrinsic::experimental_vector_reduce_umin:		case Intrinsic::experimental_vector_reduce_umin: {
		Value *Vec = II->getArgOperand(0);
		if (!isPowerOf2_32(
		cast<FixedVectorType>(Vec->getType())->getNumElements()))
		continue;

		Rdx = getShuffleReduction(Builder, Vec, getOpcode(ID), MRK);
		break;
		}
case Intrinsic::experimental_vector_reduce_fmax:		case Intrinsic::experimental_vector_reduce_fmax:
case Intrinsic::experimental_vector_reduce_fmin: {		case Intrinsic::experimental_vector_reduce_fmin: {
		// FIXME: We only expand 'fast' reductions here because the underlying
		// code in createMinMaxOp() assumes that comparisons use 'fast'
		// semantics.
Value *Vec = II->getArgOperand(0);		Value *Vec = II->getArgOperand(0);
if (!isPowerOf2_32(		if (!isPowerOf2_32(
cast<FixedVectorType>(Vec->getType())->getNumElements()))		cast<FixedVectorType>(Vec->getType())->getNumElements()) \|\|
		!FMF.isFast())
		nikicUnsubmitted Not Done Reply Inline Actions Would it be sufficient to only check nnan here, or does the expansion rely on something more? nikic: Would it be sufficient to only check nnan here, or does the expansion rely on something more?
		spatelAuthorUnsubmitted Done Reply Inline Actions It's not safe currently. llvm::createMinMaxOp() always creates instructions that are fully 'fast': // We only match FP sequences that are 'fast', so we can unconditionally // set it on any generated instructions. And I think we are seeing that bug manifested in PR35538. spatel: It's not safe currently. llvm::createMinMaxOp() always creates instructions that are fully…
continue;		continue;

Rdx = getShuffleReduction(Builder, Vec, getOpcode(ID), MRK);		Rdx = getShuffleReduction(Builder, Vec, getOpcode(ID), MRK);
break;		break;
}		}
}		}
II->replaceAllUsesWith(Rdx);		II->replaceAllUsesWith(Rdx);
II->eraseFromParent();		II->eraseFromParent();
▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp

Show First 20 Lines • Show All 2,140 Lines • ▼ Show 20 Lines	SDValue DAGTypeLegalizer::SplitVecOp_VECREDUCE(SDNode *N, unsigned OpNo) {

SDValue VecOp = N->getOperand(OpNo);		SDValue VecOp = N->getOperand(OpNo);
EVT VecVT = VecOp.getValueType();		EVT VecVT = VecOp.getValueType();
assert(VecVT.isVector() && "Can only split reduce vector operand");		assert(VecVT.isVector() && "Can only split reduce vector operand");
GetSplitVector(VecOp, Lo, Hi);		GetSplitVector(VecOp, Lo, Hi);
EVT LoOpVT, HiOpVT;		EVT LoOpVT, HiOpVT;
std::tie(LoOpVT, HiOpVT) = DAG.GetSplitDestVTs(VecVT);		std::tie(LoOpVT, HiOpVT) = DAG.GetSplitDestVTs(VecVT);

bool NoNaN = N->getFlags().hasNoNaNs();
unsigned CombineOpc = 0;		unsigned CombineOpc = 0;
switch (N->getOpcode()) {		switch (N->getOpcode()) {
case ISD::VECREDUCE_FADD: CombineOpc = ISD::FADD; break;		case ISD::VECREDUCE_FADD: CombineOpc = ISD::FADD; break;
case ISD::VECREDUCE_FMUL: CombineOpc = ISD::FMUL; break;		case ISD::VECREDUCE_FMUL: CombineOpc = ISD::FMUL; break;
case ISD::VECREDUCE_ADD: CombineOpc = ISD::ADD; break;		case ISD::VECREDUCE_ADD: CombineOpc = ISD::ADD; break;
case ISD::VECREDUCE_MUL: CombineOpc = ISD::MUL; break;		case ISD::VECREDUCE_MUL: CombineOpc = ISD::MUL; break;
case ISD::VECREDUCE_AND: CombineOpc = ISD::AND; break;		case ISD::VECREDUCE_AND: CombineOpc = ISD::AND; break;
case ISD::VECREDUCE_OR: CombineOpc = ISD::OR; break;		case ISD::VECREDUCE_OR: CombineOpc = ISD::OR; break;
case ISD::VECREDUCE_XOR: CombineOpc = ISD::XOR; break;		case ISD::VECREDUCE_XOR: CombineOpc = ISD::XOR; break;
case ISD::VECREDUCE_SMAX: CombineOpc = ISD::SMAX; break;		case ISD::VECREDUCE_SMAX: CombineOpc = ISD::SMAX; break;
case ISD::VECREDUCE_SMIN: CombineOpc = ISD::SMIN; break;		case ISD::VECREDUCE_SMIN: CombineOpc = ISD::SMIN; break;
case ISD::VECREDUCE_UMAX: CombineOpc = ISD::UMAX; break;		case ISD::VECREDUCE_UMAX: CombineOpc = ISD::UMAX; break;
case ISD::VECREDUCE_UMIN: CombineOpc = ISD::UMIN; break;		case ISD::VECREDUCE_UMIN: CombineOpc = ISD::UMIN; break;
case ISD::VECREDUCE_FMAX:		case ISD::VECREDUCE_FMAX: CombineOpc = ISD::FMAXNUM; break;
CombineOpc = NoNaN ? ISD::FMAXNUM : ISD::FMAXIMUM;		case ISD::VECREDUCE_FMIN: CombineOpc = ISD::FMINNUM; break;
break;
case ISD::VECREDUCE_FMIN:
CombineOpc = NoNaN ? ISD::FMINNUM : ISD::FMINIMUM;
break;
default:		default:
llvm_unreachable("Unexpected reduce ISD node");		llvm_unreachable("Unexpected reduce ISD node");
}		}

// Use the appropriate scalar instruction on the split subvectors before		// Use the appropriate scalar instruction on the split subvectors before
// reducing the now partially reduced smaller vector.		// reducing the now partially reduced smaller vector.
SDValue Partial = DAG.getNode(CombineOpc, dl, LoOpVT, Lo, Hi, N->getFlags());		SDValue Partial = DAG.getNode(CombineOpc, dl, LoOpVT, Lo, Hi, N->getFlags());
return DAG.getNode(N->getOpcode(), dl, ResVT, Partial, N->getFlags());		return DAG.getNode(N->getOpcode(), dl, ResVT, Partial, N->getFlags());
▲ Show 20 Lines • Show All 2,625 Lines • ▼ Show 20 Lines	case ISD::VECREDUCE_FMUL:
NeutralElem = DAG.getConstantFP(1.0, dl, ElemVT);		NeutralElem = DAG.getConstantFP(1.0, dl, ElemVT);
break;		break;
case ISD::VECREDUCE_FMAX:		case ISD::VECREDUCE_FMAX:
NeutralElem = DAG.getConstantFP(		NeutralElem = DAG.getConstantFP(
-std::numeric_limits<double>::infinity(), dl, ElemVT);		-std::numeric_limits<double>::infinity(), dl, ElemVT);
break;		break;
case ISD::VECREDUCE_FMIN:		case ISD::VECREDUCE_FMIN:
NeutralElem = DAG.getConstantFP(		NeutralElem = DAG.getConstantFP(
std::numeric_limits<double>::infinity(), dl, ElemVT);		std::numeric_limits<double>::infinity(), dl, ElemVT);
		craig.topperUnsubmitted Not Done Reply Inline Actions Do we need to drop nonan FMF then? Probably should have been dropping noinf before. Do we have non-power of 2 tests for X86? X86 needs nonan to optimally lower fmaxnum/fminnum. But if you put a nan here then we shouldn't be using optimal lowering. craig.topper: Do we need to drop nonan FMF then? Probably should have been dropping noinf before. Do we have…
		spatelAuthorUnsubmitted Done Reply Inline Actions Yes, we need to drop 'nnan' - otherwise this would create poison. No, we don't have non-pow-2 vector sizes in x86 tests from what I see. I'll add some. spatel: Yes, we need to drop 'nnan' - otherwise this would create poison. No, we don't have non-pow-2…
		nikicUnsubmitted Not Done Reply Inline Actions Given how much X86 needs nnan for a decent lowering here, would it make sense to keep using +/- infinity if nnan is set, and only use qNan if it is not set? nikic: Given how much X86 needs nnan for a decent lowering here, would it make sense to keep using +/…
		spatelAuthorUnsubmitted Done Reply Inline Actions Yes, but I think it's a little trickier than that. As Craig hinted, if we use inf, then we need to clear 'ninf' or we have the same poison problem. Given that this is probably just crashing currently, the bar for quality is pretty low. :) I'd defer enhancements to a follow-up if that's ok. spatel: Yes, but I think it's a little trickier than that. As Craig hinted, if we use inf, then we need…
		nikicUnsubmitted Not Done Reply Inline Actions That's okay as well. In that case I'd suggest to duplicate the fmin-nnan tests into fmin-fast for X86, so we retain coverage for the lowerings we actually want to see. Previously nnan was sufficient for that, now it isn't. (Though not just due to this issue, I guess our vecreduce legalization just generally doesn't work great for X86 right now). nikic: That's okay as well. In that case I'd suggest to duplicate the fmin-nnan tests into fmin-fast…
break;		break;
}		}

// Pad the vector with the neutral element.		// Pad the vector with the neutral element.
unsigned OrigElts = OrigVT.getVectorNumElements();		unsigned OrigElts = OrigVT.getVectorNumElements();
unsigned WideElts = WideVT.getVectorNumElements();		unsigned WideElts = WideVT.getVectorNumElements();
for (unsigned Idx = OrigElts; Idx < WideElts; Idx++)		for (unsigned Idx = OrigElts; Idx < WideElts; Idx++)
Op = DAG.getNode(ISD::INSERT_VECTOR_ELT, dl, WideVT, Op, NeutralElem,		Op = DAG.getNode(ISD::INSERT_VECTOR_ELT, dl, WideVT, Op, NeutralElem,
▲ Show 20 Lines • Show All 507 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,928 Lines • ▼ Show 20 Lines	bool TargetLowering::expandMULO(SDNode *Node, SDValue &Result,

assert(RType.getSizeInBits() == Overflow.getValueSizeInBits() &&		assert(RType.getSizeInBits() == Overflow.getValueSizeInBits() &&
"Unexpected result type for S/UMULO legalization");		"Unexpected result type for S/UMULO legalization");
return true;		return true;
}		}

SDValue TargetLowering::expandVecReduce(SDNode *Node, SelectionDAG &DAG) const {		SDValue TargetLowering::expandVecReduce(SDNode *Node, SelectionDAG &DAG) const {
SDLoc dl(Node);		SDLoc dl(Node);
bool NoNaN = Node->getFlags().hasNoNaNs();
unsigned BaseOpcode = 0;		unsigned BaseOpcode = 0;
switch (Node->getOpcode()) {		switch (Node->getOpcode()) {
default: llvm_unreachable("Expected VECREDUCE opcode");		default: llvm_unreachable("Expected VECREDUCE opcode");
case ISD::VECREDUCE_FADD: BaseOpcode = ISD::FADD; break;		case ISD::VECREDUCE_FADD: BaseOpcode = ISD::FADD; break;
case ISD::VECREDUCE_FMUL: BaseOpcode = ISD::FMUL; break;		case ISD::VECREDUCE_FMUL: BaseOpcode = ISD::FMUL; break;
case ISD::VECREDUCE_ADD: BaseOpcode = ISD::ADD; break;		case ISD::VECREDUCE_ADD: BaseOpcode = ISD::ADD; break;
case ISD::VECREDUCE_MUL: BaseOpcode = ISD::MUL; break;		case ISD::VECREDUCE_MUL: BaseOpcode = ISD::MUL; break;
case ISD::VECREDUCE_AND: BaseOpcode = ISD::AND; break;		case ISD::VECREDUCE_AND: BaseOpcode = ISD::AND; break;
case ISD::VECREDUCE_OR: BaseOpcode = ISD::OR; break;		case ISD::VECREDUCE_OR: BaseOpcode = ISD::OR; break;
case ISD::VECREDUCE_XOR: BaseOpcode = ISD::XOR; break;		case ISD::VECREDUCE_XOR: BaseOpcode = ISD::XOR; break;
case ISD::VECREDUCE_SMAX: BaseOpcode = ISD::SMAX; break;		case ISD::VECREDUCE_SMAX: BaseOpcode = ISD::SMAX; break;
case ISD::VECREDUCE_SMIN: BaseOpcode = ISD::SMIN; break;		case ISD::VECREDUCE_SMIN: BaseOpcode = ISD::SMIN; break;
case ISD::VECREDUCE_UMAX: BaseOpcode = ISD::UMAX; break;		case ISD::VECREDUCE_UMAX: BaseOpcode = ISD::UMAX; break;
case ISD::VECREDUCE_UMIN: BaseOpcode = ISD::UMIN; break;		case ISD::VECREDUCE_UMIN: BaseOpcode = ISD::UMIN; break;
case ISD::VECREDUCE_FMAX:		case ISD::VECREDUCE_FMAX: BaseOpcode = ISD::FMAXNUM; break;
BaseOpcode = NoNaN ? ISD::FMAXNUM : ISD::FMAXIMUM;		case ISD::VECREDUCE_FMIN: BaseOpcode = ISD::FMINNUM; break;
break;
case ISD::VECREDUCE_FMIN:
BaseOpcode = NoNaN ? ISD::FMINNUM : ISD::FMINIMUM;
break;
}		}

SDValue Op = Node->getOperand(0);		SDValue Op = Node->getOperand(0);
EVT VT = Op.getValueType();		EVT VT = Op.getValueType();

// Try to use a shuffle reduction for power of two vectors.		// Try to use a shuffle reduction for power of two vectors.
if (VT.isPow2VectorType()) {		if (VT.isPow2VectorType()) {
while (VT.getVectorNumElements() > 1) {		while (VT.getVectorNumElements() > 1) {
▲ Show 20 Lines • Show All 49 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 9,496 Lines • ▼ Show 20 Lines	case ISD::VECREDUCE_SMAX:
return getReductionSDNode(AArch64ISD::SMAXV, dl, Op, DAG);		return getReductionSDNode(AArch64ISD::SMAXV, dl, Op, DAG);
case ISD::VECREDUCE_SMIN:		case ISD::VECREDUCE_SMIN:
return getReductionSDNode(AArch64ISD::SMINV, dl, Op, DAG);		return getReductionSDNode(AArch64ISD::SMINV, dl, Op, DAG);
case ISD::VECREDUCE_UMAX:		case ISD::VECREDUCE_UMAX:
return getReductionSDNode(AArch64ISD::UMAXV, dl, Op, DAG);		return getReductionSDNode(AArch64ISD::UMAXV, dl, Op, DAG);
case ISD::VECREDUCE_UMIN:		case ISD::VECREDUCE_UMIN:
return getReductionSDNode(AArch64ISD::UMINV, dl, Op, DAG);		return getReductionSDNode(AArch64ISD::UMINV, dl, Op, DAG);
case ISD::VECREDUCE_FMAX: {		case ISD::VECREDUCE_FMAX: {
assert(Op->getFlags().hasNoNaNs() && "fmax vector reduction needs NoNaN flag");
return DAG.getNode(		return DAG.getNode(
ISD::INTRINSIC_WO_CHAIN, dl, Op.getValueType(),		ISD::INTRINSIC_WO_CHAIN, dl, Op.getValueType(),
DAG.getConstant(Intrinsic::aarch64_neon_fmaxnmv, dl, MVT::i32),		DAG.getConstant(Intrinsic::aarch64_neon_fmaxnmv, dl, MVT::i32),
Op.getOperand(0));		Op.getOperand(0));
}		}
case ISD::VECREDUCE_FMIN: {		case ISD::VECREDUCE_FMIN: {
assert(Op->getFlags().hasNoNaNs() && "fmin vector reduction needs NoNaN flag");
return DAG.getNode(		return DAG.getNode(
ISD::INTRINSIC_WO_CHAIN, dl, Op.getValueType(),		ISD::INTRINSIC_WO_CHAIN, dl, Op.getValueType(),
DAG.getConstant(Intrinsic::aarch64_neon_fminnmv, dl, MVT::i32),		DAG.getConstant(Intrinsic::aarch64_neon_fminnmv, dl, MVT::i32),
Op.getOperand(0));		Op.getOperand(0));
}		}
default:		default:
llvm_unreachable("Unhandled reduction");		llvm_unreachable("Unhandled reduction");
}		}
▲ Show 20 Lines • Show All 6,247 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/vecreduce-fmax-legalization-nan.ll

	Show First 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	;define float @test_v3f32(<3 x float> %a) nounwind {			;define float @test_v3f32(<3 x float> %a) nounwind {
	; %b = call float @llvm.experimental.vector.reduce.fmax.v3f32(<3 x float> %a)			; %b = call float @llvm.experimental.vector.reduce.fmax.v3f32(<3 x float> %a)
	; ret float %b			; ret float %b
	;}			;}

	define fp128 @test_v2f128(<2 x fp128> %a) nounwind {			define fp128 @test_v2f128(<2 x fp128> %a) nounwind {
	; CHECK-LABEL: test_v2f128:			; CHECK-LABEL: test_v2f128:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: sub sp, sp, #48 // =48			; CHECK-NEXT: b fmaxl
	; CHECK-NEXT: str x30, [sp, #32] // 8-byte Folded Spill
	; CHECK-NEXT: stp q0, q1, [sp] // 32-byte Folded Spill
	; CHECK-NEXT: bl __gttf2
	; CHECK-NEXT: ldr q0, [sp, #16] // 16-byte Folded Reload
	; CHECK-NEXT: cmp w0, #0 // =0
	; CHECK-NEXT: b.le .LBB4_2
	; CHECK-NEXT: // %bb.1:
	; CHECK-NEXT: ldr q0, [sp] // 16-byte Folded Reload
	; CHECK-NEXT: .LBB4_2:
	; CHECK-NEXT: ldr x30, [sp, #32] // 8-byte Folded Reload
	; CHECK-NEXT: add sp, sp, #48 // =48
	; CHECK-NEXT: ret
	%b = call fp128 @llvm.experimental.vector.reduce.fmax.v2f128(<2 x fp128> %a)			%b = call fp128 @llvm.experimental.vector.reduce.fmax.v2f128(<2 x fp128> %a)
	ret fp128 %b			ret fp128 %b
	}			}

	define float @test_v16f32(<16 x float> %a) nounwind {			define float @test_v16f32(<16 x float> %a) nounwind {
	; CHECK-LABEL: test_v16f32:			; CHECK-LABEL: test_v16f32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: fmaxnm v1.4s, v1.4s, v3.4s			; CHECK-NEXT: fmaxnm v1.4s, v1.4s, v3.4s
	; CHECK-NEXT: fmaxnm v0.4s, v0.4s, v2.4s			; CHECK-NEXT: fmaxnm v0.4s, v0.4s, v2.4s
	; CHECK-NEXT: fmaxnm v0.4s, v0.4s, v1.4s			; CHECK-NEXT: fmaxnm v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: dup v1.2d, v0.d[1]			; CHECK-NEXT: fmaxnmv s0, v0.4s
	; CHECK-NEXT: fmaxnm v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: dup v1.4s, v0.s[1]
	; CHECK-NEXT: fmaxnm v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: // kill: def $s0 killed $s0 killed $q0
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call float @llvm.experimental.vector.reduce.fmax.v16f32(<16 x float> %a)			%b = call float @llvm.experimental.vector.reduce.fmax.v16f32(<16 x float> %a)
	ret float %b			ret float %b
	}			}

llvm/test/CodeGen/Generic/expand-experimental-reductions.ll

	Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	define float @fadd_f32(<4 x float> %vec) {			define float @fadd_f32(<4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32(			; CHECK-LABEL: @fadd_f32(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: [[TMP1:%.*]] = fadd fast float 0.000000e+00, [[TMP0]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fadd fast float 0.000000e+00, [[TMP0]]
	; CHECK-NEXT: ret float [[TMP1]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.0, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float 0.0, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_accum(float %accum, <4 x float> %vec) {			define float @fadd_f32_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_accum(			; CHECK-LABEL: @fadd_f32_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fadd fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fadd fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: [[TMP1:%.*]] = fadd fast float %accum, [[TMP0]]			; CHECK-NEXT: [[BIN_RDX3:%.]] = fadd fast float [[ACCUM:%.]], [[TMP0]]
	; CHECK-NEXT: ret float [[TMP1]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %accum, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fadd.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fadd_f32_strict(<4 x float> %vec) {			define float @fadd_f32_strict(<4 x float> %vec) {
	; CHECK-LABEL: @fadd_f32_strict(			; CHECK-LABEL: @fadd_f32_strict(
	Show All 34 Lines
	define float @fmul_f32(<4 x float> %vec) {			define float @fmul_f32(<4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32(			; CHECK-LABEL: @fmul_f32(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: [[TMP1:%.*]] = fmul fast float 1.000000e+00, [[TMP0]]			; CHECK-NEXT: [[BIN_RDX3:%.*]] = fmul fast float 1.000000e+00, [[TMP0]]
	; CHECK-NEXT: ret float [[TMP1]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.0, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float 1.0, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_accum(float %accum, <4 x float> %vec) {			define float @fmul_f32_accum(float %accum, <4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_accum(			; CHECK-LABEL: @fmul_f32_accum(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <4 x float> [[VEC:%.]], <4 x float> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: [[BIN_RDX:%.*]] = fmul fast <4 x float> [[VEC]], [[RDX_SHUF]]
	; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			; CHECK-NEXT: [[RDX_SHUF1:%.*]] = shufflevector <4 x float> [[BIN_RDX]], <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]			; CHECK-NEXT: [[BIN_RDX2:%.*]] = fmul fast <4 x float> [[BIN_RDX]], [[RDX_SHUF1]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <4 x float> [[BIN_RDX2]], i32 0
	; CHECK-NEXT: [[TMP1:%.*]] = fmul fast float %accum, [[TMP0]]			; CHECK-NEXT: [[BIN_RDX3:%.]] = fmul fast float [[ACCUM:%.]], [[TMP0]]
	; CHECK-NEXT: ret float [[TMP1]]			; CHECK-NEXT: ret float [[BIN_RDX3]]
	;			;
	entry:			entry:
	%r = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %accum, <4 x float> %vec)			%r = call fast float @llvm.experimental.vector.reduce.v2.fmul.f32.v4f32(float %accum, <4 x float> %vec)
	ret float %r			ret float %r
	}			}

	define float @fmul_f32_strict(<4 x float> %vec) {			define float @fmul_f32_strict(<4 x float> %vec) {
	; CHECK-LABEL: @fmul_f32_strict(			; CHECK-LABEL: @fmul_f32_strict(
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <2 x i64> [[RDX_MINMAX_SELECT]], i32 0			; CHECK-NEXT: [[TMP0:%.*]] = extractelement <2 x i64> [[RDX_MINMAX_SELECT]], i32 0
	; CHECK-NEXT: ret i64 [[TMP0]]			; CHECK-NEXT: ret i64 [[TMP0]]
	;			;
	entry:			entry:
	%r = call i64 @llvm.experimental.vector.reduce.umin.v2i64(<2 x i64> %vec)			%r = call i64 @llvm.experimental.vector.reduce.umin.v2i64(<2 x i64> %vec)
	ret i64 %r			ret i64 %r
	}			}

				; FIXME: Expand using maxnum intrinsic?

	define double @fmax_f64(<2 x double> %vec) {			define double @fmax_f64(<2 x double> %vec) {
	; CHECK-LABEL: @fmax_f64(			; CHECK-LABEL: @fmax_f64(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <2 x double> [[VEC:%.]], <2 x double> undef, <2 x i32> <i32 1, i32 undef>			; CHECK-NEXT: [[R:%.]] = call double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double> [[VEC:%.]])
	; CHECK-NEXT: [[RDX_MINMAX_CMP:%.*]] = fcmp fast ogt <2 x double> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: ret double [[R]]
	; CHECK-NEXT: [[RDX_MINMAX_SELECT:%.*]] = select fast <2 x i1> [[RDX_MINMAX_CMP]], <2 x double> [[VEC]], <2 x double> [[RDX_SHUF]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <2 x double> [[RDX_MINMAX_SELECT]], i32 0
	; CHECK-NEXT: ret double [[TMP0]]
	;			;
	entry:			entry:
	%r = call double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double> %vec)			%r = call double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double> %vec)
	ret double %r			ret double %r
	}			}

				; FIXME: Expand using minnum intrinsic?

	define double @fmin_f64(<2 x double> %vec) {			define double @fmin_f64(<2 x double> %vec) {
	; CHECK-LABEL: @fmin_f64(			; CHECK-LABEL: @fmin_f64(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: [[RDX_SHUF:%.]] = shufflevector <2 x double> [[VEC:%.]], <2 x double> undef, <2 x i32> <i32 1, i32 undef>			; CHECK-NEXT: [[R:%.]] = call double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double> [[VEC:%.]])
	; CHECK-NEXT: [[RDX_MINMAX_CMP:%.*]] = fcmp fast olt <2 x double> [[VEC]], [[RDX_SHUF]]			; CHECK-NEXT: ret double [[R]]
	; CHECK-NEXT: [[RDX_MINMAX_SELECT:%.*]] = select fast <2 x i1> [[RDX_MINMAX_CMP]], <2 x double> [[VEC]], <2 x double> [[RDX_SHUF]]
	; CHECK-NEXT: [[TMP0:%.*]] = extractelement <2 x double> [[RDX_MINMAX_SELECT]], i32 0
	; CHECK-NEXT: ret double [[TMP0]]
	;			;
	entry:			entry:
	%r = call double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double> %vec)			%r = call double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double> %vec)
	ret double %r			ret double %r
	}			}

				; FIXME: Why is this not expanded?
				nikicUnsubmitted Not Done Reply Inline Actions Don't think there's any plans to support non-pow2 vectors in the IR expansions. nikic: Don't think there's any plans to support non-pow2 vectors in the IR expansions.

	; Test when the vector size is not power of two.			; Test when the vector size is not power of two.
	define i8 @test_v3i8(<3 x i8> %a) nounwind {			define i8 @test_v3i8(<3 x i8> %a) nounwind {
	; CHECK-LABEL: @test_v3i8(			; CHECK-LABEL: @test_v3i8(
	; CHECK-NEXT: entry:			; CHECK-NEXT: entry:
	; CHECK-NEXT: %b = call i8 @llvm.experimental.vector.reduce.and.v3i8(<3 x i8> %a)			; CHECK-NEXT: [[B:%.]] = call i8 @llvm.experimental.vector.reduce.and.v3i8(<3 x i8> [[A:%.]])
	; CHECK-NEXT: ret i8 %b			; CHECK-NEXT: ret i8 [[B]]
	;			;
	entry:			entry:
	%b = call i8 @llvm.experimental.vector.reduce.and.i8.v3i8(<3 x i8> %a)			%b = call i8 @llvm.experimental.vector.reduce.and.i8.v3i8(<3 x i8> %a)
	ret i8 %b			ret i8 %b
	}			}

llvm/test/CodeGen/Thumb2/mve-vecreduce-fminmax.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp,+fp64 -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-FP		; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp,+fp64 -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-FP
; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve,+fullfp16,+fp64 -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-NOFP		; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve,+fullfp16,+fp64 -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-NOFP

; FIXME minnum nonan X, +Inf -> X ?		; FIXME minnum nonan X, +Inf -> X ?
dmgreenUnsubmitted Not Done Reply Inline Actions Thanks! dmgreen: Thanks!
define arm_aapcs_vfpcc float @fmin_v2f32(<2 x float> %x) {		define arm_aapcs_vfpcc float @fmin_v2f32(<2 x float> %x) {
; CHECK-FP-LABEL: fmin_v2f32:		; CHECK-FP-LABEL: fmin_v2f32:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vldr s4, .LCPI0_0		; CHECK-FP-NEXT: vldr s4, .LCPI0_0
; CHECK-FP-NEXT: vminnm.f32 s0, s0, s1		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vminnm.f32 s0, s0, s4		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s4
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
; CHECK-FP-NEXT: .p2align 2		; CHECK-FP-NEXT: .p2align 2
▲ Show 20 Lines • Show All 223 Lines • ▼ Show 20 Lines	entry:
ret double %z		ret double %z
}		}

; FIXME should not be vminnm		; FIXME should not be vminnm
; FIXME better reductions (no vmovs/vdups)		; FIXME better reductions (no vmovs/vdups)
define arm_aapcs_vfpcc float @fmin_v2f32_nofast(<2 x float> %x) {		define arm_aapcs_vfpcc float @fmin_v2f32_nofast(<2 x float> %x) {
; CHECK-FP-LABEL: fmin_v2f32_nofast:		; CHECK-FP-LABEL: fmin_v2f32_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov r0, s1		; CHECK-FP-NEXT: vldr s4, .LCPI9_0
; CHECK-FP-NEXT: vdup.32 q1, r0		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s4
		nikicUnsubmitted Not Done Reply Inline Actions This lowering looks incorrect for the case where both elements are NaN. We'll fold to +INF then. We probably have an expansion that assumes +INF is a neutral element for fminnum, but it isn't in the presence of NaNs :/ nikic: This lowering looks incorrect for the case where both elements are NaN. We'll fold to +INF then.
		spatelAuthorUnsubmitted Done Reply Inline Actions Good catch - something in vector legalization does that: t15: v4f32 = insert_vector_elt t12, ConstantFP:f32<INF>, Constant:i32<2> t17: v4f32 = insert_vector_elt t15, ConstantFP:f32<INF>, Constant:i32<3> t18: f32 = vecreduce_fmin t17 spatel: Good catch - something in vector legalization does that: t15: v4f32 = insert_vector_elt…
		dmgreenUnsubmitted Not Done Reply Inline Actions I originally thought this was because we don't go through ExpandReductions, widening them in ISel instead. They do look like they get padded with +/- Inf in that case. But we do expand pre-isel if NoNan isn't present in shouldExpandReduction. I looks like some of the expansion of min/max is unconditionally setting fast flags in llvm::createMinMaxOp. Unless I'm mistaken. The padding with +/- inf is likely a problem on it's own right too. dmgreen: I originally thought this was because we don't go through ExpandReductions, widening them in…
		dmgreenUnsubmitted Not Done Reply Inline Actions Oh I see you are change how that works. It sounds like shouldExpandReduction could be updated then? dmgreen: Oh I see you are change how that works. It sounds like shouldExpandReduction could be updated…
		spatelAuthorUnsubmitted Done Reply Inline Actions Hmm...not sure. It's not clear to me what the benefit of expanding in IR was/is. Was that needed because there was no common definition for these intrinsics/nodes? The ARM override says: // Can't legalize reductions with soft floats, and NoNan will create // fminimum which we do not know how to lower. return TLI->useSoftFloat() \|\| !TLI->getSubtarget()->hasFPRegs() \|\| !II->getFastMathFlags().noNaNs(); So at the least I should update the comment. Leave the TLI checks but remove the FMF check? spatel: Hmm...not sure. It's not clear to me what the benefit of expanding in IR was/is. Was that…
		nikicUnsubmitted Not Done Reply Inline Actions That's right, you can drop the noNaNs check now (there should be a similar one in AArch64). This is intended to never use the IR expansion unless needed to avoid SDAG assertions. Those will be gone for the nnan case now. nikic: That's right, you can drop the noNaNs check now (there should be a similar one in AArch64).
		dmgreenUnsubmitted Not Done Reply Inline Actions It's not clear to me what the benefit of expanding in IR was/is. I agree. I think a lot of it was legacy, and expanding during ISel seems like a better way forward if we can make it work. dmgreen: > It's not clear to me what the benefit of expanding in IR was/is. I agree. I think a lot of…
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
		; CHECK-FP-NEXT: .p2align 2
		; CHECK-FP-NEXT: @ %bb.1:
		; CHECK-FP-NEXT: .LCPI9_0:
		; CHECK-FP-NEXT: .long 0x7f800000 @ float +Inf
;		;
; CHECK-NOFP-LABEL: fmin_v2f32_nofast:		; CHECK-NOFP-LABEL: fmin_v2f32_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s1, s0		; CHECK-NOFP-NEXT: vldr s4, .LCPI9_0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f32 s0, s0, s1
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s1		; CHECK-NOFP-NEXT: vminnm.f32 s0, s0, s4
		; CHECK-NOFP-NEXT: vminnm.f32 s0, s0, s4
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
		; CHECK-NOFP-NEXT: .p2align 2
		; CHECK-NOFP-NEXT: @ %bb.1:
		; CHECK-NOFP-NEXT: .LCPI9_0:
		; CHECK-NOFP-NEXT: .long 0x7f800000 @ float +Inf
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float> %x)
ret float %z		ret float %z
}		}

define arm_aapcs_vfpcc float @fmin_v4f32_nofast(<4 x float> %x) {		define arm_aapcs_vfpcc float @fmin_v4f32_nofast(<4 x float> %x) {
; CHECK-FP-LABEL: fmin_v4f32_nofast:		; CHECK-FP-LABEL: fmin_v4f32_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vminnm.f32 s4, s2, s3
; CHECK-FP-NEXT: vmov.f32 s5, s3		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s4
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q1, r0
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q1
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmin_v4f32_nofast:		; CHECK-NOFP-LABEL: fmin_v4f32_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s3, s1		; CHECK-NOFP-NEXT: vminnm.f32 s4, s0, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f32 s4, s4, s2
; CHECK-NOFP-NEXT: vmov.f64 d2, d1		; CHECK-NOFP-NEXT: vminnm.f32 s0, s4, s3
; CHECK-NOFP-NEXT: vmov.f32 s5, s3
; CHECK-NOFP-NEXT: vcmp.f32 s4, s0
; CHECK-NOFP-NEXT: vselgt.f32 s8, s1, s3
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s4
; CHECK-NOFP-NEXT: vcmp.f32 s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s8
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %x)
ret float %z		ret float %z
}		}

define arm_aapcs_vfpcc float @fmin_v8f32_nofast(<8 x float> %x) {		define arm_aapcs_vfpcc float @fmin_v8f32_nofast(<8 x float> %x) {
; CHECK-FP-LABEL: fmin_v8f32_nofast:		; CHECK-FP-LABEL: fmin_v8f32_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f32 q0, q0, q1
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vminnm.f32 s4, s2, s3
; CHECK-FP-NEXT: vmov.f32 s5, s3		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s4
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q1, r0
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q1
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmin_v8f32_nofast:		; CHECK-NOFP-LABEL: fmin_v8f32_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s7, s3		; CHECK-NOFP-NEXT: vminnm.f32 s10, s0, s4
		dmgreenUnsubmitted Not Done Reply Inline Actions It seems like some of these are _better_ than the fast math versions! :) dmgreen: It seems like some of these are _better_ than the fast math versions! :)
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f32 s8, s1, s5
; CHECK-NOFP-NEXT: vcmp.f32 s5, s1		; CHECK-NOFP-NEXT: vminnm.f32 s8, s10, s8
; CHECK-NOFP-NEXT: vselgt.f32 s8, s3, s7		; CHECK-NOFP-NEXT: vminnm.f32 s10, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f32 s8, s8, s10
; CHECK-NOFP-NEXT: vcmp.f32 s6, s2		; CHECK-NOFP-NEXT: vminnm.f32 s0, s3, s7
; CHECK-NOFP-NEXT: vselgt.f32 s10, s1, s5		; CHECK-NOFP-NEXT: vminnm.f32 s0, s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s4, s0
; CHECK-NOFP-NEXT: vselgt.f32 s12, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s8, s10
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s12, s0
; CHECK-NOFP-NEXT: vselgt.f32 s2, s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s12
; CHECK-NOFP-NEXT: vcmp.f32 s2, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s2
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float> %x)
ret float %z		ret float %z
}		}

define arm_aapcs_vfpcc half @fmin_v4f16_nofast(<4 x half> %x) {		define arm_aapcs_vfpcc half @fmin_v4f16_nofast(<4 x half> %x) {
; CHECK-FP-LABEL: fmin_v4f16_nofast:		; CHECK-FP-LABEL: fmin_v4f16_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov r0, s1		; CHECK-FP-NEXT: vmovx.f16 s4, s1
; CHECK-FP-NEXT: vdup.32 q1, r0		; CHECK-FP-NEXT: vmovx.f16 s6, s0
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f16 s4, s1, s4
; CHECK-FP-NEXT: vmov.u16 r0, q0[1]		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s6
; CHECK-FP-NEXT: vdup.16 q1, r0		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s4
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmin_v4f16_nofast:		; CHECK-NOFP-LABEL: fmin_v4f16_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmov r0, s1		; CHECK-NOFP-NEXT: vmovx.f16 s4, s0
; CHECK-NOFP-NEXT: vmovx.f16 s10, s0		; CHECK-NOFP-NEXT: vminnm.f16 s4, s0, s4
; CHECK-NOFP-NEXT: vdup.32 q1, r0		; CHECK-NOFP-NEXT: vmovx.f16 s0, s1
; CHECK-NOFP-NEXT: vmovx.f16 s8, s4		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s1
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10		; CHECK-NOFP-NEXT: vldr.16 s2, .LCPI12_0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s0, s4, s0
; CHECK-NOFP-NEXT: vcmp.f16 s4, s0		; CHECK-NOFP-NEXT: vminnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vminnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4		; CHECK-NOFP-NEXT: vminnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vcmp.f16 s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
		; CHECK-NOFP-NEXT: .p2align 1
		; CHECK-NOFP-NEXT: @ %bb.1:
		; CHECK-NOFP-NEXT: .LCPI12_0:
		; CHECK-NOFP-NEXT: .short 0x7c00 @ half +Inf
entry:		entry:
%z = call half @llvm.experimental.vector.reduce.fmin.v4f16(<4 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmin.v4f16(<4 x half> %x)
ret half %z		ret half %z
}		}

define arm_aapcs_vfpcc half @fmin_v8f16_nofast(<8 x half> %x) {		define arm_aapcs_vfpcc half @fmin_v8f16_nofast(<8 x half> %x) {
; CHECK-FP-LABEL: fmin_v8f16_nofast:		; CHECK-FP-LABEL: fmin_v8f16_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vrev32.16 q1, q0
; CHECK-FP-NEXT: vmov.f32 s5, s3
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q1, r0
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.u16 r0, q0[1]
; CHECK-FP-NEXT: vdup.16 q1, r0
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0		; CHECK-FP-NEXT: vminnm.f16 s4, s2, s3
		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s1
		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s4
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmin_v8f16_nofast:		; CHECK-NOFP-LABEL: fmin_v8f16_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmovx.f16 s8, s3		; CHECK-NOFP-NEXT: vmovx.f16 s4, s0
; CHECK-NOFP-NEXT: vmovx.f16 s10, s1		; CHECK-NOFP-NEXT: vmovx.f16 s6, s1
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10		; CHECK-NOFP-NEXT: vminnm.f16 s4, s0, s4
; CHECK-NOFP-NEXT: vmov.f64 d2, d1		; CHECK-NOFP-NEXT: vmovx.f16 s0, s3
; CHECK-NOFP-NEXT: vmovx.f16 s12, s0		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s6
; CHECK-NOFP-NEXT: vmov.f32 s5, s3		; CHECK-NOFP-NEXT: vmovx.f16 s6, s2
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s2
; CHECK-NOFP-NEXT: vmovx.f16 s10, s4		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s6
; CHECK-NOFP-NEXT: vcmp.f16 s10, s12		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s3
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s0, s4, s0
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s3, s1
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s4, s0
; CHECK-NOFP-NEXT: vselgt.f16 s10, s1, s3
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vcmp.f16 s10, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s10
; CHECK-NOFP-NEXT: vcmp.f16 s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call half @llvm.experimental.vector.reduce.fmin.v8f16(<8 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmin.v8f16(<8 x half> %x)
ret half %z		ret half %z
}		}

define arm_aapcs_vfpcc half @fmin_v16f16_nofast(<16 x half> %x) {		define arm_aapcs_vfpcc half @fmin_v16f16_nofast(<16 x half> %x) {
; CHECK-FP-LABEL: fmin_v16f16_nofast:		; CHECK-FP-LABEL: fmin_v16f16_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vrev32.16 q1, q0
; CHECK-FP-NEXT: vmov.f32 s5, s3
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q1, r0
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.u16 r0, q0[1]
; CHECK-FP-NEXT: vdup.16 q1, r0
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0		; CHECK-FP-NEXT: vminnm.f16 s4, s2, s3
		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s1
		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s4
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmin_v16f16_nofast:		; CHECK-NOFP-LABEL: fmin_v16f16_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmovx.f16 s8, s7		; CHECK-NOFP-NEXT: vmovx.f16 s8, s4
; CHECK-NOFP-NEXT: vmovx.f16 s10, s3		; CHECK-NOFP-NEXT: vmovx.f16 s10, s0
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10		; CHECK-NOFP-NEXT: vminnm.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmovx.f16 s12, s1		; CHECK-NOFP-NEXT: vminnm.f16 s10, s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmovx.f16 s14, s0		; CHECK-NOFP-NEXT: vminnm.f16 s10, s1, s5
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vminnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s10, s5		; CHECK-NOFP-NEXT: vmovx.f16 s10, s5
; CHECK-NOFP-NEXT: vcmp.f16 s10, s12		; CHECK-NOFP-NEXT: vmovx.f16 s12, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmovx.f16 s4, s7
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10		; CHECK-NOFP-NEXT: vminnm.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmovx.f16 s12, s2		; CHECK-NOFP-NEXT: vmovx.f16 s12, s2
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10		; CHECK-NOFP-NEXT: vminnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s10, s2, s6
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vminnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s10, s6		; CHECK-NOFP-NEXT: vmovx.f16 s10, s6
; CHECK-NOFP-NEXT: vcmp.f16 s10, s12		; CHECK-NOFP-NEXT: vminnm.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmovx.f16 s0, s3
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10		; CHECK-NOFP-NEXT: vminnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s12, s4		; CHECK-NOFP-NEXT: vminnm.f16 s10, s3, s7
; CHECK-NOFP-NEXT: vcmp.f16 s12, s14		; CHECK-NOFP-NEXT: vminnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vselgt.f16 s12, s14, s12		; CHECK-NOFP-NEXT: vminnm.f16 s0, s8, s0
; CHECK-NOFP-NEXT: vcmp.f16 s10, s12
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s7, s3
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s5, s1
; CHECK-NOFP-NEXT: vselgt.f16 s10, s3, s7
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s12, s1, s5
; CHECK-NOFP-NEXT: vcmp.f16 s10, s12
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s6, s2
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s4, s0
; CHECK-NOFP-NEXT: vselgt.f16 s12, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vcmp.f16 s12, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s12
; CHECK-NOFP-NEXT: vcmp.f16 s10, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s10
; CHECK-NOFP-NEXT: vcmp.f16 s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call half @llvm.experimental.vector.reduce.fmin.v16f16(<16 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmin.v16f16(<16 x half> %x)
ret half %z		ret half %z
}		}

define arm_aapcs_vfpcc double @fmin_v1f64_nofast(<1 x double> %x) {		define arm_aapcs_vfpcc double @fmin_v1f64_nofast(<1 x double> %x) {
; CHECK-LABEL: fmin_v1f64_nofast:		; CHECK-LABEL: fmin_v1f64_nofast:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = call double @llvm.experimental.vector.reduce.fmin.v1f64(<1 x double> %x)		%z = call double @llvm.experimental.vector.reduce.fmin.v1f64(<1 x double> %x)
ret double %z		ret double %z
}		}

define arm_aapcs_vfpcc double @fmin_v2f64_nofast(<2 x double> %x) {		define arm_aapcs_vfpcc double @fmin_v2f64_nofast(<2 x double> %x) {
; CHECK-LABEL: fmin_v2f64_nofast:		; CHECK-LABEL: fmin_v2f64_nofast:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vcmp.f64 d1, d0		; CHECK-NEXT: vminnm.f64 d0, d0, d1
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d1
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = call double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double> %x)		%z = call double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double> %x)
ret double %z		ret double %z
}		}

define arm_aapcs_vfpcc double @fmin_v4f64_nofast(<4 x double> %x) {		define arm_aapcs_vfpcc double @fmin_v4f64_nofast(<4 x double> %x) {
; CHECK-LABEL: fmin_v4f64_nofast:		; CHECK-LABEL: fmin_v4f64_nofast:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vcmp.f64 d3, d1		; CHECK-NEXT: vminnm.f64 d4, d1, d3
; CHECK-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NEXT: vminnm.f64 d0, d0, d2
; CHECK-NEXT: vcmp.f64 d2, d0		; CHECK-NEXT: vminnm.f64 d0, d0, d4
; CHECK-NEXT: vselgt.f64 d4, d1, d3
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d2
; CHECK-NEXT: vcmp.f64 d4, d0
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = call double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double> %x)		%z = call double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double> %x)
ret double %z		ret double %z
}		}

define arm_aapcs_vfpcc float @fmin_v2f32_acc(<2 x float> %x, float %y) {		define arm_aapcs_vfpcc float @fmin_v2f32_acc(<2 x float> %x, float %y) {
; CHECK-FP-LABEL: fmin_v2f32_acc:		; CHECK-FP-LABEL: fmin_v2f32_acc:
▲ Show 20 Lines • Show All 315 Lines • ▼ Show 20 Lines	entry:
%c = fcmp fast olt double %y, %z		%c = fcmp fast olt double %y, %z
%r = select i1 %c, double %y, double %z		%r = select i1 %c, double %y, double %z
ret double %r		ret double %r
}		}

define arm_aapcs_vfpcc float @fmin_v2f32_acc_nofast(<2 x float> %x, float %y) {		define arm_aapcs_vfpcc float @fmin_v2f32_acc_nofast(<2 x float> %x, float %y) {
; CHECK-FP-LABEL: fmin_v2f32_acc_nofast:		; CHECK-FP-LABEL: fmin_v2f32_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov r0, s1		; CHECK-FP-NEXT: vldr s6, .LCPI28_0
; CHECK-FP-NEXT: vdup.32 q2, r0		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q2		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s6
; CHECK-FP-NEXT: vcmp.f32 s0, s4		; CHECK-FP-NEXT: vcmp.f32 s0, s4
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f32 s0, s4, s0		; CHECK-FP-NEXT: vselgt.f32 s0, s4, s0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
		; CHECK-FP-NEXT: .p2align 2
		; CHECK-FP-NEXT: @ %bb.1:
		; CHECK-FP-NEXT: .LCPI28_0:
		; CHECK-FP-NEXT: .long 0x7f800000 @ float +Inf
;		;
; CHECK-NOFP-LABEL: fmin_v2f32_acc_nofast:		; CHECK-NOFP-LABEL: fmin_v2f32_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s1, s0		; CHECK-NOFP-NEXT: vldr s6, .LCPI28_0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f32 s0, s0, s1
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s1		; CHECK-NOFP-NEXT: vminnm.f32 s0, s0, s6
		; CHECK-NOFP-NEXT: vminnm.f32 s0, s0, s6
; CHECK-NOFP-NEXT: vcmp.f32 s0, s4		; CHECK-NOFP-NEXT: vcmp.f32 s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s4, s0		; CHECK-NOFP-NEXT: vselgt.f32 s0, s4, s0
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
		; CHECK-NOFP-NEXT: .p2align 2
		; CHECK-NOFP-NEXT: @ %bb.1:
		; CHECK-NOFP-NEXT: .LCPI28_0:
		; CHECK-NOFP-NEXT: .long 0x7f800000 @ float +Inf
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float> %x)
%c = fcmp olt float %y, %z		%c = fcmp olt float %y, %z
%r = select i1 %c, float %y, float %z		%r = select i1 %c, float %y, float %z
ret float %r		ret float %r
}		}

define arm_aapcs_vfpcc float @fmin_v4f32_acc_nofast(<4 x float> %x, float %y) {		define arm_aapcs_vfpcc float @fmin_v4f32_acc_nofast(<4 x float> %x, float %y) {
; CHECK-FP-LABEL: fmin_v4f32_acc_nofast:		; CHECK-FP-LABEL: fmin_v4f32_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov.f64 d4, d1		; CHECK-FP-NEXT: vminnm.f32 s6, s2, s3
; CHECK-FP-NEXT: vmov.f32 s9, s3		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q2		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s6
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q2, r0
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q2
; CHECK-FP-NEXT: vcmp.f32 s0, s4		; CHECK-FP-NEXT: vcmp.f32 s0, s4
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f32 s0, s4, s0		; CHECK-FP-NEXT: vselgt.f32 s0, s4, s0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmin_v4f32_acc_nofast:		; CHECK-NOFP-LABEL: fmin_v4f32_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s3, s1		; CHECK-NOFP-NEXT: vminnm.f32 s6, s0, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f32 s6, s6, s2
; CHECK-NOFP-NEXT: vmov.f64 d4, d1		; CHECK-NOFP-NEXT: vminnm.f32 s0, s6, s3
; CHECK-NOFP-NEXT: vmov.f32 s9, s3
; CHECK-NOFP-NEXT: vcmp.f32 s8, s0
; CHECK-NOFP-NEXT: vselgt.f32 s6, s1, s3
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s8
; CHECK-NOFP-NEXT: vcmp.f32 s6, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s6
; CHECK-NOFP-NEXT: vcmp.f32 s0, s4		; CHECK-NOFP-NEXT: vcmp.f32 s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s4, s0		; CHECK-NOFP-NEXT: vselgt.f32 s0, s4, s0
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %x)
%c = fcmp olt float %y, %z		%c = fcmp olt float %y, %z
%r = select i1 %c, float %y, float %z		%r = select i1 %c, float %y, float %z
ret float %r		ret float %r
}		}

define arm_aapcs_vfpcc float @fmin_v8f32_acc_nofast(<8 x float> %x, float %y) {		define arm_aapcs_vfpcc float @fmin_v8f32_acc_nofast(<8 x float> %x, float %y) {
; CHECK-FP-LABEL: fmin_v8f32_acc_nofast:		; CHECK-FP-LABEL: fmin_v8f32_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f32 q0, q0, q1
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vminnm.f32 s4, s2, s3
; CHECK-FP-NEXT: vmov.f32 s5, s3		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f32 s0, s0, s4
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q1, r0
; CHECK-FP-NEXT: vminnm.f32 q0, q0, q1
; CHECK-FP-NEXT: vcmp.f32 s0, s8		; CHECK-FP-NEXT: vcmp.f32 s0, s8
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f32 s0, s8, s0		; CHECK-FP-NEXT: vselgt.f32 s0, s8, s0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmin_v8f32_acc_nofast:		; CHECK-NOFP-LABEL: fmin_v8f32_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s7, s3		; CHECK-NOFP-NEXT: vminnm.f32 s12, s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f32 s10, s1, s5
; CHECK-NOFP-NEXT: vcmp.f32 s5, s1		; CHECK-NOFP-NEXT: vminnm.f32 s10, s12, s10
; CHECK-NOFP-NEXT: vselgt.f32 s10, s3, s7		; CHECK-NOFP-NEXT: vminnm.f32 s12, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f32 s10, s10, s12
; CHECK-NOFP-NEXT: vcmp.f32 s6, s2		; CHECK-NOFP-NEXT: vminnm.f32 s0, s3, s7
; CHECK-NOFP-NEXT: vselgt.f32 s12, s1, s5		; CHECK-NOFP-NEXT: vminnm.f32 s0, s10, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s4, s0
; CHECK-NOFP-NEXT: vselgt.f32 s14, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s10, s12
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s14, s0
; CHECK-NOFP-NEXT: vselgt.f32 s2, s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s14
; CHECK-NOFP-NEXT: vcmp.f32 s2, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s2
; CHECK-NOFP-NEXT: vcmp.f32 s0, s8		; CHECK-NOFP-NEXT: vcmp.f32 s0, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s8, s0		; CHECK-NOFP-NEXT: vselgt.f32 s0, s8, s0
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float> %x)
%c = fcmp olt float %y, %z		%c = fcmp olt float %y, %z
%r = select i1 %c, float %y, float %z		%r = select i1 %c, float %y, float %z
ret float %r		ret float %r
}		}

define arm_aapcs_vfpcc void @fmin_v4f16_acc_nofast(<4 x half> %x, half* %yy) {		define arm_aapcs_vfpcc void @fmin_v4f16_acc_nofast(<4 x half> %x, half* %yy) {
; CHECK-FP-LABEL: fmin_v4f16_acc_nofast:		; CHECK-FP-LABEL: fmin_v4f16_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov r1, s1		; CHECK-FP-NEXT: vmovx.f16 s4, s1
; CHECK-FP-NEXT: vdup.32 q1, r1		; CHECK-FP-NEXT: vmovx.f16 s6, s0
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s6
; CHECK-FP-NEXT: vmov.u16 r1, q0[1]		; CHECK-FP-NEXT: vminnm.f16 s4, s1, s4
; CHECK-FP-NEXT: vdup.16 q1, r1		; CHECK-FP-NEXT: vldr.16 s2, [r0]
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s4
; CHECK-FP-NEXT: vldr.16 s4, [r0]		; CHECK-FP-NEXT: vcmp.f16 s0, s2
; CHECK-FP-NEXT: vcmp.f16 s0, s4
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f16 s0, s4, s0		; CHECK-FP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-FP-NEXT: vstr.16 s0, [r0]		; CHECK-FP-NEXT: vstr.16 s0, [r0]
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmin_v4f16_acc_nofast:		; CHECK-NOFP-LABEL: fmin_v4f16_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmov r1, s1		; CHECK-NOFP-NEXT: vmovx.f16 s4, s0
; CHECK-NOFP-NEXT: vmovx.f16 s10, s0		; CHECK-NOFP-NEXT: vminnm.f16 s4, s0, s4
; CHECK-NOFP-NEXT: vdup.32 q1, r1		; CHECK-NOFP-NEXT: vmovx.f16 s0, s1
; CHECK-NOFP-NEXT: vmovx.f16 s8, s4		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s1
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10		; CHECK-NOFP-NEXT: vldr.16 s2, .LCPI31_0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s0, s4, s0
; CHECK-NOFP-NEXT: vcmp.f16 s4, s0		; CHECK-NOFP-NEXT: vminnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vminnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4		; CHECK-NOFP-NEXT: vminnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vldr.16 s2, [r0]		; CHECK-NOFP-NEXT: vldr.16 s2, [r0]
; CHECK-NOFP-NEXT: vcmp.f16 s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: vcmp.f16 s0, s2		; CHECK-NOFP-NEXT: vcmp.f16 s0, s2
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0		; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-NOFP-NEXT: vstr.16 s0, [r0]		; CHECK-NOFP-NEXT: vstr.16 s0, [r0]
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
		; CHECK-NOFP-NEXT: .p2align 1
		; CHECK-NOFP-NEXT: @ %bb.1:
		; CHECK-NOFP-NEXT: .LCPI31_0:
		; CHECK-NOFP-NEXT: .short 0x7c00 @ half +Inf
entry:		entry:
%y = load half, half* %yy		%y = load half, half* %yy
%z = call half @llvm.experimental.vector.reduce.fmin.v4f16(<4 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmin.v4f16(<4 x half> %x)
%c = fcmp olt half %y, %z		%c = fcmp olt half %y, %z
%r = select i1 %c, half %y, half %z		%r = select i1 %c, half %y, half %z
store half %r, half* %yy		store half %r, half* %yy
ret void		ret void
}		}

define arm_aapcs_vfpcc void @fmin_v8f16_acc_nofast(<8 x half> %x, half* %yy) {		define arm_aapcs_vfpcc void @fmin_v8f16_acc_nofast(<8 x half> %x, half* %yy) {
; CHECK-FP-LABEL: fmin_v8f16_acc_nofast:		; CHECK-FP-LABEL: fmin_v8f16_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vrev32.16 q1, q0
; CHECK-FP-NEXT: vmov.f32 s5, s3
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov r1, s1
; CHECK-FP-NEXT: vdup.32 q1, r1
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.u16 r1, q0[1]
; CHECK-FP-NEXT: vdup.16 q1, r1
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vldr.16 s4, [r0]		; CHECK-FP-NEXT: vminnm.f16 s4, s2, s3
; CHECK-FP-NEXT: vcmp.f16 s0, s4		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s1
		; CHECK-FP-NEXT: vldr.16 s2, [r0]
		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s4
		; CHECK-FP-NEXT: vcmp.f16 s0, s2
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f16 s0, s4, s0		; CHECK-FP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-FP-NEXT: vstr.16 s0, [r0]		; CHECK-FP-NEXT: vstr.16 s0, [r0]
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmin_v8f16_acc_nofast:		; CHECK-NOFP-LABEL: fmin_v8f16_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmovx.f16 s8, s3		; CHECK-NOFP-NEXT: vmovx.f16 s4, s0
; CHECK-NOFP-NEXT: vmovx.f16 s10, s1		; CHECK-NOFP-NEXT: vmovx.f16 s6, s1
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10		; CHECK-NOFP-NEXT: vminnm.f16 s4, s0, s4
; CHECK-NOFP-NEXT: vmov.f64 d2, d1		; CHECK-NOFP-NEXT: vmovx.f16 s0, s3
; CHECK-NOFP-NEXT: vmovx.f16 s12, s0		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s6
; CHECK-NOFP-NEXT: vmov.f32 s5, s3		; CHECK-NOFP-NEXT: vmovx.f16 s6, s2
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s2
; CHECK-NOFP-NEXT: vmovx.f16 s10, s4
; CHECK-NOFP-NEXT: vcmp.f16 s10, s12
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s3, s1
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s4, s0
; CHECK-NOFP-NEXT: vselgt.f16 s10, s1, s3
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vldr.16 s2, [r0]		; CHECK-NOFP-NEXT: vldr.16 s2, [r0]
; CHECK-NOFP-NEXT: vcmp.f16 s10, s0		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s4, s4, s3
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s10		; CHECK-NOFP-NEXT: vminnm.f16 s0, s4, s0
; CHECK-NOFP-NEXT: vcmp.f16 s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: vcmp.f16 s0, s2		; CHECK-NOFP-NEXT: vcmp.f16 s0, s2
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0		; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-NOFP-NEXT: vstr.16 s0, [r0]		; CHECK-NOFP-NEXT: vstr.16 s0, [r0]
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%y = load half, half* %yy		%y = load half, half* %yy
%z = call half @llvm.experimental.vector.reduce.fmin.v8f16(<8 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmin.v8f16(<8 x half> %x)
%c = fcmp olt half %y, %z		%c = fcmp olt half %y, %z
%r = select i1 %c, half %y, half %z		%r = select i1 %c, half %y, half %z
store half %r, half* %yy		store half %r, half* %yy
ret void		ret void
}		}

define arm_aapcs_vfpcc void @fmin_v16f16_acc_nofast(<16 x half> %x, half* %yy) {		define arm_aapcs_vfpcc void @fmin_v16f16_acc_nofast(<16 x half> %x, half* %yy) {
; CHECK-FP-LABEL: fmin_v16f16_acc_nofast:		; CHECK-FP-LABEL: fmin_v16f16_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vrev32.16 q1, q0
; CHECK-FP-NEXT: vmov.f32 s5, s3
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov r1, s1
; CHECK-FP-NEXT: vdup.32 q1, r1
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.u16 r1, q0[1]
; CHECK-FP-NEXT: vdup.16 q1, r1
; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vminnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vldr.16 s4, [r0]		; CHECK-FP-NEXT: vminnm.f16 s4, s2, s3
; CHECK-FP-NEXT: vcmp.f16 s0, s4		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s1
		; CHECK-FP-NEXT: vldr.16 s2, [r0]
		; CHECK-FP-NEXT: vminnm.f16 s0, s0, s4
		; CHECK-FP-NEXT: vcmp.f16 s0, s2
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f16 s0, s4, s0		; CHECK-FP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-FP-NEXT: vstr.16 s0, [r0]		; CHECK-FP-NEXT: vstr.16 s0, [r0]
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmin_v16f16_acc_nofast:		; CHECK-NOFP-LABEL: fmin_v16f16_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmovx.f16 s8, s7		; CHECK-NOFP-NEXT: vmovx.f16 s8, s4
; CHECK-NOFP-NEXT: vmovx.f16 s10, s3		; CHECK-NOFP-NEXT: vmovx.f16 s10, s0
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10		; CHECK-NOFP-NEXT: vminnm.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmovx.f16 s12, s1		; CHECK-NOFP-NEXT: vminnm.f16 s10, s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmovx.f16 s14, s0		; CHECK-NOFP-NEXT: vminnm.f16 s10, s1, s5
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vminnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s10, s5		; CHECK-NOFP-NEXT: vmovx.f16 s10, s5
; CHECK-NOFP-NEXT: vcmp.f16 s10, s12		; CHECK-NOFP-NEXT: vmovx.f16 s12, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmovx.f16 s4, s7
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10		; CHECK-NOFP-NEXT: vminnm.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmovx.f16 s12, s2		; CHECK-NOFP-NEXT: vmovx.f16 s12, s2
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10		; CHECK-NOFP-NEXT: vminnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s10, s2, s6
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vminnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s10, s6		; CHECK-NOFP-NEXT: vmovx.f16 s10, s6
; CHECK-NOFP-NEXT: vcmp.f16 s10, s12		; CHECK-NOFP-NEXT: vminnm.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmovx.f16 s0, s3
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10		; CHECK-NOFP-NEXT: vminnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s12, s4		; CHECK-NOFP-NEXT: vminnm.f16 s10, s3, s7
; CHECK-NOFP-NEXT: vcmp.f16 s12, s14		; CHECK-NOFP-NEXT: vminnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vminnm.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vselgt.f16 s12, s14, s12
; CHECK-NOFP-NEXT: vcmp.f16 s10, s12
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vcmp.f16 s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s7, s3
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s5, s1
; CHECK-NOFP-NEXT: vselgt.f16 s10, s3, s7
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s12, s1, s5
; CHECK-NOFP-NEXT: vcmp.f16 s10, s12
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s6, s2
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s4, s0
; CHECK-NOFP-NEXT: vselgt.f16 s12, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vldr.16 s2, [r0]		; CHECK-NOFP-NEXT: vldr.16 s2, [r0]
; CHECK-NOFP-NEXT: vcmp.f16 s12, s0		; CHECK-NOFP-NEXT: vminnm.f16 s0, s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s12
; CHECK-NOFP-NEXT: vcmp.f16 s10, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s10
; CHECK-NOFP-NEXT: vcmp.f16 s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: vcmp.f16 s0, s2		; CHECK-NOFP-NEXT: vcmp.f16 s0, s2
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0		; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-NOFP-NEXT: vstr.16 s0, [r0]		; CHECK-NOFP-NEXT: vstr.16 s0, [r0]
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%y = load half, half* %yy		%y = load half, half* %yy
%z = call half @llvm.experimental.vector.reduce.fmin.v16f16(<16 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmin.v16f16(<16 x half> %x)
Show All 15 Lines	entry:
%c = fcmp olt double %y, %z		%c = fcmp olt double %y, %z
%r = select i1 %c, double %y, double %z		%r = select i1 %c, double %y, double %z
ret double %r		ret double %r
}		}

define arm_aapcs_vfpcc double @fmin_v2f64_acc_nofast(<2 x double> %x, double %y) {		define arm_aapcs_vfpcc double @fmin_v2f64_acc_nofast(<2 x double> %x, double %y) {
; CHECK-LABEL: fmin_v2f64_acc_nofast:		; CHECK-LABEL: fmin_v2f64_acc_nofast:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vcmp.f64 d1, d0		; CHECK-NEXT: vminnm.f64 d0, d0, d1
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d1
; CHECK-NEXT: vcmp.f64 d0, d2		; CHECK-NEXT: vcmp.f64 d0, d2
; CHECK-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d2, d0		; CHECK-NEXT: vselgt.f64 d0, d2, d0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = call double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double> %x)		%z = call double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double> %x)
%c = fcmp olt double %y, %z		%c = fcmp olt double %y, %z
%r = select i1 %c, double %y, double %z		%r = select i1 %c, double %y, double %z
ret double %r		ret double %r
}		}

define arm_aapcs_vfpcc double @fmin_v4f64_acc_nofast(<4 x double> %x, double %y) {		define arm_aapcs_vfpcc double @fmin_v4f64_acc_nofast(<4 x double> %x, double %y) {
; CHECK-LABEL: fmin_v4f64_acc_nofast:		; CHECK-LABEL: fmin_v4f64_acc_nofast:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vcmp.f64 d3, d1		; CHECK-NEXT: vminnm.f64 d5, d1, d3
; CHECK-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NEXT: vminnm.f64 d0, d0, d2
; CHECK-NEXT: vcmp.f64 d2, d0		; CHECK-NEXT: vminnm.f64 d0, d0, d5
; CHECK-NEXT: vselgt.f64 d5, d1, d3
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d2
; CHECK-NEXT: vcmp.f64 d5, d0
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d5
; CHECK-NEXT: vcmp.f64 d0, d4		; CHECK-NEXT: vcmp.f64 d0, d4
; CHECK-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d4, d0		; CHECK-NEXT: vselgt.f64 d0, d4, d0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = call double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double> %x)		%z = call double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double> %x)
%c = fcmp olt double %y, %z		%c = fcmp olt double %y, %z
%r = select i1 %c, double %y, double %z		%r = select i1 %c, double %y, double %z
▲ Show 20 Lines • Show All 231 Lines • ▼ Show 20 Lines
entry:		entry:
%z = call fast double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double> %x)		%z = call fast double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double> %x)
ret double %z		ret double %z
}		}

define arm_aapcs_vfpcc float @fmax_v2f32_nofast(<2 x float> %x) {		define arm_aapcs_vfpcc float @fmax_v2f32_nofast(<2 x float> %x) {
; CHECK-FP-LABEL: fmax_v2f32_nofast:		; CHECK-FP-LABEL: fmax_v2f32_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov r0, s1		; CHECK-FP-NEXT: vldr s4, .LCPI46_0
; CHECK-FP-NEXT: vdup.32 q1, r0		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s4
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
		; CHECK-FP-NEXT: .p2align 2
		; CHECK-FP-NEXT: @ %bb.1:
		; CHECK-FP-NEXT: .LCPI46_0:
		; CHECK-FP-NEXT: .long 0xff800000 @ float -Inf
;		;
; CHECK-NOFP-LABEL: fmax_v2f32_nofast:		; CHECK-NOFP-LABEL: fmax_v2f32_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s0, s1		; CHECK-NOFP-NEXT: vldr s4, .LCPI46_0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s0, s1
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s1		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s0, s4
		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s0, s4
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
		; CHECK-NOFP-NEXT: .p2align 2
		; CHECK-NOFP-NEXT: @ %bb.1:
		; CHECK-NOFP-NEXT: .LCPI46_0:
		; CHECK-NOFP-NEXT: .long 0xff800000 @ float -Inf
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float> %x)
ret float %z		ret float %z
}		}

define arm_aapcs_vfpcc float @fmax_v4f32_nofast(<4 x float> %x) {		define arm_aapcs_vfpcc float @fmax_v4f32_nofast(<4 x float> %x) {
; CHECK-FP-LABEL: fmax_v4f32_nofast:		; CHECK-FP-LABEL: fmax_v4f32_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vmaxnm.f32 s4, s2, s3
; CHECK-FP-NEXT: vmov.f32 s5, s3		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s4
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q1, r0
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q1
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmax_v4f32_nofast:		; CHECK-NOFP-LABEL: fmax_v4f32_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s1, s3		; CHECK-NOFP-NEXT: vmaxnm.f32 s4, s0, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f32 s4, s4, s2
; CHECK-NOFP-NEXT: vmov.f64 d2, d1		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s4, s3
; CHECK-NOFP-NEXT: vmov.f32 s5, s3
; CHECK-NOFP-NEXT: vcmp.f32 s0, s4
; CHECK-NOFP-NEXT: vselgt.f32 s8, s1, s3
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s4
; CHECK-NOFP-NEXT: vcmp.f32 s0, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s8
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %x)
ret float %z		ret float %z
}		}

define arm_aapcs_vfpcc float @fmax_v8f32_nofast(<8 x float> %x) {		define arm_aapcs_vfpcc float @fmax_v8f32_nofast(<8 x float> %x) {
; CHECK-FP-LABEL: fmax_v8f32_nofast:		; CHECK-FP-LABEL: fmax_v8f32_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q1
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vmaxnm.f32 s4, s2, s3
; CHECK-FP-NEXT: vmov.f32 s5, s3		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s4
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q1, r0
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q1
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmax_v8f32_nofast:		; CHECK-NOFP-LABEL: fmax_v8f32_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s3, s7		; CHECK-NOFP-NEXT: vmaxnm.f32 s10, s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f32 s8, s1, s5
; CHECK-NOFP-NEXT: vcmp.f32 s1, s5		; CHECK-NOFP-NEXT: vmaxnm.f32 s8, s10, s8
; CHECK-NOFP-NEXT: vselgt.f32 s8, s3, s7		; CHECK-NOFP-NEXT: vmaxnm.f32 s10, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f32 s8, s8, s10
; CHECK-NOFP-NEXT: vcmp.f32 s2, s6		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s3, s7
; CHECK-NOFP-NEXT: vselgt.f32 s10, s1, s5		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s0, s4
; CHECK-NOFP-NEXT: vselgt.f32 s12, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s10, s8
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s0, s12
; CHECK-NOFP-NEXT: vselgt.f32 s2, s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s12
; CHECK-NOFP-NEXT: vcmp.f32 s0, s2
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s2
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float> %x)
ret float %z		ret float %z
}		}

define arm_aapcs_vfpcc half @fmax_v4f16_nofast(<4 x half> %x) {		define arm_aapcs_vfpcc half @fmax_v4f16_nofast(<4 x half> %x) {
; CHECK-FP-LABEL: fmax_v4f16_nofast:		; CHECK-FP-LABEL: fmax_v4f16_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov r0, s1		; CHECK-FP-NEXT: vmovx.f16 s4, s1
; CHECK-FP-NEXT: vdup.32 q1, r0		; CHECK-FP-NEXT: vmovx.f16 s6, s0
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f16 s4, s1, s4
; CHECK-FP-NEXT: vmov.u16 r0, q0[1]		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s6
; CHECK-FP-NEXT: vdup.16 q1, r0		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s4
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmax_v4f16_nofast:		; CHECK-NOFP-LABEL: fmax_v4f16_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmov r0, s1		; CHECK-NOFP-NEXT: vmovx.f16 s4, s0
; CHECK-NOFP-NEXT: vmovx.f16 s10, s0		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s0, s4
; CHECK-NOFP-NEXT: vdup.32 q1, r0		; CHECK-NOFP-NEXT: vmovx.f16 s0, s1
; CHECK-NOFP-NEXT: vmovx.f16 s8, s4		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s1
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8		; CHECK-NOFP-NEXT: vldr.16 s2, .LCPI49_0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s4, s0
; CHECK-NOFP-NEXT: vcmp.f16 s0, s4		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vcmp.f16 s0, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
		; CHECK-NOFP-NEXT: .p2align 1
		; CHECK-NOFP-NEXT: @ %bb.1:
		; CHECK-NOFP-NEXT: .LCPI49_0:
		; CHECK-NOFP-NEXT: .short 0xfc00 @ half -Inf
entry:		entry:
%z = call half @llvm.experimental.vector.reduce.fmax.v4f16(<4 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmax.v4f16(<4 x half> %x)
ret half %z		ret half %z
}		}

define arm_aapcs_vfpcc half @fmax_v8f16_nofast(<8 x half> %x) {		define arm_aapcs_vfpcc half @fmax_v8f16_nofast(<8 x half> %x) {
; CHECK-FP-LABEL: fmax_v8f16_nofast:		; CHECK-FP-LABEL: fmax_v8f16_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vrev32.16 q1, q0
; CHECK-FP-NEXT: vmov.f32 s5, s3
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q1, r0
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.u16 r0, q0[1]
; CHECK-FP-NEXT: vdup.16 q1, r0
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0		; CHECK-FP-NEXT: vmaxnm.f16 s4, s2, s3
		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s1
		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s4
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmax_v8f16_nofast:		; CHECK-NOFP-LABEL: fmax_v8f16_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmovx.f16 s8, s3		; CHECK-NOFP-NEXT: vmovx.f16 s4, s0
; CHECK-NOFP-NEXT: vmovx.f16 s10, s1		; CHECK-NOFP-NEXT: vmovx.f16 s6, s1
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s0, s4
; CHECK-NOFP-NEXT: vmov.f64 d2, d1		; CHECK-NOFP-NEXT: vmovx.f16 s0, s3
; CHECK-NOFP-NEXT: vmovx.f16 s12, s0		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s6
; CHECK-NOFP-NEXT: vmov.f32 s5, s3		; CHECK-NOFP-NEXT: vmovx.f16 s6, s2
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s2
; CHECK-NOFP-NEXT: vmovx.f16 s10, s4		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s6
; CHECK-NOFP-NEXT: vcmp.f16 s12, s10		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s3
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s4, s0
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s1, s3
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s0, s4
; CHECK-NOFP-NEXT: vselgt.f16 s10, s1, s3
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vcmp.f16 s0, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s10
; CHECK-NOFP-NEXT: vcmp.f16 s0, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call half @llvm.experimental.vector.reduce.fmax.v8f16(<8 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmax.v8f16(<8 x half> %x)
ret half %z		ret half %z
}		}

define arm_aapcs_vfpcc half @fmax_v16f16_nofast(<16 x half> %x) {		define arm_aapcs_vfpcc half @fmax_v16f16_nofast(<16 x half> %x) {
; CHECK-FP-LABEL: fmax_v16f16_nofast:		; CHECK-FP-LABEL: fmax_v16f16_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vrev32.16 q1, q0
; CHECK-FP-NEXT: vmov.f32 s5, s3
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q1, r0
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.u16 r0, q0[1]
; CHECK-FP-NEXT: vdup.16 q1, r0
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: @ kill: def $s0 killed $s0 killed $q0		; CHECK-FP-NEXT: vmaxnm.f16 s4, s2, s3
		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s1
		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s4
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmax_v16f16_nofast:		; CHECK-NOFP-LABEL: fmax_v16f16_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmovx.f16 s8, s7		; CHECK-NOFP-NEXT: vmovx.f16 s8, s4
; CHECK-NOFP-NEXT: vmovx.f16 s10, s3		; CHECK-NOFP-NEXT: vmovx.f16 s10, s0
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmovx.f16 s12, s1		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmovx.f16 s14, s0		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s1, s5
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s10, s5		; CHECK-NOFP-NEXT: vmovx.f16 s10, s5
; CHECK-NOFP-NEXT: vcmp.f16 s12, s10		; CHECK-NOFP-NEXT: vmovx.f16 s12, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmovx.f16 s4, s7
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmovx.f16 s12, s2		; CHECK-NOFP-NEXT: vmovx.f16 s12, s2
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s2, s6
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s10, s6		; CHECK-NOFP-NEXT: vmovx.f16 s10, s6
; CHECK-NOFP-NEXT: vcmp.f16 s12, s10		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmovx.f16 s0, s3
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s12, s4		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s3, s7
; CHECK-NOFP-NEXT: vcmp.f16 s14, s12		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vselgt.f16 s12, s14, s12		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s8, s0
; CHECK-NOFP-NEXT: vcmp.f16 s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s3, s7
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s1, s5
; CHECK-NOFP-NEXT: vselgt.f16 s10, s3, s7
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s12, s1, s5
; CHECK-NOFP-NEXT: vcmp.f16 s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s2, s6
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s0, s4
; CHECK-NOFP-NEXT: vselgt.f16 s12, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vcmp.f16 s0, s12
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s12
; CHECK-NOFP-NEXT: vcmp.f16 s0, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s10
; CHECK-NOFP-NEXT: vcmp.f16 s0, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call half @llvm.experimental.vector.reduce.fmax.v16f16(<16 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmax.v16f16(<16 x half> %x)
ret half %z		ret half %z
}		}

define arm_aapcs_vfpcc double @fmax_v1f64_nofast(<1 x double> %x) {		define arm_aapcs_vfpcc double @fmax_v1f64_nofast(<1 x double> %x) {
; CHECK-LABEL: fmax_v1f64_nofast:		; CHECK-LABEL: fmax_v1f64_nofast:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = call double @llvm.experimental.vector.reduce.fmax.v1f64(<1 x double> %x)		%z = call double @llvm.experimental.vector.reduce.fmax.v1f64(<1 x double> %x)
ret double %z		ret double %z
}		}

define arm_aapcs_vfpcc double @fmax_v2f64_nofast(<2 x double> %x) {		define arm_aapcs_vfpcc double @fmax_v2f64_nofast(<2 x double> %x) {
; CHECK-LABEL: fmax_v2f64_nofast:		; CHECK-LABEL: fmax_v2f64_nofast:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vcmp.f64 d0, d1		; CHECK-NEXT: vmaxnm.f64 d0, d0, d1
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d1
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = call double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double> %x)		%z = call double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double> %x)
ret double %z		ret double %z
}		}

define arm_aapcs_vfpcc double @fmax_v4f64_nofast(<4 x double> %x) {		define arm_aapcs_vfpcc double @fmax_v4f64_nofast(<4 x double> %x) {
; CHECK-LABEL: fmax_v4f64_nofast:		; CHECK-LABEL: fmax_v4f64_nofast:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vcmp.f64 d1, d3		; CHECK-NEXT: vmaxnm.f64 d4, d1, d3
; CHECK-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NEXT: vmaxnm.f64 d0, d0, d2
; CHECK-NEXT: vcmp.f64 d0, d2		; CHECK-NEXT: vmaxnm.f64 d0, d0, d4
; CHECK-NEXT: vselgt.f64 d4, d1, d3
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d2
; CHECK-NEXT: vcmp.f64 d0, d4
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = call double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double> %x)		%z = call double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double> %x)
ret double %z		ret double %z
}		}

define arm_aapcs_vfpcc float @fmax_v2f32_acc(<2 x float> %x, float %y) {		define arm_aapcs_vfpcc float @fmax_v2f32_acc(<2 x float> %x, float %y) {
; CHECK-FP-LABEL: fmax_v2f32_acc:		; CHECK-FP-LABEL: fmax_v2f32_acc:
▲ Show 20 Lines • Show All 315 Lines • ▼ Show 20 Lines	entry:
%c = fcmp fast ogt double %y, %z		%c = fcmp fast ogt double %y, %z
%r = select i1 %c, double %y, double %z		%r = select i1 %c, double %y, double %z
ret double %r		ret double %r
}		}

define arm_aapcs_vfpcc float @fmax_v2f32_acc_nofast(<2 x float> %x, float %y) {		define arm_aapcs_vfpcc float @fmax_v2f32_acc_nofast(<2 x float> %x, float %y) {
; CHECK-FP-LABEL: fmax_v2f32_acc_nofast:		; CHECK-FP-LABEL: fmax_v2f32_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov r0, s1		; CHECK-FP-NEXT: vldr s6, .LCPI65_0
; CHECK-FP-NEXT: vdup.32 q2, r0		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q2		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s6
; CHECK-FP-NEXT: vcmp.f32 s4, s0		; CHECK-FP-NEXT: vcmp.f32 s4, s0
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f32 s0, s4, s0		; CHECK-FP-NEXT: vselgt.f32 s0, s4, s0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
		; CHECK-FP-NEXT: .p2align 2
		; CHECK-FP-NEXT: @ %bb.1:
		; CHECK-FP-NEXT: .LCPI65_0:
		; CHECK-FP-NEXT: .long 0xff800000 @ float -Inf
;		;
; CHECK-NOFP-LABEL: fmax_v2f32_acc_nofast:		; CHECK-NOFP-LABEL: fmax_v2f32_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s0, s1		; CHECK-NOFP-NEXT: vldr s6, .LCPI65_0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s0, s1
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s1		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s0, s6
		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s0, s6
; CHECK-NOFP-NEXT: vcmp.f32 s4, s0		; CHECK-NOFP-NEXT: vcmp.f32 s4, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s4, s0		; CHECK-NOFP-NEXT: vselgt.f32 s0, s4, s0
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
		; CHECK-NOFP-NEXT: .p2align 2
		; CHECK-NOFP-NEXT: @ %bb.1:
		; CHECK-NOFP-NEXT: .LCPI65_0:
		; CHECK-NOFP-NEXT: .long 0xff800000 @ float -Inf
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float> %x)
%c = fcmp ogt float %y, %z		%c = fcmp ogt float %y, %z
%r = select i1 %c, float %y, float %z		%r = select i1 %c, float %y, float %z
ret float %r		ret float %r
}		}

define arm_aapcs_vfpcc float @fmax_v4f32_acc_nofast(<4 x float> %x, float %y) {		define arm_aapcs_vfpcc float @fmax_v4f32_acc_nofast(<4 x float> %x, float %y) {
; CHECK-FP-LABEL: fmax_v4f32_acc_nofast:		; CHECK-FP-LABEL: fmax_v4f32_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov.f64 d4, d1		; CHECK-FP-NEXT: vmaxnm.f32 s6, s2, s3
; CHECK-FP-NEXT: vmov.f32 s9, s3		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q2		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s6
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q2, r0
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q2
; CHECK-FP-NEXT: vcmp.f32 s4, s0		; CHECK-FP-NEXT: vcmp.f32 s4, s0
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f32 s0, s4, s0		; CHECK-FP-NEXT: vselgt.f32 s0, s4, s0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmax_v4f32_acc_nofast:		; CHECK-NOFP-LABEL: fmax_v4f32_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s1, s3		; CHECK-NOFP-NEXT: vmaxnm.f32 s6, s0, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f32 s6, s6, s2
; CHECK-NOFP-NEXT: vmov.f64 d4, d1		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s6, s3
; CHECK-NOFP-NEXT: vmov.f32 s9, s3
; CHECK-NOFP-NEXT: vcmp.f32 s0, s8
; CHECK-NOFP-NEXT: vselgt.f32 s6, s1, s3
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s8
; CHECK-NOFP-NEXT: vcmp.f32 s0, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s6
; CHECK-NOFP-NEXT: vcmp.f32 s4, s0		; CHECK-NOFP-NEXT: vcmp.f32 s4, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s4, s0		; CHECK-NOFP-NEXT: vselgt.f32 s0, s4, s0
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %x)
%c = fcmp ogt float %y, %z		%c = fcmp ogt float %y, %z
%r = select i1 %c, float %y, float %z		%r = select i1 %c, float %y, float %z
ret float %r		ret float %r
}		}

define arm_aapcs_vfpcc float @fmax_v8f32_acc_nofast(<8 x float> %x, float %y) {		define arm_aapcs_vfpcc float @fmax_v8f32_acc_nofast(<8 x float> %x, float %y) {
; CHECK-FP-LABEL: fmax_v8f32_acc_nofast:		; CHECK-FP-LABEL: fmax_v8f32_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q1
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vmaxnm.f32 s4, s2, s3
; CHECK-FP-NEXT: vmov.f32 s5, s3		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s1
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f32 s0, s0, s4
; CHECK-FP-NEXT: vmov r0, s1
; CHECK-FP-NEXT: vdup.32 q1, r0
; CHECK-FP-NEXT: vmaxnm.f32 q0, q0, q1
; CHECK-FP-NEXT: vcmp.f32 s8, s0		; CHECK-FP-NEXT: vcmp.f32 s8, s0
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f32 s0, s8, s0		; CHECK-FP-NEXT: vselgt.f32 s0, s8, s0
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmax_v8f32_acc_nofast:		; CHECK-NOFP-LABEL: fmax_v8f32_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vcmp.f32 s3, s7		; CHECK-NOFP-NEXT: vmaxnm.f32 s12, s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f32 s10, s1, s5
; CHECK-NOFP-NEXT: vcmp.f32 s1, s5		; CHECK-NOFP-NEXT: vmaxnm.f32 s10, s12, s10
; CHECK-NOFP-NEXT: vselgt.f32 s10, s3, s7		; CHECK-NOFP-NEXT: vmaxnm.f32 s12, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f32 s10, s10, s12
; CHECK-NOFP-NEXT: vcmp.f32 s2, s6		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s3, s7
; CHECK-NOFP-NEXT: vselgt.f32 s12, s1, s5		; CHECK-NOFP-NEXT: vmaxnm.f32 s0, s10, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s0, s4
; CHECK-NOFP-NEXT: vselgt.f32 s14, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s12, s10
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f32 s0, s14
; CHECK-NOFP-NEXT: vselgt.f32 s2, s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s14
; CHECK-NOFP-NEXT: vcmp.f32 s0, s2
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s0, s2
; CHECK-NOFP-NEXT: vcmp.f32 s8, s0		; CHECK-NOFP-NEXT: vcmp.f32 s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f32 s0, s8, s0		; CHECK-NOFP-NEXT: vselgt.f32 s0, s8, s0
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%z = call float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float> %x)		%z = call float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float> %x)
%c = fcmp ogt float %y, %z		%c = fcmp ogt float %y, %z
%r = select i1 %c, float %y, float %z		%r = select i1 %c, float %y, float %z
ret float %r		ret float %r
}		}

define arm_aapcs_vfpcc void @fmax_v4f16_acc_nofast(<4 x half> %x, half* %yy) {		define arm_aapcs_vfpcc void @fmax_v4f16_acc_nofast(<4 x half> %x, half* %yy) {
; CHECK-FP-LABEL: fmax_v4f16_acc_nofast:		; CHECK-FP-LABEL: fmax_v4f16_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov r1, s1		; CHECK-FP-NEXT: vmovx.f16 s4, s1
; CHECK-FP-NEXT: vdup.32 q1, r1		; CHECK-FP-NEXT: vmovx.f16 s6, s0
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s6
; CHECK-FP-NEXT: vmov.u16 r1, q0[1]		; CHECK-FP-NEXT: vmaxnm.f16 s4, s1, s4
; CHECK-FP-NEXT: vdup.16 q1, r1		; CHECK-FP-NEXT: vldr.16 s2, [r0]
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s4
; CHECK-FP-NEXT: vldr.16 s4, [r0]		; CHECK-FP-NEXT: vcmp.f16 s2, s0
; CHECK-FP-NEXT: vcmp.f16 s4, s0
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f16 s0, s4, s0		; CHECK-FP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-FP-NEXT: vstr.16 s0, [r0]		; CHECK-FP-NEXT: vstr.16 s0, [r0]
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmax_v4f16_acc_nofast:		; CHECK-NOFP-LABEL: fmax_v4f16_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmov r1, s1		; CHECK-NOFP-NEXT: vmovx.f16 s4, s0
; CHECK-NOFP-NEXT: vmovx.f16 s10, s0		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s0, s4
; CHECK-NOFP-NEXT: vdup.32 q1, r1		; CHECK-NOFP-NEXT: vmovx.f16 s0, s1
; CHECK-NOFP-NEXT: vmovx.f16 s8, s4		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s1
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8		; CHECK-NOFP-NEXT: vldr.16 s2, .LCPI68_0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s4, s0
; CHECK-NOFP-NEXT: vcmp.f16 s0, s4		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s0, s2
; CHECK-NOFP-NEXT: vldr.16 s2, [r0]		; CHECK-NOFP-NEXT: vldr.16 s2, [r0]
; CHECK-NOFP-NEXT: vcmp.f16 s0, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: vcmp.f16 s2, s0		; CHECK-NOFP-NEXT: vcmp.f16 s2, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0		; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-NOFP-NEXT: vstr.16 s0, [r0]		; CHECK-NOFP-NEXT: vstr.16 s0, [r0]
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
		; CHECK-NOFP-NEXT: .p2align 1
		; CHECK-NOFP-NEXT: @ %bb.1:
		; CHECK-NOFP-NEXT: .LCPI68_0:
		; CHECK-NOFP-NEXT: .short 0xfc00 @ half -Inf
entry:		entry:
%y = load half, half* %yy		%y = load half, half* %yy
%z = call half @llvm.experimental.vector.reduce.fmax.v4f16(<4 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmax.v4f16(<4 x half> %x)
%c = fcmp ogt half %y, %z		%c = fcmp ogt half %y, %z
%r = select i1 %c, half %y, half %z		%r = select i1 %c, half %y, half %z
store half %r, half* %yy		store half %r, half* %yy
ret void		ret void
}		}

define arm_aapcs_vfpcc void @fmax_v8f16_acc_nofast(<8 x half> %x, half* %yy) {		define arm_aapcs_vfpcc void @fmax_v8f16_acc_nofast(<8 x half> %x, half* %yy) {
; CHECK-FP-LABEL: fmax_v8f16_acc_nofast:		; CHECK-FP-LABEL: fmax_v8f16_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vrev32.16 q1, q0
; CHECK-FP-NEXT: vmov.f32 s5, s3
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov r1, s1
; CHECK-FP-NEXT: vdup.32 q1, r1
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.u16 r1, q0[1]
; CHECK-FP-NEXT: vdup.16 q1, r1
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vldr.16 s4, [r0]		; CHECK-FP-NEXT: vmaxnm.f16 s4, s2, s3
; CHECK-FP-NEXT: vcmp.f16 s4, s0		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s1
		; CHECK-FP-NEXT: vldr.16 s2, [r0]
		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s4
		; CHECK-FP-NEXT: vcmp.f16 s2, s0
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f16 s0, s4, s0		; CHECK-FP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-FP-NEXT: vstr.16 s0, [r0]		; CHECK-FP-NEXT: vstr.16 s0, [r0]
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmax_v8f16_acc_nofast:		; CHECK-NOFP-LABEL: fmax_v8f16_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmovx.f16 s8, s3		; CHECK-NOFP-NEXT: vmovx.f16 s4, s0
; CHECK-NOFP-NEXT: vmovx.f16 s10, s1		; CHECK-NOFP-NEXT: vmovx.f16 s6, s1
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s0, s4
; CHECK-NOFP-NEXT: vmov.f64 d2, d1		; CHECK-NOFP-NEXT: vmovx.f16 s0, s3
; CHECK-NOFP-NEXT: vmovx.f16 s12, s0		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s6
; CHECK-NOFP-NEXT: vmov.f32 s5, s3		; CHECK-NOFP-NEXT: vmovx.f16 s6, s2
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s2
; CHECK-NOFP-NEXT: vmovx.f16 s10, s4
; CHECK-NOFP-NEXT: vcmp.f16 s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s1, s3
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s0, s4
; CHECK-NOFP-NEXT: vselgt.f16 s10, s1, s3
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vldr.16 s2, [r0]		; CHECK-NOFP-NEXT: vldr.16 s2, [r0]
; CHECK-NOFP-NEXT: vcmp.f16 s0, s10		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s4, s4, s3
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s10		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s4, s0
; CHECK-NOFP-NEXT: vcmp.f16 s0, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: vcmp.f16 s2, s0		; CHECK-NOFP-NEXT: vcmp.f16 s2, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0		; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-NOFP-NEXT: vstr.16 s0, [r0]		; CHECK-NOFP-NEXT: vstr.16 s0, [r0]
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%y = load half, half* %yy		%y = load half, half* %yy
%z = call half @llvm.experimental.vector.reduce.fmax.v8f16(<8 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmax.v8f16(<8 x half> %x)
%c = fcmp ogt half %y, %z		%c = fcmp ogt half %y, %z
%r = select i1 %c, half %y, half %z		%r = select i1 %c, half %y, half %z
store half %r, half* %yy		store half %r, half* %yy
ret void		ret void
}		}

define arm_aapcs_vfpcc void @fmax_v16f16_acc_nofast(<16 x half> %x, half* %yy) {		define arm_aapcs_vfpcc void @fmax_v16f16_acc_nofast(<16 x half> %x, half* %yy) {
; CHECK-FP-LABEL: fmax_v16f16_acc_nofast:		; CHECK-FP-LABEL: fmax_v16f16_acc_nofast:
; CHECK-FP: @ %bb.0: @ %entry		; CHECK-FP: @ %bb.0: @ %entry
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.f64 d2, d1		; CHECK-FP-NEXT: vrev32.16 q1, q0
; CHECK-FP-NEXT: vmov.f32 s5, s3
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov r1, s1
; CHECK-FP-NEXT: vdup.32 q1, r1
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vmov.u16 r1, q0[1]
; CHECK-FP-NEXT: vdup.16 q1, r1
; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1		; CHECK-FP-NEXT: vmaxnm.f16 q0, q0, q1
; CHECK-FP-NEXT: vldr.16 s4, [r0]		; CHECK-FP-NEXT: vmaxnm.f16 s4, s2, s3
; CHECK-FP-NEXT: vcmp.f16 s4, s0		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s1
		; CHECK-FP-NEXT: vldr.16 s2, [r0]
		; CHECK-FP-NEXT: vmaxnm.f16 s0, s0, s4
		; CHECK-FP-NEXT: vcmp.f16 s2, s0
; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-FP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-FP-NEXT: vselgt.f16 s0, s4, s0		; CHECK-FP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-FP-NEXT: vstr.16 s0, [r0]		; CHECK-FP-NEXT: vstr.16 s0, [r0]
; CHECK-FP-NEXT: bx lr		; CHECK-FP-NEXT: bx lr
;		;
; CHECK-NOFP-LABEL: fmax_v16f16_acc_nofast:		; CHECK-NOFP-LABEL: fmax_v16f16_acc_nofast:
; CHECK-NOFP: @ %bb.0: @ %entry		; CHECK-NOFP: @ %bb.0: @ %entry
; CHECK-NOFP-NEXT: vmovx.f16 s8, s7		; CHECK-NOFP-NEXT: vmovx.f16 s8, s4
; CHECK-NOFP-NEXT: vmovx.f16 s10, s3		; CHECK-NOFP-NEXT: vmovx.f16 s10, s0
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmovx.f16 s12, s1		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s0, s4
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmovx.f16 s14, s0		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s1, s5
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s10, s5		; CHECK-NOFP-NEXT: vmovx.f16 s10, s5
; CHECK-NOFP-NEXT: vcmp.f16 s12, s10		; CHECK-NOFP-NEXT: vmovx.f16 s12, s1
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmovx.f16 s4, s7
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmovx.f16 s12, s2		; CHECK-NOFP-NEXT: vmovx.f16 s12, s2
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s2, s6
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s10, s6		; CHECK-NOFP-NEXT: vmovx.f16 s10, s6
; CHECK-NOFP-NEXT: vcmp.f16 s12, s10		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmovx.f16 s0, s3
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmovx.f16 s12, s4		; CHECK-NOFP-NEXT: vmaxnm.f16 s10, s3, s7
; CHECK-NOFP-NEXT: vcmp.f16 s14, s12		; CHECK-NOFP-NEXT: vmaxnm.f16 s8, s8, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vselgt.f16 s12, s14, s12
; CHECK-NOFP-NEXT: vcmp.f16 s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vcmp.f16 s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s3, s7
; CHECK-NOFP-NEXT: vselgt.f16 s8, s10, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s1, s5
; CHECK-NOFP-NEXT: vselgt.f16 s10, s3, s7
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s12, s1, s5
; CHECK-NOFP-NEXT: vcmp.f16 s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s2, s6
; CHECK-NOFP-NEXT: vselgt.f16 s10, s12, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vcmp.f16 s0, s4
; CHECK-NOFP-NEXT: vselgt.f16 s12, s2, s6
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s4
; CHECK-NOFP-NEXT: vldr.16 s2, [r0]		; CHECK-NOFP-NEXT: vldr.16 s2, [r0]
; CHECK-NOFP-NEXT: vcmp.f16 s0, s12		; CHECK-NOFP-NEXT: vmaxnm.f16 s0, s8, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s12
; CHECK-NOFP-NEXT: vcmp.f16 s0, s10
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s10
; CHECK-NOFP-NEXT: vcmp.f16 s0, s8
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s0, s8
; CHECK-NOFP-NEXT: vcmp.f16 s2, s0		; CHECK-NOFP-NEXT: vcmp.f16 s2, s0
; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NOFP-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0		; CHECK-NOFP-NEXT: vselgt.f16 s0, s2, s0
; CHECK-NOFP-NEXT: vstr.16 s0, [r0]		; CHECK-NOFP-NEXT: vstr.16 s0, [r0]
; CHECK-NOFP-NEXT: bx lr		; CHECK-NOFP-NEXT: bx lr
entry:		entry:
%y = load half, half* %yy		%y = load half, half* %yy
%z = call half @llvm.experimental.vector.reduce.fmax.v16f16(<16 x half> %x)		%z = call half @llvm.experimental.vector.reduce.fmax.v16f16(<16 x half> %x)
Show All 15 Lines	entry:
%c = fcmp ogt double %y, %z		%c = fcmp ogt double %y, %z
%r = select i1 %c, double %y, double %z		%r = select i1 %c, double %y, double %z
ret double %r		ret double %r
}		}

define arm_aapcs_vfpcc double @fmax_v2f64_acc_nofast(<2 x double> %x, double %y) {		define arm_aapcs_vfpcc double @fmax_v2f64_acc_nofast(<2 x double> %x, double %y) {
; CHECK-LABEL: fmax_v2f64_acc_nofast:		; CHECK-LABEL: fmax_v2f64_acc_nofast:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vcmp.f64 d0, d1		; CHECK-NEXT: vmaxnm.f64 d0, d0, d1
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d1
; CHECK-NEXT: vcmp.f64 d2, d0		; CHECK-NEXT: vcmp.f64 d2, d0
; CHECK-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d2, d0		; CHECK-NEXT: vselgt.f64 d0, d2, d0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = call double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double> %x)		%z = call double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double> %x)
%c = fcmp ogt double %y, %z		%c = fcmp ogt double %y, %z
%r = select i1 %c, double %y, double %z		%r = select i1 %c, double %y, double %z
ret double %r		ret double %r
}		}

define arm_aapcs_vfpcc double @fmax_v4f64_acc_nofast(<4 x double> %x, double %y) {		define arm_aapcs_vfpcc double @fmax_v4f64_acc_nofast(<4 x double> %x, double %y) {
; CHECK-LABEL: fmax_v4f64_acc_nofast:		; CHECK-LABEL: fmax_v4f64_acc_nofast:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vcmp.f64 d1, d3		; CHECK-NEXT: vmaxnm.f64 d5, d1, d3
; CHECK-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NEXT: vmaxnm.f64 d0, d0, d2
; CHECK-NEXT: vcmp.f64 d0, d2		; CHECK-NEXT: vmaxnm.f64 d0, d0, d5
; CHECK-NEXT: vselgt.f64 d5, d1, d3
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d2
; CHECK-NEXT: vcmp.f64 d0, d5
; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d0, d5
; CHECK-NEXT: vcmp.f64 d4, d0		; CHECK-NEXT: vcmp.f64 d4, d0
; CHECK-NEXT: vmrs APSR_nzcv, fpscr		; CHECK-NEXT: vmrs APSR_nzcv, fpscr
; CHECK-NEXT: vselgt.f64 d0, d4, d0		; CHECK-NEXT: vselgt.f64 d0, d4, d0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = call double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double> %x)		%z = call double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double> %x)
%c = fcmp ogt double %y, %z		%c = fcmp ogt double %y, %z
%r = select i1 %c, double %y, double %z		%r = select i1 %c, double %y, double %z
Show All 23 Lines

llvm/test/CodeGen/Thumb2/mve-vecreduce-loops.ll

	Show First 20 Lines • Show All 1,506 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB15_5: @ %vector.body			; CHECK-NEXT: .LBB15_5: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q1, [r3], #16			; CHECK-NEXT: vldrw.u32 q1, [r3], #16
	; CHECK-NEXT: vcmp.f32 lt, q0, q1			; CHECK-NEXT: vcmp.f32 lt, q0, q1
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: le lr, .LBB15_5			; CHECK-NEXT: le lr, .LBB15_5
	; CHECK-NEXT: @ %bb.6: @ %middle.block			; CHECK-NEXT: @ %bb.6: @ %middle.block
	; CHECK-NEXT: vmov.f32 s4, s2			; CHECK-NEXT: vminnm.f32 s4, s2, s3
				; CHECK-NEXT: vminnm.f32 s0, s0, s1
				; CHECK-NEXT: vminnm.f32 s0, s0, s4
	; CHECK-NEXT: cmp r2, r1			; CHECK-NEXT: cmp r2, r1
	; CHECK-NEXT: vmov.f32 s5, s3
	; CHECK-NEXT: vminnm.f32 q0, q0, q1
	; CHECK-NEXT: vmov r3, s1
	; CHECK-NEXT: vdup.32 q1, r3
	; CHECK-NEXT: vminnm.f32 q0, q0, q1
	; CHECK-NEXT: beq .LBB15_9			; CHECK-NEXT: beq .LBB15_9
	; CHECK-NEXT: .LBB15_7: @ %for.body.preheader1			; CHECK-NEXT: .LBB15_7: @ %for.body.preheader1
	; CHECK-NEXT: sub.w lr, r1, r2			; CHECK-NEXT: sub.w lr, r1, r2
	; CHECK-NEXT: add.w r0, r0, r2, lsl #2			; CHECK-NEXT: add.w r0, r0, r2, lsl #2
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB15_8: @ %for.body			; CHECK-NEXT: .LBB15_8: @ %for.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldmia r0!, {s4}			; CHECK-NEXT: vldmia r0!, {s2}
	; CHECK-NEXT: vcmp.f32 s0, s4			; CHECK-NEXT: vcmp.f32 s0, s2
	; CHECK-NEXT: vmrs APSR_nzcv, fpscr			; CHECK-NEXT: vmrs APSR_nzcv, fpscr
	; CHECK-NEXT: vselge.f32 s0, s4, s0			; CHECK-NEXT: vselge.f32 s0, s2, s0
	; CHECK-NEXT: le lr, .LBB15_8			; CHECK-NEXT: le lr, .LBB15_8
	; CHECK-NEXT: .LBB15_9: @ %for.cond.cleanup			; CHECK-NEXT: .LBB15_9: @ %for.cond.cleanup
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 2			; CHECK-NEXT: .p2align 2
	; CHECK-NEXT: @ %bb.10:			; CHECK-NEXT: @ %bb.10:
	; CHECK-NEXT: .LCPI15_0:			; CHECK-NEXT: .LCPI15_0:
	; CHECK-NEXT: .long 0x00000000 @ float 0			; CHECK-NEXT: .long 0x00000000 @ float 0
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB16_5: @ %vector.body			; CHECK-NEXT: .LBB16_5: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q1, [r3], #16			; CHECK-NEXT: vldrw.u32 q1, [r3], #16
	; CHECK-NEXT: vcmp.f32 lt, q1, q0			; CHECK-NEXT: vcmp.f32 lt, q1, q0
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: le lr, .LBB16_5			; CHECK-NEXT: le lr, .LBB16_5
	; CHECK-NEXT: @ %bb.6: @ %middle.block			; CHECK-NEXT: @ %bb.6: @ %middle.block
	; CHECK-NEXT: vmov.f32 s4, s2			; CHECK-NEXT: vmaxnm.f32 s4, s2, s3
				; CHECK-NEXT: vmaxnm.f32 s0, s0, s1
				; CHECK-NEXT: vmaxnm.f32 s0, s0, s4
	; CHECK-NEXT: cmp r2, r1			; CHECK-NEXT: cmp r2, r1
	; CHECK-NEXT: vmov.f32 s5, s3
	; CHECK-NEXT: vmaxnm.f32 q0, q0, q1
	; CHECK-NEXT: vmov r3, s1
	; CHECK-NEXT: vdup.32 q1, r3
	; CHECK-NEXT: vmaxnm.f32 q0, q0, q1
	; CHECK-NEXT: beq .LBB16_9			; CHECK-NEXT: beq .LBB16_9
	; CHECK-NEXT: .LBB16_7: @ %for.body.preheader1			; CHECK-NEXT: .LBB16_7: @ %for.body.preheader1
	; CHECK-NEXT: sub.w lr, r1, r2			; CHECK-NEXT: sub.w lr, r1, r2
	; CHECK-NEXT: add.w r0, r0, r2, lsl #2			; CHECK-NEXT: add.w r0, r0, r2, lsl #2
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB16_8: @ %for.body			; CHECK-NEXT: .LBB16_8: @ %for.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldmia r0!, {s4}			; CHECK-NEXT: vldmia r0!, {s2}
	; CHECK-NEXT: vcmp.f32 s4, s0			; CHECK-NEXT: vcmp.f32 s2, s0
	; CHECK-NEXT: vmrs APSR_nzcv, fpscr			; CHECK-NEXT: vmrs APSR_nzcv, fpscr
	; CHECK-NEXT: vselge.f32 s0, s4, s0			; CHECK-NEXT: vselge.f32 s0, s2, s0
	; CHECK-NEXT: le lr, .LBB16_8			; CHECK-NEXT: le lr, .LBB16_8
	; CHECK-NEXT: .LBB16_9: @ %for.cond.cleanup			; CHECK-NEXT: .LBB16_9: @ %for.cond.cleanup
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 2			; CHECK-NEXT: .p2align 2
	; CHECK-NEXT: @ %bb.10:			; CHECK-NEXT: @ %bb.10:
	; CHECK-NEXT: .LCPI16_0:			; CHECK-NEXT: .LCPI16_0:
	; CHECK-NEXT: .long 0x00000000 @ float 0			; CHECK-NEXT: .long 0x00000000 @ float 0
	▲ Show 20 Lines • Show All 887 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-fmax-nnan.ll

	Show All 10 Lines
	;			;

	define float @test_v2f32(<2 x float> %a0) {			define float @test_v2f32(<2 x float> %a0) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
	; SSE2-NEXT: maxss %xmm1, %xmm0			; SSE2-NEXT: maxss %xmm1, %xmm0
				; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; SSE2-NEXT: maxss %xmm1, %xmm0
				; SSE2-NEXT: maxss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32:			; SSE41-LABEL: test_v2f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: maxss %xmm1, %xmm0
				; SSE41-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; SSE41-NEXT: maxss %xmm1, %xmm0
				; SSE41-NEXT: maxss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32:			; AVX-LABEL: test_v2f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float> %a0)			%1 = call nnan float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(<4 x float> %a0) {			define float @test_v4f32(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3],xmm0[3,3]
	; SSE2-NEXT: maxps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: movaps %xmm0, %xmm3
				; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm0[1,1]
				; SSE2-NEXT: maxss %xmm3, %xmm0
				; SSE2-NEXT: maxss %xmm2, %xmm0
	; SSE2-NEXT: maxss %xmm1, %xmm0			; SSE2-NEXT: maxss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32:			; SSE41-LABEL: test_v4f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3],xmm0[3,3]
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm0, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
				; SSE41-NEXT: movshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
				; SSE41-NEXT: maxss %xmm3, %xmm0
				; SSE41-NEXT: maxss %xmm2, %xmm0
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: maxss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
				; AVX-NEXT: vmaxss %xmm3, %xmm0, %xmm0
				; AVX-NEXT: vmaxss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
				; AVX512-NEXT: vmaxss %xmm3, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %a0)			%1 = call nnan float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(<8 x float> %a0) {			define float @test_v8f32(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: maxps %xmm1, %xmm0			; SSE2-NEXT: maxps %xmm1, %xmm0
				; SSE2-NEXT: movaps %xmm0, %xmm2
				; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: maxss %xmm2, %xmm1
	; SSE2-NEXT: maxps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: maxss %xmm2, %xmm1
	; SSE2-NEXT: maxss %xmm1, %xmm0			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE2-NEXT: maxss %xmm0, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32:			; SSE41-LABEL: test_v8f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: maxps %xmm1, %xmm0
				; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: maxss %xmm2, %xmm1
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm0, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: maxss %xmm2, %xmm1
				; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE41-NEXT: maxss %xmm0, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[3,3,3,3]
				; AVX-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]
				; AVX-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
				; AVX-NEXT: vmaxss %xmm7, %xmm0, %xmm0
				; AVX-NEXT: vmaxss %xmm6, %xmm0, %xmm0
				; AVX-NEXT: vmaxss %xmm5, %xmm0, %xmm0
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vmaxss %xmm4, %xmm0, %xmm0
				; AVX-NEXT: vmaxss %xmm3, %xmm0, %xmm0
				; AVX-NEXT: vmaxss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[3,3,3,3]
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]
				; AVX512-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
				; AVX512-NEXT: vmaxss %xmm7, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm6, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm5, %xmm0, %xmm0
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm4, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm3, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float> %a0)			%1 = call nnan float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(<16 x float> %a0) {			define float @test_v16f32(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: maxps %xmm3, %xmm1			; SSE2-NEXT: maxps %xmm3, %xmm1
	; SSE2-NEXT: maxps %xmm2, %xmm0			; SSE2-NEXT: maxps %xmm2, %xmm0
	; SSE2-NEXT: maxps %xmm1, %xmm0			; SSE2-NEXT: maxps %xmm1, %xmm0
				; SSE2-NEXT: movaps %xmm0, %xmm2
				; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: maxss %xmm2, %xmm1
	; SSE2-NEXT: maxps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: maxss %xmm2, %xmm1
	; SSE2-NEXT: maxss %xmm1, %xmm0			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE2-NEXT: maxss %xmm0, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32:			; SSE41-LABEL: test_v16f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: maxps %xmm3, %xmm1			; SSE41-NEXT: maxps %xmm3, %xmm1
	; SSE41-NEXT: maxps %xmm2, %xmm0			; SSE41-NEXT: maxps %xmm2, %xmm0
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: maxps %xmm1, %xmm0
				; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: maxss %xmm2, %xmm1
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm0, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: maxss %xmm2, %xmm1
				; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE41-NEXT: maxss %xmm0, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmaxps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
				; AVX-NEXT: vmaxss %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vpermilps {{.*#+}} xmm2 = xmm0[3,3,3,3]
				; AVX-NEXT: vmaxss %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
				; AVX-NEXT: vmaxss %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
				; AVX-NEXT: vmaxss %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm1
	; AVX512-NEXT: vmaxps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpermilps {{.*#+}} xmm8 = xmm1[3,3,3,3]
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vpermilpd {{.*#+}} xmm9 = xmm1[1,0]
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmovshdup {{.*#+}} xmm10 = xmm1[1,1,3,3]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm5
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilps {{.*#+}} xmm11 = xmm5[3,3,3,3]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm12 = xmm5[1,0]
				; AVX512-NEXT: vmovshdup {{.*#+}} xmm13 = xmm5[1,1,3,3]
				; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm3
				; AVX512-NEXT: vpermilps {{.*#+}} xmm14 = xmm3[3,3,3,3]
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm15 = xmm3[1,0]
				; AVX512-NEXT: vmovshdup {{.*#+}} xmm7 = xmm3[1,1,3,3]
				; AVX512-NEXT: vpermilps {{.*#+}} xmm2 = xmm0[3,3,3,3]
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]
				; AVX512-NEXT: vmovshdup {{.*#+}} xmm6 = xmm0[1,1,3,3]
				; AVX512-NEXT: vmaxss %xmm6, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm4, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm2, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm3, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm7, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm15, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm14, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm5, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm13, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm12, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm11, %xmm0, %xmm0
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm10, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm9, %xmm0, %xmm0
				; AVX512-NEXT: vmaxss %xmm8, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.experimental.vector.reduce.fmax.v16f32(<16 x float> %a0)			%1 = call nnan float @llvm.experimental.vector.reduce.fmax.v16f32(<16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64			; vXf64
	Show All 29 Lines
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: maxsd %xmm1, %xmm0			; SSE-NEXT: maxsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
				; AVX-NEXT: vmaxsd %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vmaxsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
				; AVX512-NEXT: vmaxsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vmaxsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double> %a0)			%1 = call nnan double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(<8 x double> %a0) {			define double @test_v8f64(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: maxpd %xmm3, %xmm1			; SSE-NEXT: maxpd %xmm3, %xmm1
	; SSE-NEXT: maxpd %xmm2, %xmm0			; SSE-NEXT: maxpd %xmm2, %xmm0
	; SSE-NEXT: maxpd %xmm1, %xmm0			; SSE-NEXT: maxpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: maxsd %xmm1, %xmm0			; SSE-NEXT: maxsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm1
	; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm5
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm6 = xmm5[1,0]
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm7 = xmm0[1,0]
				; AVX512-NEXT: vmaxsd %xmm7, %xmm0, %xmm0
				; AVX512-NEXT: vmaxsd %xmm5, %xmm0, %xmm0
				; AVX512-NEXT: vmaxsd %xmm6, %xmm0, %xmm0
				; AVX512-NEXT: vmaxsd %xmm3, %xmm0, %xmm0
				; AVX512-NEXT: vmaxsd %xmm4, %xmm0, %xmm0
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vmaxsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.experimental.vector.reduce.fmax.v8f64(<8 x double> %a0)			%1 = call nnan double @llvm.experimental.vector.reduce.fmax.v8f64(<8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(<16 x double> %a0) {			define double @test_v16f64(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: maxpd %xmm6, %xmm2
	; SSE-NEXT: maxpd %xmm4, %xmm0
	; SSE-NEXT: maxpd %xmm2, %xmm0
	; SSE-NEXT: maxpd %xmm7, %xmm3			; SSE-NEXT: maxpd %xmm7, %xmm3
	; SSE-NEXT: maxpd %xmm5, %xmm1			; SSE-NEXT: maxpd %xmm5, %xmm1
	; SSE-NEXT: maxpd %xmm3, %xmm1			; SSE-NEXT: maxpd %xmm3, %xmm1
				; SSE-NEXT: maxpd %xmm6, %xmm2
				; SSE-NEXT: maxpd %xmm4, %xmm0
				; SSE-NEXT: maxpd %xmm2, %xmm0
	; SSE-NEXT: maxpd %xmm1, %xmm0			; SSE-NEXT: maxpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: maxsd %xmm1, %xmm0			; SSE-NEXT: maxsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmaxpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmaxpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmaxpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
				; AVX512-NEXT: vmaxsd %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
				; AVX512-NEXT: vmaxsd %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2
				; AVX512-NEXT: vmaxsd %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
				; AVX512-NEXT: vmaxsd %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
				; AVX512-NEXT: vmaxsd %xmm0, %xmm1, %xmm1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX512-NEXT: vmaxsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.experimental.vector.reduce.fmax.v16f64(<16 x double> %a0)			%1 = call nnan double @llvm.experimental.vector.reduce.fmax.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float>)			declare float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float>)
	declare float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float>)			declare float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float>)
	declare float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float>)			declare float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float>)
	declare float @llvm.experimental.vector.reduce.fmax.v16f32(<16 x float>)			declare float @llvm.experimental.vector.reduce.fmax.v16f32(<16 x float>)

	declare double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double>)			declare double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double>)
	declare double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double>)			declare double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double>)
	declare double @llvm.experimental.vector.reduce.fmax.v8f64(<8 x double>)			declare double @llvm.experimental.vector.reduce.fmax.v8f64(<8 x double>)
	declare double @llvm.experimental.vector.reduce.fmax.v16f64(<16 x double>)			declare double @llvm.experimental.vector.reduce.fmax.v16f64(<16 x double>)

llvm/test/CodeGen/X86/vector-reduce-fmax.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL

	;			;
	; vXf32			; vXf32
	;			;

	define float @test_v2f32(<2 x float> %a0) {			define float @test_v2f32(<2 x float> %a0) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
				; SSE2-NEXT: movaps %xmm0, %xmm2
				; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: cmpunordss %xmm0, %xmm1
	; SSE2-NEXT: maxss %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm3
				; SSE2-NEXT: andps %xmm2, %xmm3
				; SSE2-NEXT: maxss %xmm0, %xmm2
				; SSE2-NEXT: andnps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; SSE2-NEXT: maxss %xmm0, %xmm1
				; SSE2-NEXT: maxss %xmm0, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32:			; SSE41-LABEL: test_v2f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm0, %xmm1
				; SSE41-NEXT: cmpunordss %xmm0, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm3
				; SSE41-NEXT: andps %xmm2, %xmm3
				; SSE41-NEXT: maxss %xmm0, %xmm2
				; SSE41-NEXT: andnps %xmm2, %xmm1
				; SSE41-NEXT: orps %xmm3, %xmm1
				; SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; SSE41-NEXT: maxss %xmm0, %xmm1
				; SSE41-NEXT: maxss %xmm0, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32:			; AVX-LABEL: test_v2f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
				; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm2
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0
				; AVX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxss %xmm0, %xmm1, %xmm2
				; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
				; AVX512-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; AVX512-NEXT: vmaxss %xmm0, %xmm2, %xmm1
				; AVX512-NEXT: vmaxss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(<4 x float> %a0) {			define float @test_v4f32(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
				; SSE2-NEXT: movaps %xmm0, %xmm2
				; SSE2-NEXT: movaps %xmm0, %xmm3
				; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm0[1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: cmpunordss %xmm0, %xmm1
	; SSE2-NEXT: maxps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm4
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: andps %xmm3, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: maxss %xmm0, %xmm3
	; SSE2-NEXT: maxss %xmm1, %xmm0			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]
				; SSE2-NEXT: andnps %xmm3, %xmm1
				; SSE2-NEXT: orps %xmm4, %xmm1
				; SSE2-NEXT: movaps %xmm2, %xmm3
				; SSE2-NEXT: maxss %xmm1, %xmm3
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm4
				; SSE2-NEXT: andnps %xmm3, %xmm4
				; SSE2-NEXT: andps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm4, %xmm1
				; SSE2-NEXT: movaps %xmm0, %xmm2
				; SSE2-NEXT: maxss %xmm1, %xmm2
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm3
				; SSE2-NEXT: andnps %xmm2, %xmm3
				; SSE2-NEXT: andps %xmm0, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32:			; SSE41-LABEL: test_v4f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
				; SSE41-NEXT: movaps %xmm0, %xmm2
				; SSE41-NEXT: movshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: cmpunordss %xmm0, %xmm1
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm4
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: andps %xmm3, %xmm4
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: maxss %xmm0, %xmm3
				; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE41-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]
				; SSE41-NEXT: andnps %xmm3, %xmm1
				; SSE41-NEXT: orps %xmm4, %xmm1
				; SSE41-NEXT: movaps %xmm2, %xmm3
				; SSE41-NEXT: maxss %xmm1, %xmm3
				; SSE41-NEXT: cmpunordss %xmm1, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm4
				; SSE41-NEXT: andnps %xmm3, %xmm4
				; SSE41-NEXT: andps %xmm2, %xmm1
				; SSE41-NEXT: orps %xmm4, %xmm1
				; SSE41-NEXT: movaps %xmm0, %xmm2
				; SSE41-NEXT: maxss %xmm1, %xmm2
				; SSE41-NEXT: cmpunordss %xmm1, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm3
				; SSE41-NEXT: andnps %xmm2, %xmm3
				; SSE41-NEXT: andps %xmm0, %xmm1
				; SSE41-NEXT: orps %xmm3, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm0, %xmm3, %xmm4
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vblendvps %xmm0, %xmm3, %xmm4, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3
				; AVX-NEXT: vmaxss %xmm0, %xmm2, %xmm0
				; AVX-NEXT: vblendvps %xmm3, %xmm2, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2
				; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm0
				; AVX-NEXT: vblendvps %xmm2, %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxss %xmm0, %xmm3, %xmm4
				; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512-NEXT: vmovss %xmm3, %xmm4, %xmm4 {%k1}
				; AVX512-NEXT: vcmpunordss %xmm4, %xmm4, %k1
				; AVX512-NEXT: vmaxss %xmm4, %xmm2, %xmm0
				; AVX512-NEXT: vmovss %xmm2, %xmm0, %xmm0 {%k1}
				; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512-NEXT: vmaxss %xmm0, %xmm1, %xmm0
				; AVX512-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(<8 x float> %a0) {			define float @test_v8f32(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: maxps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: maxps %xmm0, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: cmpunordps %xmm0, %xmm0
	; SSE2-NEXT: maxps %xmm1, %xmm0			; SSE2-NEXT: andps %xmm0, %xmm1
				; SSE2-NEXT: andnps %xmm2, %xmm0
				; SSE2-NEXT: orps %xmm1, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: cmpunordss %xmm0, %xmm1
	; SSE2-NEXT: maxss %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm3
				; SSE2-NEXT: andps %xmm2, %xmm3
				; SSE2-NEXT: maxss %xmm0, %xmm2
				; SSE2-NEXT: andnps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,2,3]
				; SSE2-NEXT: movdqa %xmm2, %xmm3
				; SSE2-NEXT: maxss %xmm1, %xmm3
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm4
				; SSE2-NEXT: andnps %xmm3, %xmm4
				; SSE2-NEXT: andps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm4, %xmm1
				; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE2-NEXT: movdqa %xmm0, %xmm2
				; SSE2-NEXT: maxss %xmm1, %xmm2
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm3
				; SSE2-NEXT: andnps %xmm2, %xmm3
				; SSE2-NEXT: andps %xmm0, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32:			; SSE41-LABEL: test_v8f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: maxps %xmm0, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: cmpunordps %xmm0, %xmm0
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: blendvps %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm2, %xmm0
				; SSE41-NEXT: cmpunordss %xmm2, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm3
				; SSE41-NEXT: andps %xmm1, %xmm3
				; SSE41-NEXT: maxss %xmm2, %xmm1
				; SSE41-NEXT: andnps %xmm1, %xmm0
				; SSE41-NEXT: orps %xmm3, %xmm0
				; SSE41-NEXT: movaps %xmm2, %xmm1
				; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm2[1]
				; SSE41-NEXT: movaps %xmm1, %xmm3
				; SSE41-NEXT: maxss %xmm0, %xmm3
				; SSE41-NEXT: cmpunordss %xmm0, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm4
				; SSE41-NEXT: andnps %xmm3, %xmm4
				; SSE41-NEXT: andps %xmm1, %xmm0
				; SSE41-NEXT: orps %xmm4, %xmm0
				; SSE41-NEXT: shufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
				; SSE41-NEXT: movaps %xmm2, %xmm1
				; SSE41-NEXT: maxss %xmm0, %xmm1
				; SSE41-NEXT: cmpunordss %xmm0, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm3
				; SSE41-NEXT: andnps %xmm1, %xmm3
				; SSE41-NEXT: andps %xmm2, %xmm0
				; SSE41-NEXT: orps %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilps {{.*#+}} xmm8 = xmm1[3,3,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[3,3,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]
				; AVX-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
				; AVX-NEXT: vmaxss %xmm0, %xmm7, %xmm2
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vblendvps %xmm0, %xmm7, %xmm2, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2
				; AVX-NEXT: vmaxss %xmm0, %xmm6, %xmm0
				; AVX-NEXT: vblendvps %xmm2, %xmm6, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2
				; AVX-NEXT: vmaxss %xmm0, %xmm5, %xmm0
				; AVX-NEXT: vblendvps %xmm2, %xmm5, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2
				; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm0
				; AVX-NEXT: vblendvps %xmm2, %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm1
				; AVX-NEXT: vmaxss %xmm0, %xmm4, %xmm0
				; AVX-NEXT: vblendvps %xmm1, %xmm4, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm1
				; AVX-NEXT: vmaxss %xmm0, %xmm3, %xmm0
				; AVX-NEXT: vblendvps %xmm1, %xmm3, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm1
				; AVX-NEXT: vmaxss %xmm0, %xmm8, %xmm0
				; AVX-NEXT: vblendvps %xmm1, %xmm8, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512BW-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpermilps {{.*#+}} xmm8 = xmm3[3,3,3,3]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm3[1,0]
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512BW-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[3,3,3,3]
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]
	; AVX512-NEXT: vzeroupper			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
	; AVX512-NEXT: retq			; AVX512BW-NEXT: vmaxss %xmm0, %xmm7, %xmm1
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmovss %xmm7, %xmm1, %xmm1 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm1, %xmm1, %k1
				; AVX512BW-NEXT: vmaxss %xmm1, %xmm6, %xmm0
				; AVX512BW-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmaxss %xmm0, %xmm5, %xmm0
				; AVX512BW-NEXT: vmovss %xmm5, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmaxss %xmm0, %xmm3, %xmm0
				; AVX512BW-NEXT: vmovss %xmm3, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmaxss %xmm0, %xmm4, %xmm0
				; AVX512BW-NEXT: vmovss %xmm4, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmaxss %xmm0, %xmm2, %xmm0
				; AVX512BW-NEXT: vmovss %xmm2, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmaxss %xmm0, %xmm8, %xmm0
				; AVX512BW-NEXT: vmovss %xmm8, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vzeroupper
				; AVX512BW-NEXT: retq
				;
				; AVX512VL-LABEL: test_v8f32:
				; AVX512VL: # %bb.0:
				; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm1
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm8 = xmm1[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm7, %xmm2
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmovss %xmm7, %xmm2, %xmm2 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm2, %xmm2, %k1
				; AVX512VL-NEXT: vmaxss %xmm2, %xmm6, %xmm0
				; AVX512VL-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm5, %xmm0
				; AVX512VL-NEXT: vmovss %xmm5, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm1, %xmm0
				; AVX512VL-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm4, %xmm0
				; AVX512VL-NEXT: vmovss %xmm4, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm3, %xmm0
				; AVX512VL-NEXT: vmovss %xmm3, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm8, %xmm0
				; AVX512VL-NEXT: vmovss %xmm8, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vzeroupper
				; AVX512VL-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(<16 x float> %a0) {			define float @test_v16f32(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: maxps %xmm3, %xmm1			; SSE2-NEXT: movaps %xmm2, %xmm4
	; SSE2-NEXT: maxps %xmm2, %xmm0			; SSE2-NEXT: maxps %xmm0, %xmm4
	; SSE2-NEXT: maxps %xmm1, %xmm0			; SSE2-NEXT: cmpunordps %xmm0, %xmm0
				; SSE2-NEXT: andps %xmm0, %xmm2
				; SSE2-NEXT: andnps %xmm4, %xmm0
				; SSE2-NEXT: orps %xmm2, %xmm0
				; SSE2-NEXT: movaps %xmm3, %xmm2
				; SSE2-NEXT: maxps %xmm1, %xmm2
				; SSE2-NEXT: cmpunordps %xmm1, %xmm1
				; SSE2-NEXT: andps %xmm1, %xmm3
				; SSE2-NEXT: andnps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm2
				; SSE2-NEXT: maxps %xmm0, %xmm2
				; SSE2-NEXT: cmpunordps %xmm0, %xmm0
				; SSE2-NEXT: andps %xmm0, %xmm1
				; SSE2-NEXT: andnps %xmm2, %xmm0
				; SSE2-NEXT: orps %xmm1, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: cmpunordss %xmm0, %xmm1
	; SSE2-NEXT: maxps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm3
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: andps %xmm2, %xmm3
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: maxss %xmm0, %xmm2
	; SSE2-NEXT: maxss %xmm1, %xmm0			; SSE2-NEXT: andnps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,2,3]
				; SSE2-NEXT: movdqa %xmm2, %xmm3
				; SSE2-NEXT: maxss %xmm1, %xmm3
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm4
				; SSE2-NEXT: andnps %xmm3, %xmm4
				; SSE2-NEXT: andps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm4, %xmm1
				; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE2-NEXT: movdqa %xmm0, %xmm2
				; SSE2-NEXT: maxss %xmm1, %xmm2
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm3
				; SSE2-NEXT: andnps %xmm2, %xmm3
				; SSE2-NEXT: andps %xmm0, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32:			; SSE41-LABEL: test_v16f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: maxps %xmm3, %xmm1			; SSE41-NEXT: movaps %xmm2, %xmm4
	; SSE41-NEXT: maxps %xmm2, %xmm0			; SSE41-NEXT: maxps %xmm0, %xmm4
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: cmpunordps %xmm0, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: blendvps %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: movaps %xmm3, %xmm2
	; SSE41-NEXT: maxps %xmm1, %xmm0			; SSE41-NEXT: maxps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: cmpunordps %xmm1, %xmm1
	; SSE41-NEXT: maxss %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
				; SSE41-NEXT: blendvps %xmm0, %xmm3, %xmm2
				; SSE41-NEXT: movaps %xmm2, %xmm1
				; SSE41-NEXT: maxps %xmm4, %xmm1
				; SSE41-NEXT: cmpunordps %xmm4, %xmm4
				; SSE41-NEXT: movaps %xmm4, %xmm0
				; SSE41-NEXT: blendvps %xmm0, %xmm2, %xmm1
				; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; SSE41-NEXT: movaps %xmm1, %xmm0
				; SSE41-NEXT: cmpunordss %xmm1, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm3
				; SSE41-NEXT: andps %xmm2, %xmm3
				; SSE41-NEXT: maxss %xmm1, %xmm2
				; SSE41-NEXT: andnps %xmm2, %xmm0
				; SSE41-NEXT: orps %xmm3, %xmm0
				; SSE41-NEXT: movaps %xmm1, %xmm2
				; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
				; SSE41-NEXT: movaps %xmm2, %xmm3
				; SSE41-NEXT: maxss %xmm0, %xmm3
				; SSE41-NEXT: cmpunordss %xmm0, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm4
				; SSE41-NEXT: andnps %xmm3, %xmm4
				; SSE41-NEXT: andps %xmm2, %xmm0
				; SSE41-NEXT: orps %xmm4, %xmm0
				; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
				; SSE41-NEXT: movaps %xmm1, %xmm2
				; SSE41-NEXT: maxss %xmm0, %xmm2
				; SSE41-NEXT: cmpunordss %xmm0, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm3
				; SSE41-NEXT: andnps %xmm2, %xmm3
				; SSE41-NEXT: andps %xmm1, %xmm0
				; SSE41-NEXT: orps %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmaxps %ymm0, %ymm1, %ymm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vcmpunordps %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxss %xmm0, %xmm1, %xmm2
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3
				; AVX-NEXT: vblendvps %xmm3, %xmm1, %xmm2, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
				; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[3,3,3,3]
				; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
				; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
				; AVX-NEXT: vmaxss %xmm1, %xmm3, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; AVX-NEXT: vmaxss %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512BW-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxps %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vmaxss %xmm0, %xmm2, %xmm3
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512-NEXT: vmaxps %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512-NEXT: vmaxss %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3
	; AVX512-NEXT: vzeroupper			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512-NEXT: retq			; AVX512BW-NEXT: vpermilps {{.*#+}} xmm2 = xmm0[3,3,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3
				; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3
				; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3
				; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3
				; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm2
				; AVX512BW-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,3,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3
				; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vmaxss %xmm3, %xmm2, %xmm3
				; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3
				; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm3
				; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm0
				; AVX512BW-NEXT: vpermilps {{.*#+}} xmm1 = xmm2[3,3,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vmaxss %xmm3, %xmm1, %xmm2
				; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
				; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
				; AVX512BW-NEXT: vmaxss %xmm2, %xmm0, %xmm2
				; AVX512BW-NEXT: vmovss %xmm0, %xmm2, %xmm2 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
				; AVX512BW-NEXT: vmaxss %xmm2, %xmm1, %xmm2
				; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
				; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
				; AVX512BW-NEXT: vmaxss %xmm2, %xmm1, %xmm2
				; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
				; AVX512BW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
				; AVX512BW-NEXT: vmaxss %xmm2, %xmm1, %xmm0
				; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vzeroupper
				; AVX512BW-NEXT: retq
				;
				; AVX512VL-LABEL: test_v16f32:
				; AVX512VL: # %bb.0:
				; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm3
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm8 = xmm3[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm9 = xmm3[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm10 = xmm3[1,1,3,3]
				; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm6
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm11 = xmm6[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm12 = xmm6[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm13 = xmm6[1,1,3,3]
				; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm2
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm14 = xmm2[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm15 = xmm2[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm16 = xmm2[1,1,3,3]
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm5 = xmm0[1,1,3,3]
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm5, %xmm7
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmovss %xmm5, %xmm7, %xmm7 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm7, %xmm7, %k1
				; AVX512VL-NEXT: vmaxss %xmm7, %xmm4, %xmm0
				; AVX512VL-NEXT: vmovss %xmm4, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm1, %xmm0
				; AVX512VL-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm2, %xmm0
				; AVX512VL-NEXT: vmovss %xmm2, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm16, %xmm0
				; AVX512VL-NEXT: vmovss %xmm16, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm15, %xmm0
				; AVX512VL-NEXT: vmovss %xmm15, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm14, %xmm0
				; AVX512VL-NEXT: vmovss %xmm14, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm6, %xmm0
				; AVX512VL-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm13, %xmm0
				; AVX512VL-NEXT: vmovss %xmm13, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm12, %xmm0
				; AVX512VL-NEXT: vmovss %xmm12, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm11, %xmm0
				; AVX512VL-NEXT: vmovss %xmm11, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm3, %xmm0
				; AVX512VL-NEXT: vmovss %xmm3, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm10, %xmm0
				; AVX512VL-NEXT: vmovss %xmm10, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm9, %xmm0
				; AVX512VL-NEXT: vmovss %xmm9, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxss %xmm0, %xmm8, %xmm0
				; AVX512VL-NEXT: vmovss %xmm8, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vzeroupper
				; AVX512VL-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmax.v16f32(<16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.fmax.v16f32(<16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64			; vXf64
	;			;

	define double @test_v2f64(<2 x double> %a0) {			define double @test_v2f64(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
				; SSE-NEXT: movapd %xmm0, %xmm2
				; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: cmpunordsd %xmm0, %xmm1
	; SSE-NEXT: maxsd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm3
				; SSE-NEXT: andpd %xmm2, %xmm3
				; SSE-NEXT: maxsd %xmm0, %xmm2
				; SSE-NEXT: andnpd %xmm2, %xmm1
				; SSE-NEXT: orpd %xmm3, %xmm1
				; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm2
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vblendvpd %xmm0, %xmm1, %xmm2, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm0, %xmm2, %xmm1
				; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512-NEXT: vmovsd %xmm2, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vmovapd %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(<4 x double> %a0) {			define double @test_v4f64(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64:			; SSE2-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE2: # %bb.0:
	; SSE-NEXT: maxpd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE2-NEXT: maxpd %xmm0, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
	; SSE-NEXT: maxsd %xmm1, %xmm0			; SSE2-NEXT: andpd %xmm0, %xmm1
	; SSE-NEXT: retq			; SSE2-NEXT: andnpd %xmm2, %xmm0
				; SSE2-NEXT: orpd %xmm1, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,2,3]
				; SSE2-NEXT: movapd %xmm0, %xmm1
				; SSE2-NEXT: cmpunordsd %xmm0, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm3
				; SSE2-NEXT: andpd %xmm2, %xmm3
				; SSE2-NEXT: maxsd %xmm0, %xmm2
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm3, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm0
				; SSE2-NEXT: retq
				;
				; SSE41-LABEL: test_v4f64:
				; SSE41: # %bb.0:
				; SSE41-NEXT: movapd %xmm1, %xmm2
				; SSE41-NEXT: maxpd %xmm0, %xmm2
				; SSE41-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
				; SSE41-NEXT: movapd %xmm2, %xmm1
				; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm2[1]
				; SSE41-NEXT: movapd %xmm2, %xmm0
				; SSE41-NEXT: cmpunordsd %xmm2, %xmm0
				; SSE41-NEXT: movapd %xmm0, %xmm3
				; SSE41-NEXT: andpd %xmm1, %xmm3
				; SSE41-NEXT: maxsd %xmm2, %xmm1
				; SSE41-NEXT: andnpd %xmm1, %xmm0
				; SSE41-NEXT: orpd %xmm3, %xmm0
				; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm0, %xmm3, %xmm4
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vblendvpd %xmm0, %xmm3, %xmm4, %xmm0
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
				; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm0
				; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm1
				; AVX-NEXT: vmaxsd %xmm0, %xmm2, %xmm0
				; AVX-NEXT: vblendvpd %xmm1, %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm0, %xmm3, %xmm4
				; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512-NEXT: vmovsd %xmm3, %xmm4, %xmm4 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm4, %xmm4, %k1
				; AVX512-NEXT: vmaxsd %xmm4, %xmm1, %xmm0
				; AVX512-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512-NEXT: vmaxsd %xmm0, %xmm2, %xmm0
				; AVX512-NEXT: vmovsd %xmm2, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(<8 x double> %a0) {			define double @test_v8f64(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64:			; SSE2-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE2: # %bb.0:
	; SSE-NEXT: maxpd %xmm3, %xmm1			; SSE2-NEXT: movapd %xmm2, %xmm4
	; SSE-NEXT: maxpd %xmm2, %xmm0			; SSE2-NEXT: maxpd %xmm0, %xmm4
	; SSE-NEXT: maxpd %xmm1, %xmm0			; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE2-NEXT: andpd %xmm0, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: andnpd %xmm4, %xmm0
	; SSE-NEXT: maxsd %xmm1, %xmm0			; SSE2-NEXT: orpd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE2-NEXT: movapd %xmm3, %xmm2
				; SSE2-NEXT: maxpd %xmm1, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm1, %xmm1
				; SSE2-NEXT: andpd %xmm1, %xmm3
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm3, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm2
				; SSE2-NEXT: maxpd %xmm0, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE2-NEXT: andpd %xmm0, %xmm1
				; SSE2-NEXT: andnpd %xmm2, %xmm0
				; SSE2-NEXT: orpd %xmm1, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,2,3]
				; SSE2-NEXT: movapd %xmm0, %xmm1
				; SSE2-NEXT: cmpunordsd %xmm0, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm3
				; SSE2-NEXT: andpd %xmm2, %xmm3
				; SSE2-NEXT: maxsd %xmm0, %xmm2
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm3, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm0
				; SSE2-NEXT: retq
				;
				; SSE41-LABEL: test_v8f64:
				; SSE41: # %bb.0:
				; SSE41-NEXT: movapd %xmm2, %xmm4
				; SSE41-NEXT: maxpd %xmm0, %xmm4
				; SSE41-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
				; SSE41-NEXT: movapd %xmm3, %xmm2
				; SSE41-NEXT: maxpd %xmm1, %xmm2
				; SSE41-NEXT: cmpunordpd %xmm1, %xmm1
				; SSE41-NEXT: movapd %xmm1, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2
				; SSE41-NEXT: movapd %xmm2, %xmm1
				; SSE41-NEXT: maxpd %xmm4, %xmm1
				; SSE41-NEXT: cmpunordpd %xmm4, %xmm4
				; SSE41-NEXT: movapd %xmm4, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
				; SSE41-NEXT: movapd %xmm1, %xmm2
				; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
				; SSE41-NEXT: movapd %xmm1, %xmm0
				; SSE41-NEXT: cmpunordsd %xmm1, %xmm0
				; SSE41-NEXT: movapd %xmm0, %xmm3
				; SSE41-NEXT: andpd %xmm2, %xmm3
				; SSE41-NEXT: maxsd %xmm1, %xmm2
				; SSE41-NEXT: andnpd %xmm2, %xmm0
				; SSE41-NEXT: orpd %xmm3, %xmm0
				; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmaxpd %ymm0, %ymm1, %ymm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm2
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
				; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1
				; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512BW-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm2
	; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm8 = xmm2[1,0]
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm6 = xmm5[1,0]
	; AVX512-NEXT: vzeroupper			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm7 = xmm0[1,0]
	; AVX512-NEXT: retq			; AVX512BW-NEXT: vmaxsd %xmm0, %xmm7, %xmm1
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmovsd %xmm7, %xmm1, %xmm1 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512BW-NEXT: vmaxsd %xmm1, %xmm5, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmaxsd %xmm0, %xmm6, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm6, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmaxsd %xmm0, %xmm3, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm3, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmaxsd %xmm0, %xmm4, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm4, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmaxsd %xmm0, %xmm2, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm2, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmaxsd %xmm0, %xmm8, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm8, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vzeroupper
				; AVX512BW-NEXT: retq
				;
				; AVX512VL-LABEL: test_v8f64:
				; AVX512VL: # %bb.0:
				; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm1
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm8 = xmm1[1,0]
				; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm3
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
				; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm5
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm6 = xmm5[1,0]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm7 = xmm0[1,0]
				; AVX512VL-NEXT: vmaxsd %xmm0, %xmm7, %xmm2
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmovsd %xmm7, %xmm2, %xmm2 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm2, %xmm2, %k1
				; AVX512VL-NEXT: vmaxsd %xmm2, %xmm5, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxsd %xmm0, %xmm6, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm6, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxsd %xmm0, %xmm3, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm3, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxsd %xmm0, %xmm4, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm4, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxsd %xmm0, %xmm1, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmaxsd %xmm0, %xmm8, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm8, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vzeroupper
				; AVX512VL-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmax.v8f64(<8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.fmax.v8f64(<8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(<16 x double> %a0) {			define double @test_v16f64(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64:			; SSE2-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE2: # %bb.0:
	; SSE-NEXT: maxpd %xmm6, %xmm2			; SSE2-NEXT: movapd %xmm4, %xmm8
	; SSE-NEXT: maxpd %xmm4, %xmm0			; SSE2-NEXT: maxpd %xmm0, %xmm8
	; SSE-NEXT: maxpd %xmm2, %xmm0			; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
	; SSE-NEXT: maxpd %xmm7, %xmm3			; SSE2-NEXT: andpd %xmm0, %xmm4
	; SSE-NEXT: maxpd %xmm5, %xmm1			; SSE2-NEXT: andnpd %xmm8, %xmm0
	; SSE-NEXT: maxpd %xmm3, %xmm1			; SSE2-NEXT: orpd %xmm4, %xmm0
	; SSE-NEXT: maxpd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm6, %xmm4
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE2-NEXT: maxpd %xmm2, %xmm4
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: cmpunordpd %xmm2, %xmm2
	; SSE-NEXT: maxsd %xmm1, %xmm0			; SSE2-NEXT: andpd %xmm2, %xmm6
	; SSE-NEXT: retq			; SSE2-NEXT: andnpd %xmm4, %xmm2
				; SSE2-NEXT: orpd %xmm6, %xmm2
				; SSE2-NEXT: movapd %xmm2, %xmm4
				; SSE2-NEXT: maxpd %xmm0, %xmm4
				; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE2-NEXT: andpd %xmm0, %xmm2
				; SSE2-NEXT: andnpd %xmm4, %xmm0
				; SSE2-NEXT: orpd %xmm2, %xmm0
				; SSE2-NEXT: movapd %xmm5, %xmm2
				; SSE2-NEXT: maxpd %xmm1, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm1, %xmm1
				; SSE2-NEXT: andpd %xmm1, %xmm5
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm5, %xmm1
				; SSE2-NEXT: movapd %xmm7, %xmm2
				; SSE2-NEXT: maxpd %xmm3, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm3, %xmm3
				; SSE2-NEXT: andpd %xmm3, %xmm7
				; SSE2-NEXT: andnpd %xmm2, %xmm3
				; SSE2-NEXT: orpd %xmm7, %xmm3
				; SSE2-NEXT: movapd %xmm3, %xmm2
				; SSE2-NEXT: maxpd %xmm1, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm1, %xmm1
				; SSE2-NEXT: andpd %xmm1, %xmm3
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm3, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm2
				; SSE2-NEXT: maxpd %xmm0, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE2-NEXT: andpd %xmm0, %xmm1
				; SSE2-NEXT: andnpd %xmm2, %xmm0
				; SSE2-NEXT: orpd %xmm1, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,2,3]
				; SSE2-NEXT: movapd %xmm0, %xmm1
				; SSE2-NEXT: cmpunordsd %xmm0, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm3
				; SSE2-NEXT: andpd %xmm2, %xmm3
				; SSE2-NEXT: maxsd %xmm0, %xmm2
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm3, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm0
				; SSE2-NEXT: retq
				;
				; SSE41-LABEL: test_v16f64:
				; SSE41: # %bb.0:
				; SSE41-NEXT: movapd %xmm3, %xmm8
				; SSE41-NEXT: movapd %xmm4, %xmm3
				; SSE41-NEXT: maxpd %xmm0, %xmm3
				; SSE41-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm3
				; SSE41-NEXT: movapd %xmm6, %xmm4
				; SSE41-NEXT: maxpd %xmm2, %xmm4
				; SSE41-NEXT: cmpunordpd %xmm2, %xmm2
				; SSE41-NEXT: movapd %xmm2, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm4
				; SSE41-NEXT: movapd %xmm4, %xmm2
				; SSE41-NEXT: maxpd %xmm3, %xmm2
				; SSE41-NEXT: cmpunordpd %xmm3, %xmm3
				; SSE41-NEXT: movapd %xmm3, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
				; SSE41-NEXT: movapd %xmm5, %xmm3
				; SSE41-NEXT: maxpd %xmm1, %xmm3
				; SSE41-NEXT: cmpunordpd %xmm1, %xmm1
				; SSE41-NEXT: movapd %xmm1, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm3
				; SSE41-NEXT: movapd %xmm7, %xmm1
				; SSE41-NEXT: maxpd %xmm8, %xmm1
				; SSE41-NEXT: cmpunordpd %xmm8, %xmm8
				; SSE41-NEXT: movapd %xmm8, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
				; SSE41-NEXT: movapd %xmm1, %xmm4
				; SSE41-NEXT: maxpd %xmm3, %xmm4
				; SSE41-NEXT: cmpunordpd %xmm3, %xmm3
				; SSE41-NEXT: movapd %xmm3, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
				; SSE41-NEXT: movapd %xmm4, %xmm1
				; SSE41-NEXT: maxpd %xmm2, %xmm1
				; SSE41-NEXT: cmpunordpd %xmm2, %xmm2
				; SSE41-NEXT: movapd %xmm2, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm1
				; SSE41-NEXT: movapd %xmm1, %xmm2
				; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
				; SSE41-NEXT: movapd %xmm1, %xmm0
				; SSE41-NEXT: cmpunordsd %xmm1, %xmm0
				; SSE41-NEXT: movapd %xmm0, %xmm3
				; SSE41-NEXT: andpd %xmm2, %xmm3
				; SSE41-NEXT: maxsd %xmm1, %xmm2
				; SSE41-NEXT: andnpd %xmm2, %xmm0
				; SSE41-NEXT: orpd %xmm3, %xmm0
				; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmaxpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmaxpd %ymm0, %ymm2, %ymm4
	; AVX-NEXT: vmaxpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vmaxpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vblendvpd %ymm0, %ymm2, %ymm4, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vmaxpd %ymm1, %ymm3, %ymm2
	; AVX-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vcmpunordpd %ymm1, %ymm1, %ymm1
				; AVX-NEXT: vblendvpd %ymm1, %ymm3, %ymm2, %ymm1
				; AVX-NEXT: vmaxpd %ymm0, %ymm1, %ymm2
				; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
				; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmaxsd %xmm0, %xmm1, %xmm2
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
				; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1
				; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmaxpd %zmm0, %zmm1, %zmm2
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vcmpunordpd %zmm0, %zmm0, %k1
	; AVX512-NEXT: vmaxpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmovapd %zmm1, %zmm2 {%k1}
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm2[1,0]
	; AVX512-NEXT: vmaxpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmaxsd %xmm2, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vcmpunordsd %xmm2, %xmm2, %k1
	; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm0
				; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vextractf32x4 $2, %zmm2, %xmm0
				; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm0
				; AVX512-NEXT: vmaxsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
				; AVX512-NEXT: vmaxsd %xmm1, %xmm2, %xmm0
				; AVX512-NEXT: vmovsd %xmm2, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmax.v16f64(<16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.fmax.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float>)			declare float @llvm.experimental.vector.reduce.fmax.v2f32(<2 x float>)
	declare float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float>)			declare float @llvm.experimental.vector.reduce.fmax.v4f32(<4 x float>)
	declare float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float>)			declare float @llvm.experimental.vector.reduce.fmax.v8f32(<8 x float>)
	declare float @llvm.experimental.vector.reduce.fmax.v16f32(<16 x float>)			declare float @llvm.experimental.vector.reduce.fmax.v16f32(<16 x float>)

	declare double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double>)			declare double @llvm.experimental.vector.reduce.fmax.v2f64(<2 x double>)
	declare double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double>)			declare double @llvm.experimental.vector.reduce.fmax.v4f64(<4 x double>)
	declare double @llvm.experimental.vector.reduce.fmax.v8f64(<8 x double>)			declare double @llvm.experimental.vector.reduce.fmax.v8f64(<8 x double>)
	declare double @llvm.experimental.vector.reduce.fmax.v16f64(<16 x double>)			declare double @llvm.experimental.vector.reduce.fmax.v16f64(<16 x double>)

llvm/test/CodeGen/X86/vector-reduce-fmin-nnan.ll

	Show All 10 Lines
	;			;

	define float @test_v2f32(<2 x float> %a0) {			define float @test_v2f32(<2 x float> %a0) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
	; SSE2-NEXT: minss %xmm1, %xmm0			; SSE2-NEXT: minss %xmm1, %xmm0
				; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; SSE2-NEXT: minss %xmm1, %xmm0
				; SSE2-NEXT: minss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32:			; SSE41-LABEL: test_v2f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: minss %xmm1, %xmm0
				; SSE41-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; SSE41-NEXT: minss %xmm1, %xmm0
				; SSE41-NEXT: minss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32:			; AVX-LABEL: test_v2f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float> %a0)			%1 = call nnan float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(<4 x float> %a0) {			define float @test_v4f32(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3],xmm0[3,3]
	; SSE2-NEXT: minps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: movaps %xmm0, %xmm3
				; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm0[1,1]
				; SSE2-NEXT: minss %xmm3, %xmm0
				; SSE2-NEXT: minss %xmm2, %xmm0
	; SSE2-NEXT: minss %xmm1, %xmm0			; SSE2-NEXT: minss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32:			; SSE41-LABEL: test_v4f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3],xmm0[3,3]
	; SSE41-NEXT: minps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm0, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
				; SSE41-NEXT: movshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
				; SSE41-NEXT: minss %xmm3, %xmm0
				; SSE41-NEXT: minss %xmm2, %xmm0
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: minss %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
				; AVX-NEXT: vminss %xmm3, %xmm0, %xmm0
				; AVX-NEXT: vminss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
				; AVX512-NEXT: vminss %xmm3, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %a0)			%1 = call nnan float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(<8 x float> %a0) {			define float @test_v8f32(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: minps %xmm1, %xmm0			; SSE2-NEXT: minps %xmm1, %xmm0
				; SSE2-NEXT: movaps %xmm0, %xmm2
				; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: minss %xmm2, %xmm1
	; SSE2-NEXT: minps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: minss %xmm2, %xmm1
	; SSE2-NEXT: minss %xmm1, %xmm0			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE2-NEXT: minss %xmm0, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32:			; SSE41-LABEL: test_v8f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: minps %xmm1, %xmm0			; SSE41-NEXT: minps %xmm1, %xmm0
				; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: minss %xmm2, %xmm1
	; SSE41-NEXT: minps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm0, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: minss %xmm2, %xmm1
				; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE41-NEXT: minss %xmm0, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[3,3,3,3]
				; AVX-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]
				; AVX-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
				; AVX-NEXT: vminss %xmm7, %xmm0, %xmm0
				; AVX-NEXT: vminss %xmm6, %xmm0, %xmm0
				; AVX-NEXT: vminss %xmm5, %xmm0, %xmm0
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vminss %xmm4, %xmm0, %xmm0
				; AVX-NEXT: vminss %xmm3, %xmm0, %xmm0
				; AVX-NEXT: vminss %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[3,3,3,3]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[3,3,3,3]
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]
				; AVX512-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
				; AVX512-NEXT: vminss %xmm7, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm6, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm5, %xmm0, %xmm0
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm4, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm3, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float> %a0)			%1 = call nnan float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(<16 x float> %a0) {			define float @test_v16f32(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: minps %xmm3, %xmm1			; SSE2-NEXT: minps %xmm3, %xmm1
	; SSE2-NEXT: minps %xmm2, %xmm0			; SSE2-NEXT: minps %xmm2, %xmm0
	; SSE2-NEXT: minps %xmm1, %xmm0			; SSE2-NEXT: minps %xmm1, %xmm0
				; SSE2-NEXT: movaps %xmm0, %xmm2
				; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: minss %xmm2, %xmm1
	; SSE2-NEXT: minps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm0, %xmm2
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: minss %xmm2, %xmm1
	; SSE2-NEXT: minss %xmm1, %xmm0			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE2-NEXT: minss %xmm0, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32:			; SSE41-LABEL: test_v16f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: minps %xmm3, %xmm1			; SSE41-NEXT: minps %xmm3, %xmm1
	; SSE41-NEXT: minps %xmm2, %xmm0			; SSE41-NEXT: minps %xmm2, %xmm0
	; SSE41-NEXT: minps %xmm1, %xmm0			; SSE41-NEXT: minps %xmm1, %xmm0
				; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: minss %xmm2, %xmm1
	; SSE41-NEXT: minps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm0, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: minss %xmm2, %xmm1
				; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE41-NEXT: minss %xmm0, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vminps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vminps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
				; AVX-NEXT: vminss %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vpermilps {{.*#+}} xmm2 = xmm0[3,3,3,3]
				; AVX-NEXT: vminss %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vminss %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
				; AVX-NEXT: vminss %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
				; AVX-NEXT: vminss %xmm2, %xmm1, %xmm1
				; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; AVX-NEXT: vminss %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm1
	; AVX512-NEXT: vminps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpermilps {{.*#+}} xmm8 = xmm1[3,3,3,3]
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vpermilpd {{.*#+}} xmm9 = xmm1[1,0]
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmovshdup {{.*#+}} xmm10 = xmm1[1,1,3,3]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm5
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilps {{.*#+}} xmm11 = xmm5[3,3,3,3]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm12 = xmm5[1,0]
				; AVX512-NEXT: vmovshdup {{.*#+}} xmm13 = xmm5[1,1,3,3]
				; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm3
				; AVX512-NEXT: vpermilps {{.*#+}} xmm14 = xmm3[3,3,3,3]
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm15 = xmm3[1,0]
				; AVX512-NEXT: vmovshdup {{.*#+}} xmm7 = xmm3[1,1,3,3]
				; AVX512-NEXT: vpermilps {{.*#+}} xmm2 = xmm0[3,3,3,3]
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]
				; AVX512-NEXT: vmovshdup {{.*#+}} xmm6 = xmm0[1,1,3,3]
				; AVX512-NEXT: vminss %xmm6, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm4, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm2, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm3, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm7, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm15, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm14, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm5, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm13, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm12, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm11, %xmm0, %xmm0
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm10, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm9, %xmm0, %xmm0
				; AVX512-NEXT: vminss %xmm8, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan float @llvm.experimental.vector.reduce.fmin.v16f32(<16 x float> %a0)			%1 = call nnan float @llvm.experimental.vector.reduce.fmin.v16f32(<16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64			; vXf64
	Show All 29 Lines
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE-NEXT: minsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
				; AVX-NEXT: vminsd %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vminsd %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
				; AVX512-NEXT: vminsd %xmm3, %xmm0, %xmm0
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vminsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double> %a0)			%1 = call nnan double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(<8 x double> %a0) {			define double @test_v8f64(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: minpd %xmm3, %xmm1			; SSE-NEXT: minpd %xmm3, %xmm1
	; SSE-NEXT: minpd %xmm2, %xmm0			; SSE-NEXT: minpd %xmm2, %xmm0
	; SSE-NEXT: minpd %xmm1, %xmm0			; SSE-NEXT: minpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE-NEXT: minsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm1
	; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm5
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm6 = xmm5[1,0]
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm7 = xmm0[1,0]
				; AVX512-NEXT: vminsd %xmm7, %xmm0, %xmm0
				; AVX512-NEXT: vminsd %xmm5, %xmm0, %xmm0
				; AVX512-NEXT: vminsd %xmm6, %xmm0, %xmm0
				; AVX512-NEXT: vminsd %xmm3, %xmm0, %xmm0
				; AVX512-NEXT: vminsd %xmm4, %xmm0, %xmm0
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0
				; AVX512-NEXT: vminsd %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.experimental.vector.reduce.fmin.v8f64(<8 x double> %a0)			%1 = call nnan double @llvm.experimental.vector.reduce.fmin.v8f64(<8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(<16 x double> %a0) {			define double @test_v16f64(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: minpd %xmm6, %xmm2
	; SSE-NEXT: minpd %xmm4, %xmm0
	; SSE-NEXT: minpd %xmm2, %xmm0
	; SSE-NEXT: minpd %xmm7, %xmm3			; SSE-NEXT: minpd %xmm7, %xmm3
	; SSE-NEXT: minpd %xmm5, %xmm1			; SSE-NEXT: minpd %xmm5, %xmm1
	; SSE-NEXT: minpd %xmm3, %xmm1			; SSE-NEXT: minpd %xmm3, %xmm1
				; SSE-NEXT: minpd %xmm6, %xmm2
				; SSE-NEXT: minpd %xmm4, %xmm0
				; SSE-NEXT: minpd %xmm2, %xmm0
	; SSE-NEXT: minpd %xmm1, %xmm0			; SSE-NEXT: minpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE-NEXT: minsd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vminpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vminpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vminpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vminpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm2
				; AVX512-NEXT: vminsd %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
				; AVX512-NEXT: vminsd %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vextractf32x4 $2, %zmm0, %xmm2
				; AVX512-NEXT: vminsd %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm2[1,0]
				; AVX512-NEXT: vminsd %xmm2, %xmm1, %xmm1
				; AVX512-NEXT: vextractf32x4 $3, %zmm0, %xmm0
				; AVX512-NEXT: vminsd %xmm0, %xmm1, %xmm1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX512-NEXT: vminsd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.experimental.vector.reduce.fmin.v16f64(<16 x double> %a0)			%1 = call nnan double @llvm.experimental.vector.reduce.fmin.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float>)			declare float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float>)
	declare float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float>)			declare float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float>)
	declare float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float>)			declare float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float>)
	declare float @llvm.experimental.vector.reduce.fmin.v16f32(<16 x float>)			declare float @llvm.experimental.vector.reduce.fmin.v16f32(<16 x float>)

	declare double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double>)			declare double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double>)
	declare double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double>)			declare double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double>)
	declare double @llvm.experimental.vector.reduce.fmin.v8f64(<8 x double>)			declare double @llvm.experimental.vector.reduce.fmin.v8f64(<8 x double>)
	declare double @llvm.experimental.vector.reduce.fmin.v16f64(<16 x double>)			declare double @llvm.experimental.vector.reduce.fmin.v16f64(<16 x double>)

llvm/test/CodeGen/X86/vector-reduce-fmin.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512BW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VL

	;			;
	; vXf32			; vXf32
	;			;

	define float @test_v2f32(<2 x float> %a0) {			define float @test_v2f32(<2 x float> %a0) {
	; SSE2-LABEL: test_v2f32:			; SSE2-LABEL: test_v2f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
				; SSE2-NEXT: movaps %xmm0, %xmm2
				; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1],xmm0[1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: cmpunordss %xmm0, %xmm1
	; SSE2-NEXT: minss %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm3
				; SSE2-NEXT: andps %xmm2, %xmm3
				; SSE2-NEXT: minss %xmm0, %xmm2
				; SSE2-NEXT: andnps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; SSE2-NEXT: minss %xmm0, %xmm1
				; SSE2-NEXT: minss %xmm0, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2f32:			; SSE41-LABEL: test_v2f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm0, %xmm1
				; SSE41-NEXT: cmpunordss %xmm0, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm3
				; SSE41-NEXT: andps %xmm2, %xmm3
				; SSE41-NEXT: minss %xmm0, %xmm2
				; SSE41-NEXT: andnps %xmm2, %xmm1
				; SSE41-NEXT: orps %xmm3, %xmm1
				; SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; SSE41-NEXT: minss %xmm0, %xmm1
				; SSE41-NEXT: minss %xmm0, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f32:			; AVX-LABEL: test_v2f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
				; AVX-NEXT: vminss %xmm0, %xmm1, %xmm2
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vblendvps %xmm0, %xmm1, %xmm2, %xmm0
				; AVX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f32:			; AVX512-LABEL: test_v2f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminss %xmm0, %xmm1, %xmm2
				; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
				; AVX512-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; AVX512-NEXT: vminss %xmm0, %xmm2, %xmm1
				; AVX512-NEXT: vminss %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v4f32(<4 x float> %a0) {			define float @test_v4f32(<4 x float> %a0) {
	; SSE2-LABEL: test_v4f32:			; SSE2-LABEL: test_v4f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
				; SSE2-NEXT: movaps %xmm0, %xmm2
				; SSE2-NEXT: movaps %xmm0, %xmm3
				; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,1],xmm0[1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: cmpunordss %xmm0, %xmm1
	; SSE2-NEXT: minps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm4
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: andps %xmm3, %xmm4
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: minss %xmm0, %xmm3
	; SSE2-NEXT: minss %xmm1, %xmm0			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE2-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]
				; SSE2-NEXT: andnps %xmm3, %xmm1
				; SSE2-NEXT: orps %xmm4, %xmm1
				; SSE2-NEXT: movaps %xmm2, %xmm3
				; SSE2-NEXT: minss %xmm1, %xmm3
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm4
				; SSE2-NEXT: andnps %xmm3, %xmm4
				; SSE2-NEXT: andps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm4, %xmm1
				; SSE2-NEXT: movaps %xmm0, %xmm2
				; SSE2-NEXT: minss %xmm1, %xmm2
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm3
				; SSE2-NEXT: andnps %xmm2, %xmm3
				; SSE2-NEXT: andps %xmm0, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v4f32:			; SSE41-LABEL: test_v4f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
				; SSE41-NEXT: movaps %xmm0, %xmm2
				; SSE41-NEXT: movshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: cmpunordss %xmm0, %xmm1
	; SSE41-NEXT: minps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm4
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: andps %xmm3, %xmm4
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: minss %xmm0, %xmm3
				; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE41-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]
				; SSE41-NEXT: andnps %xmm3, %xmm1
				; SSE41-NEXT: orps %xmm4, %xmm1
				; SSE41-NEXT: movaps %xmm2, %xmm3
				; SSE41-NEXT: minss %xmm1, %xmm3
				; SSE41-NEXT: cmpunordss %xmm1, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm4
				; SSE41-NEXT: andnps %xmm3, %xmm4
				; SSE41-NEXT: andps %xmm2, %xmm1
				; SSE41-NEXT: orps %xmm4, %xmm1
				; SSE41-NEXT: movaps %xmm0, %xmm2
				; SSE41-NEXT: minss %xmm1, %xmm2
				; SSE41-NEXT: cmpunordss %xmm1, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm3
				; SSE41-NEXT: andnps %xmm2, %xmm3
				; SSE41-NEXT: andps %xmm0, %xmm1
				; SSE41-NEXT: orps %xmm3, %xmm1
				; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f32:			; AVX-LABEL: test_v4f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminss %xmm0, %xmm3, %xmm4
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vblendvps %xmm0, %xmm3, %xmm4, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3
				; AVX-NEXT: vminss %xmm0, %xmm2, %xmm0
				; AVX-NEXT: vblendvps %xmm3, %xmm2, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2
				; AVX-NEXT: vminss %xmm0, %xmm1, %xmm0
				; AVX-NEXT: vblendvps %xmm2, %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f32:			; AVX512-LABEL: test_v4f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminss %xmm0, %xmm3, %xmm4
				; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512-NEXT: vmovss %xmm3, %xmm4, %xmm4 {%k1}
				; AVX512-NEXT: vcmpunordss %xmm4, %xmm4, %k1
				; AVX512-NEXT: vminss %xmm4, %xmm2, %xmm0
				; AVX512-NEXT: vmovss %xmm2, %xmm0, %xmm0 {%k1}
				; AVX512-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512-NEXT: vminss %xmm0, %xmm1, %xmm0
				; AVX512-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v8f32(<8 x float> %a0) {			define float @test_v8f32(<8 x float> %a0) {
	; SSE2-LABEL: test_v8f32:			; SSE2-LABEL: test_v8f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: minps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm2
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: minps %xmm0, %xmm2
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: cmpunordps %xmm0, %xmm0
	; SSE2-NEXT: minps %xmm1, %xmm0			; SSE2-NEXT: andps %xmm0, %xmm1
				; SSE2-NEXT: andnps %xmm2, %xmm0
				; SSE2-NEXT: orps %xmm1, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: cmpunordss %xmm0, %xmm1
	; SSE2-NEXT: minss %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm3
				; SSE2-NEXT: andps %xmm2, %xmm3
				; SSE2-NEXT: minss %xmm0, %xmm2
				; SSE2-NEXT: andnps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,2,3]
				; SSE2-NEXT: movdqa %xmm2, %xmm3
				; SSE2-NEXT: minss %xmm1, %xmm3
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm4
				; SSE2-NEXT: andnps %xmm3, %xmm4
				; SSE2-NEXT: andps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm4, %xmm1
				; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE2-NEXT: movdqa %xmm0, %xmm2
				; SSE2-NEXT: minss %xmm1, %xmm2
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm3
				; SSE2-NEXT: andnps %xmm2, %xmm3
				; SSE2-NEXT: andps %xmm0, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8f32:			; SSE41-LABEL: test_v8f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: minps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm2
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: minps %xmm0, %xmm2
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: cmpunordps %xmm0, %xmm0
	; SSE41-NEXT: minps %xmm1, %xmm0			; SSE41-NEXT: blendvps %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm2, %xmm0
				; SSE41-NEXT: cmpunordss %xmm2, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm3
				; SSE41-NEXT: andps %xmm1, %xmm3
				; SSE41-NEXT: minss %xmm2, %xmm1
				; SSE41-NEXT: andnps %xmm1, %xmm0
				; SSE41-NEXT: orps %xmm3, %xmm0
				; SSE41-NEXT: movaps %xmm2, %xmm1
				; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm2[1]
				; SSE41-NEXT: movaps %xmm1, %xmm3
				; SSE41-NEXT: minss %xmm0, %xmm3
				; SSE41-NEXT: cmpunordss %xmm0, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm4
				; SSE41-NEXT: andnps %xmm3, %xmm4
				; SSE41-NEXT: andps %xmm1, %xmm0
				; SSE41-NEXT: orps %xmm4, %xmm0
				; SSE41-NEXT: shufps {{.*#+}} xmm2 = xmm2[3,3,3,3]
				; SSE41-NEXT: movaps %xmm2, %xmm1
				; SSE41-NEXT: minss %xmm0, %xmm1
				; SSE41-NEXT: cmpunordss %xmm0, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm3
				; SSE41-NEXT: andnps %xmm1, %xmm3
				; SSE41-NEXT: andps %xmm2, %xmm0
				; SSE41-NEXT: orps %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilps {{.*#+}} xmm8 = xmm1[3,3,3,3]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[3,3,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]
				; AVX-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
				; AVX-NEXT: vminss %xmm0, %xmm7, %xmm2
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vblendvps %xmm0, %xmm7, %xmm2, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2
				; AVX-NEXT: vminss %xmm0, %xmm6, %xmm0
				; AVX-NEXT: vblendvps %xmm2, %xmm6, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2
				; AVX-NEXT: vminss %xmm0, %xmm5, %xmm0
				; AVX-NEXT: vblendvps %xmm2, %xmm5, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm2
				; AVX-NEXT: vminss %xmm0, %xmm1, %xmm0
				; AVX-NEXT: vblendvps %xmm2, %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm1
				; AVX-NEXT: vminss %xmm0, %xmm4, %xmm0
				; AVX-NEXT: vblendvps %xmm1, %xmm4, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm1
				; AVX-NEXT: vminss %xmm0, %xmm3, %xmm0
				; AVX-NEXT: vblendvps %xmm1, %xmm3, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm1
				; AVX-NEXT: vminss %xmm0, %xmm8, %xmm0
				; AVX-NEXT: vblendvps %xmm1, %xmm8, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512BW-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpermilps {{.*#+}} xmm8 = xmm3[3,3,3,3]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm3[1,0]
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm4 = xmm3[1,1,3,3]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512BW-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[3,3,3,3]
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]
	; AVX512-NEXT: vzeroupper			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
	; AVX512-NEXT: retq			; AVX512BW-NEXT: vminss %xmm0, %xmm7, %xmm1
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmovss %xmm7, %xmm1, %xmm1 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm1, %xmm1, %k1
				; AVX512BW-NEXT: vminss %xmm1, %xmm6, %xmm0
				; AVX512BW-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vminss %xmm0, %xmm5, %xmm0
				; AVX512BW-NEXT: vmovss %xmm5, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vminss %xmm0, %xmm3, %xmm0
				; AVX512BW-NEXT: vmovss %xmm3, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vminss %xmm0, %xmm4, %xmm0
				; AVX512BW-NEXT: vmovss %xmm4, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vminss %xmm0, %xmm2, %xmm0
				; AVX512BW-NEXT: vmovss %xmm2, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vminss %xmm0, %xmm8, %xmm0
				; AVX512BW-NEXT: vmovss %xmm8, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vzeroupper
				; AVX512BW-NEXT: retq
				;
				; AVX512VL-LABEL: test_v8f32:
				; AVX512VL: # %bb.0:
				; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm1
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm8 = xmm1[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm4 = xmm1[1,1,3,3]
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm5 = xmm0[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm6 = xmm0[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm7 = xmm0[1,1,3,3]
				; AVX512VL-NEXT: vminss %xmm0, %xmm7, %xmm2
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmovss %xmm7, %xmm2, %xmm2 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm2, %xmm2, %k1
				; AVX512VL-NEXT: vminss %xmm2, %xmm6, %xmm0
				; AVX512VL-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm5, %xmm0
				; AVX512VL-NEXT: vmovss %xmm5, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm1, %xmm0
				; AVX512VL-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm4, %xmm0
				; AVX512VL-NEXT: vmovss %xmm4, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm3, %xmm0
				; AVX512VL-NEXT: vmovss %xmm3, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm8, %xmm0
				; AVX512VL-NEXT: vmovss %xmm8, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vzeroupper
				; AVX512VL-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(<16 x float> %a0) {			define float @test_v16f32(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: minps %xmm3, %xmm1			; SSE2-NEXT: movaps %xmm2, %xmm4
	; SSE2-NEXT: minps %xmm2, %xmm0			; SSE2-NEXT: minps %xmm0, %xmm4
	; SSE2-NEXT: minps %xmm1, %xmm0			; SSE2-NEXT: cmpunordps %xmm0, %xmm0
				; SSE2-NEXT: andps %xmm0, %xmm2
				; SSE2-NEXT: andnps %xmm4, %xmm0
				; SSE2-NEXT: orps %xmm2, %xmm0
				; SSE2-NEXT: movaps %xmm3, %xmm2
				; SSE2-NEXT: minps %xmm1, %xmm2
				; SSE2-NEXT: cmpunordps %xmm1, %xmm1
				; SSE2-NEXT: andps %xmm1, %xmm3
				; SSE2-NEXT: andnps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm2
				; SSE2-NEXT: minps %xmm0, %xmm2
				; SSE2-NEXT: cmpunordps %xmm0, %xmm0
				; SSE2-NEXT: andps %xmm0, %xmm1
				; SSE2-NEXT: andnps %xmm2, %xmm0
				; SSE2-NEXT: orps %xmm1, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,1,1]
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: cmpunordss %xmm0, %xmm1
	; SSE2-NEXT: minps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm3
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: andps %xmm2, %xmm3
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]			; SSE2-NEXT: minss %xmm0, %xmm2
	; SSE2-NEXT: minss %xmm1, %xmm0			; SSE2-NEXT: andnps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,2,3]
				; SSE2-NEXT: movdqa %xmm2, %xmm3
				; SSE2-NEXT: minss %xmm1, %xmm3
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm4
				; SSE2-NEXT: andnps %xmm3, %xmm4
				; SSE2-NEXT: andps %xmm2, %xmm1
				; SSE2-NEXT: orps %xmm4, %xmm1
				; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; SSE2-NEXT: movdqa %xmm0, %xmm2
				; SSE2-NEXT: minss %xmm1, %xmm2
				; SSE2-NEXT: cmpunordss %xmm1, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm3
				; SSE2-NEXT: andnps %xmm2, %xmm3
				; SSE2-NEXT: andps %xmm0, %xmm1
				; SSE2-NEXT: orps %xmm3, %xmm1
				; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16f32:			; SSE41-LABEL: test_v16f32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: minps %xmm3, %xmm1			; SSE41-NEXT: movaps %xmm2, %xmm4
	; SSE41-NEXT: minps %xmm2, %xmm0			; SSE41-NEXT: minps %xmm0, %xmm4
	; SSE41-NEXT: minps %xmm1, %xmm0			; SSE41-NEXT: cmpunordps %xmm0, %xmm0
	; SSE41-NEXT: movaps %xmm0, %xmm1			; SSE41-NEXT: blendvps %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE41-NEXT: movaps %xmm3, %xmm2
	; SSE41-NEXT: minps %xmm1, %xmm0			; SSE41-NEXT: minps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE41-NEXT: cmpunordps %xmm1, %xmm1
	; SSE41-NEXT: minss %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
				; SSE41-NEXT: blendvps %xmm0, %xmm3, %xmm2
				; SSE41-NEXT: movaps %xmm2, %xmm1
				; SSE41-NEXT: minps %xmm4, %xmm1
				; SSE41-NEXT: cmpunordps %xmm4, %xmm4
				; SSE41-NEXT: movaps %xmm4, %xmm0
				; SSE41-NEXT: blendvps %xmm0, %xmm2, %xmm1
				; SSE41-NEXT: movshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; SSE41-NEXT: movaps %xmm1, %xmm0
				; SSE41-NEXT: cmpunordss %xmm1, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm3
				; SSE41-NEXT: andps %xmm2, %xmm3
				; SSE41-NEXT: minss %xmm1, %xmm2
				; SSE41-NEXT: andnps %xmm2, %xmm0
				; SSE41-NEXT: orps %xmm3, %xmm0
				; SSE41-NEXT: movaps %xmm1, %xmm2
				; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
				; SSE41-NEXT: movaps %xmm2, %xmm3
				; SSE41-NEXT: minss %xmm0, %xmm3
				; SSE41-NEXT: cmpunordss %xmm0, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm4
				; SSE41-NEXT: andnps %xmm3, %xmm4
				; SSE41-NEXT: andps %xmm2, %xmm0
				; SSE41-NEXT: orps %xmm4, %xmm0
				; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,3,3,3]
				; SSE41-NEXT: movaps %xmm1, %xmm2
				; SSE41-NEXT: minss %xmm0, %xmm2
				; SSE41-NEXT: cmpunordss %xmm0, %xmm0
				; SSE41-NEXT: movaps %xmm0, %xmm3
				; SSE41-NEXT: andnps %xmm2, %xmm3
				; SSE41-NEXT: andps %xmm1, %xmm0
				; SSE41-NEXT: orps %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vminps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vminps %ymm0, %ymm1, %ymm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vcmpunordps %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vblendvps %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminss %xmm0, %xmm1, %xmm2
				; AVX-NEXT: vcmpunordss %xmm0, %xmm0, %xmm3
				; AVX-NEXT: vblendvps %xmm3, %xmm1, %xmm2, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
				; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[3,3,3,3]
				; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vminss %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vmovshdup {{.*#+}} xmm3 = xmm0[1,1,3,3]
				; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
				; AVX-NEXT: vminss %xmm1, %xmm3, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm3, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordss %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,3,3,3]
				; AVX-NEXT: vminss %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512BW-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminps %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm0[1,1,3,3]
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vminss %xmm0, %xmm2, %xmm3
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vcmpunordss %xmm0, %xmm0, %k1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512-NEXT: vminps %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
	; AVX512-NEXT: vminss %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3
	; AVX512-NEXT: vzeroupper			; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
	; AVX512-NEXT: retq			; AVX512BW-NEXT: vpermilps {{.*#+}} xmm2 = xmm0[3,3,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3
				; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm2 = xmm1[1,1,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3
				; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3
				; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3
				; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm2
				; AVX512BW-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[3,3,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3
				; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm2[1,1,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vminss %xmm3, %xmm2, %xmm3
				; AVX512BW-NEXT: vmovss %xmm2, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3
				; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm2[1,0]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm3
				; AVX512BW-NEXT: vmovss %xmm1, %xmm3, %xmm3 {%k1}
				; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm0
				; AVX512BW-NEXT: vpermilps {{.*#+}} xmm1 = xmm2[3,3,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm3, %xmm3, %k1
				; AVX512BW-NEXT: vminss %xmm3, %xmm1, %xmm2
				; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
				; AVX512BW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
				; AVX512BW-NEXT: vminss %xmm2, %xmm0, %xmm2
				; AVX512BW-NEXT: vmovss %xmm0, %xmm2, %xmm2 {%k1}
				; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
				; AVX512BW-NEXT: vminss %xmm2, %xmm1, %xmm2
				; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
				; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
				; AVX512BW-NEXT: vminss %xmm2, %xmm1, %xmm2
				; AVX512BW-NEXT: vmovss %xmm1, %xmm2, %xmm2 {%k1}
				; AVX512BW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
				; AVX512BW-NEXT: vcmpunordss %xmm2, %xmm2, %k1
				; AVX512BW-NEXT: vminss %xmm2, %xmm1, %xmm0
				; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vzeroupper
				; AVX512BW-NEXT: retq
				;
				; AVX512VL-LABEL: test_v16f32:
				; AVX512VL: # %bb.0:
				; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm3
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm8 = xmm3[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm9 = xmm3[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm10 = xmm3[1,1,3,3]
				; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm6
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm11 = xmm6[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm12 = xmm6[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm13 = xmm6[1,1,3,3]
				; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm2
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm14 = xmm2[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm15 = xmm2[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm16 = xmm2[1,1,3,3]
				; AVX512VL-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,3,3,3]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm4 = xmm0[1,0]
				; AVX512VL-NEXT: vmovshdup {{.*#+}} xmm5 = xmm0[1,1,3,3]
				; AVX512VL-NEXT: vminss %xmm0, %xmm5, %xmm7
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmovss %xmm5, %xmm7, %xmm7 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm7, %xmm7, %k1
				; AVX512VL-NEXT: vminss %xmm7, %xmm4, %xmm0
				; AVX512VL-NEXT: vmovss %xmm4, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm1, %xmm0
				; AVX512VL-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm2, %xmm0
				; AVX512VL-NEXT: vmovss %xmm2, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm16, %xmm0
				; AVX512VL-NEXT: vmovss %xmm16, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm15, %xmm0
				; AVX512VL-NEXT: vmovss %xmm15, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm14, %xmm0
				; AVX512VL-NEXT: vmovss %xmm14, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm6, %xmm0
				; AVX512VL-NEXT: vmovss %xmm6, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm13, %xmm0
				; AVX512VL-NEXT: vmovss %xmm13, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm12, %xmm0
				; AVX512VL-NEXT: vmovss %xmm12, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm11, %xmm0
				; AVX512VL-NEXT: vmovss %xmm11, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm3, %xmm0
				; AVX512VL-NEXT: vmovss %xmm3, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm10, %xmm0
				; AVX512VL-NEXT: vmovss %xmm10, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm9, %xmm0
				; AVX512VL-NEXT: vmovss %xmm9, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordss %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminss %xmm0, %xmm8, %xmm0
				; AVX512VL-NEXT: vmovss %xmm8, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vzeroupper
				; AVX512VL-NEXT: retq
	%1 = call float @llvm.experimental.vector.reduce.fmin.v16f32(<16 x float> %a0)			%1 = call float @llvm.experimental.vector.reduce.fmin.v16f32(<16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64			; vXf64
	;			;

	define double @test_v2f64(<2 x double> %a0) {			define double @test_v2f64(<2 x double> %a0) {
	; SSE-LABEL: test_v2f64:			; SSE-LABEL: test_v2f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
				; SSE-NEXT: movapd %xmm0, %xmm2
				; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: cmpunordsd %xmm0, %xmm1
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm3
				; SSE-NEXT: andpd %xmm2, %xmm3
				; SSE-NEXT: minsd %xmm0, %xmm2
				; SSE-NEXT: andnpd %xmm2, %xmm1
				; SSE-NEXT: orpd %xmm3, %xmm1
				; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f64:			; AVX-LABEL: test_v2f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm2
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vblendvpd %xmm0, %xmm1, %xmm2, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v2f64:			; AVX512-LABEL: test_v2f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm0, %xmm2, %xmm1
				; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512-NEXT: vmovsd %xmm2, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vmovapd %xmm1, %xmm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v4f64(<4 x double> %a0) {			define double @test_v4f64(<4 x double> %a0) {
	; SSE-LABEL: test_v4f64:			; SSE2-LABEL: test_v4f64:
	; SSE: # %bb.0:			; SSE2: # %bb.0:
	; SSE-NEXT: minpd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm1, %xmm2
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE2-NEXT: minpd %xmm0, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE2-NEXT: andpd %xmm0, %xmm1
	; SSE-NEXT: retq			; SSE2-NEXT: andnpd %xmm2, %xmm0
				; SSE2-NEXT: orpd %xmm1, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,2,3]
				; SSE2-NEXT: movapd %xmm0, %xmm1
				; SSE2-NEXT: cmpunordsd %xmm0, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm3
				; SSE2-NEXT: andpd %xmm2, %xmm3
				; SSE2-NEXT: minsd %xmm0, %xmm2
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm3, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm0
				; SSE2-NEXT: retq
				;
				; SSE41-LABEL: test_v4f64:
				; SSE41: # %bb.0:
				; SSE41-NEXT: movapd %xmm1, %xmm2
				; SSE41-NEXT: minpd %xmm0, %xmm2
				; SSE41-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
				; SSE41-NEXT: movapd %xmm2, %xmm1
				; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm2[1]
				; SSE41-NEXT: movapd %xmm2, %xmm0
				; SSE41-NEXT: cmpunordsd %xmm2, %xmm0
				; SSE41-NEXT: movapd %xmm0, %xmm3
				; SSE41-NEXT: andpd %xmm1, %xmm3
				; SSE41-NEXT: minsd %xmm2, %xmm1
				; SSE41-NEXT: andnpd %xmm1, %xmm0
				; SSE41-NEXT: orpd %xmm3, %xmm0
				; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm0, %xmm3, %xmm4
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm0
				; AVX-NEXT: vblendvpd %xmm0, %xmm3, %xmm4, %xmm0
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
				; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm0
				; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm1
				; AVX-NEXT: vminsd %xmm0, %xmm2, %xmm0
				; AVX-NEXT: vblendvpd %xmm1, %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm0[1,0]
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm0, %xmm3, %xmm4
				; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512-NEXT: vmovsd %xmm3, %xmm4, %xmm4 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm4, %xmm4, %k1
				; AVX512-NEXT: vminsd %xmm4, %xmm1, %xmm0
				; AVX512-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512-NEXT: vminsd %xmm0, %xmm2, %xmm0
				; AVX512-NEXT: vmovsd %xmm2, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(<8 x double> %a0) {			define double @test_v8f64(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64:			; SSE2-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE2: # %bb.0:
	; SSE-NEXT: minpd %xmm3, %xmm1			; SSE2-NEXT: movapd %xmm2, %xmm4
	; SSE-NEXT: minpd %xmm2, %xmm0			; SSE2-NEXT: minpd %xmm0, %xmm4
	; SSE-NEXT: minpd %xmm1, %xmm0			; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE2-NEXT: andpd %xmm0, %xmm2
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: andnpd %xmm4, %xmm0
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE2-NEXT: orpd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE2-NEXT: movapd %xmm3, %xmm2
				; SSE2-NEXT: minpd %xmm1, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm1, %xmm1
				; SSE2-NEXT: andpd %xmm1, %xmm3
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm3, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm2
				; SSE2-NEXT: minpd %xmm0, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE2-NEXT: andpd %xmm0, %xmm1
				; SSE2-NEXT: andnpd %xmm2, %xmm0
				; SSE2-NEXT: orpd %xmm1, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,2,3]
				; SSE2-NEXT: movapd %xmm0, %xmm1
				; SSE2-NEXT: cmpunordsd %xmm0, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm3
				; SSE2-NEXT: andpd %xmm2, %xmm3
				; SSE2-NEXT: minsd %xmm0, %xmm2
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm3, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm0
				; SSE2-NEXT: retq
				;
				; SSE41-LABEL: test_v8f64:
				; SSE41: # %bb.0:
				; SSE41-NEXT: movapd %xmm2, %xmm4
				; SSE41-NEXT: minpd %xmm0, %xmm4
				; SSE41-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
				; SSE41-NEXT: movapd %xmm3, %xmm2
				; SSE41-NEXT: minpd %xmm1, %xmm2
				; SSE41-NEXT: cmpunordpd %xmm1, %xmm1
				; SSE41-NEXT: movapd %xmm1, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2
				; SSE41-NEXT: movapd %xmm2, %xmm1
				; SSE41-NEXT: minpd %xmm4, %xmm1
				; SSE41-NEXT: cmpunordpd %xmm4, %xmm4
				; SSE41-NEXT: movapd %xmm4, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
				; SSE41-NEXT: movapd %xmm1, %xmm2
				; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
				; SSE41-NEXT: movapd %xmm1, %xmm0
				; SSE41-NEXT: cmpunordsd %xmm1, %xmm0
				; SSE41-NEXT: movapd %xmm0, %xmm3
				; SSE41-NEXT: andpd %xmm2, %xmm3
				; SSE41-NEXT: minsd %xmm1, %xmm2
				; SSE41-NEXT: andnpd %xmm2, %xmm0
				; SSE41-NEXT: orpd %xmm3, %xmm0
				; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vminpd %ymm0, %ymm1, %ymm2
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm2
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
				; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1
				; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512BW-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextractf32x4 $3, %zmm0, %xmm2
	; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm8 = xmm2[1,0]
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextractf32x4 $2, %zmm0, %xmm3
	; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512BW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm6 = xmm5[1,0]
	; AVX512-NEXT: vzeroupper			; AVX512BW-NEXT: vpermilpd {{.*#+}} xmm7 = xmm0[1,0]
	; AVX512-NEXT: retq			; AVX512BW-NEXT: vminsd %xmm0, %xmm7, %xmm1
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vmovsd %xmm7, %xmm1, %xmm1 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512BW-NEXT: vminsd %xmm1, %xmm5, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vminsd %xmm0, %xmm6, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm6, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vminsd %xmm0, %xmm3, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm3, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vminsd %xmm0, %xmm4, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm4, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vminsd %xmm0, %xmm2, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm2, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512BW-NEXT: vminsd %xmm0, %xmm8, %xmm0
				; AVX512BW-NEXT: vmovsd %xmm8, %xmm0, %xmm0 {%k1}
				; AVX512BW-NEXT: vzeroupper
				; AVX512BW-NEXT: retq
				;
				; AVX512VL-LABEL: test_v8f64:
				; AVX512VL: # %bb.0:
				; AVX512VL-NEXT: vextractf32x4 $3, %zmm0, %xmm1
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm8 = xmm1[1,0]
				; AVX512VL-NEXT: vextractf32x4 $2, %zmm0, %xmm3
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
				; AVX512VL-NEXT: vextractf128 $1, %ymm0, %xmm5
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm6 = xmm5[1,0]
				; AVX512VL-NEXT: vpermilpd {{.*#+}} xmm7 = xmm0[1,0]
				; AVX512VL-NEXT: vminsd %xmm0, %xmm7, %xmm2
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vmovsd %xmm7, %xmm2, %xmm2 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm2, %xmm2, %k1
				; AVX512VL-NEXT: vminsd %xmm2, %xmm5, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm5, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminsd %xmm0, %xmm6, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm6, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminsd %xmm0, %xmm3, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm3, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminsd %xmm0, %xmm4, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm4, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminsd %xmm0, %xmm1, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm1, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vcmpunordsd %xmm0, %xmm0, %k1
				; AVX512VL-NEXT: vminsd %xmm0, %xmm8, %xmm0
				; AVX512VL-NEXT: vmovsd %xmm8, %xmm0, %xmm0 {%k1}
				; AVX512VL-NEXT: vzeroupper
				; AVX512VL-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmin.v8f64(<8 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.fmin.v8f64(<8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(<16 x double> %a0) {			define double @test_v16f64(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64:			; SSE2-LABEL: test_v16f64:
	; SSE: # %bb.0:			; SSE2: # %bb.0:
	; SSE-NEXT: minpd %xmm6, %xmm2			; SSE2-NEXT: movapd %xmm4, %xmm8
	; SSE-NEXT: minpd %xmm4, %xmm0			; SSE2-NEXT: minpd %xmm0, %xmm8
	; SSE-NEXT: minpd %xmm2, %xmm0			; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
	; SSE-NEXT: minpd %xmm7, %xmm3			; SSE2-NEXT: andpd %xmm0, %xmm4
	; SSE-NEXT: minpd %xmm5, %xmm1			; SSE2-NEXT: andnpd %xmm8, %xmm0
	; SSE-NEXT: minpd %xmm3, %xmm1			; SSE2-NEXT: orpd %xmm4, %xmm0
	; SSE-NEXT: minpd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm6, %xmm4
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE2-NEXT: minpd %xmm2, %xmm4
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE2-NEXT: cmpunordpd %xmm2, %xmm2
	; SSE-NEXT: minsd %xmm1, %xmm0			; SSE2-NEXT: andpd %xmm2, %xmm6
	; SSE-NEXT: retq			; SSE2-NEXT: andnpd %xmm4, %xmm2
				; SSE2-NEXT: orpd %xmm6, %xmm2
				; SSE2-NEXT: movapd %xmm2, %xmm4
				; SSE2-NEXT: minpd %xmm0, %xmm4
				; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE2-NEXT: andpd %xmm0, %xmm2
				; SSE2-NEXT: andnpd %xmm4, %xmm0
				; SSE2-NEXT: orpd %xmm2, %xmm0
				; SSE2-NEXT: movapd %xmm5, %xmm2
				; SSE2-NEXT: minpd %xmm1, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm1, %xmm1
				; SSE2-NEXT: andpd %xmm1, %xmm5
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm5, %xmm1
				; SSE2-NEXT: movapd %xmm7, %xmm2
				; SSE2-NEXT: minpd %xmm3, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm3, %xmm3
				; SSE2-NEXT: andpd %xmm3, %xmm7
				; SSE2-NEXT: andnpd %xmm2, %xmm3
				; SSE2-NEXT: orpd %xmm7, %xmm3
				; SSE2-NEXT: movapd %xmm3, %xmm2
				; SSE2-NEXT: minpd %xmm1, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm1, %xmm1
				; SSE2-NEXT: andpd %xmm1, %xmm3
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm3, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm2
				; SSE2-NEXT: minpd %xmm0, %xmm2
				; SSE2-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE2-NEXT: andpd %xmm0, %xmm1
				; SSE2-NEXT: andnpd %xmm2, %xmm0
				; SSE2-NEXT: orpd %xmm1, %xmm0
				; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,2,3]
				; SSE2-NEXT: movapd %xmm0, %xmm1
				; SSE2-NEXT: cmpunordsd %xmm0, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm3
				; SSE2-NEXT: andpd %xmm2, %xmm3
				; SSE2-NEXT: minsd %xmm0, %xmm2
				; SSE2-NEXT: andnpd %xmm2, %xmm1
				; SSE2-NEXT: orpd %xmm3, %xmm1
				; SSE2-NEXT: movapd %xmm1, %xmm0
				; SSE2-NEXT: retq
				;
				; SSE41-LABEL: test_v16f64:
				; SSE41: # %bb.0:
				; SSE41-NEXT: movapd %xmm3, %xmm8
				; SSE41-NEXT: movapd %xmm4, %xmm3
				; SSE41-NEXT: minpd %xmm0, %xmm3
				; SSE41-NEXT: cmpunordpd %xmm0, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm3
				; SSE41-NEXT: movapd %xmm6, %xmm4
				; SSE41-NEXT: minpd %xmm2, %xmm4
				; SSE41-NEXT: cmpunordpd %xmm2, %xmm2
				; SSE41-NEXT: movapd %xmm2, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm4
				; SSE41-NEXT: movapd %xmm4, %xmm2
				; SSE41-NEXT: minpd %xmm3, %xmm2
				; SSE41-NEXT: cmpunordpd %xmm3, %xmm3
				; SSE41-NEXT: movapd %xmm3, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
				; SSE41-NEXT: movapd %xmm5, %xmm3
				; SSE41-NEXT: minpd %xmm1, %xmm3
				; SSE41-NEXT: cmpunordpd %xmm1, %xmm1
				; SSE41-NEXT: movapd %xmm1, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm3
				; SSE41-NEXT: movapd %xmm7, %xmm1
				; SSE41-NEXT: minpd %xmm8, %xmm1
				; SSE41-NEXT: cmpunordpd %xmm8, %xmm8
				; SSE41-NEXT: movapd %xmm8, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
				; SSE41-NEXT: movapd %xmm1, %xmm4
				; SSE41-NEXT: minpd %xmm3, %xmm4
				; SSE41-NEXT: cmpunordpd %xmm3, %xmm3
				; SSE41-NEXT: movapd %xmm3, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
				; SSE41-NEXT: movapd %xmm4, %xmm1
				; SSE41-NEXT: minpd %xmm2, %xmm1
				; SSE41-NEXT: cmpunordpd %xmm2, %xmm2
				; SSE41-NEXT: movapd %xmm2, %xmm0
				; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm1
				; SSE41-NEXT: movapd %xmm1, %xmm2
				; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
				; SSE41-NEXT: movapd %xmm1, %xmm0
				; SSE41-NEXT: cmpunordsd %xmm1, %xmm0
				; SSE41-NEXT: movapd %xmm0, %xmm3
				; SSE41-NEXT: andpd %xmm2, %xmm3
				; SSE41-NEXT: minsd %xmm1, %xmm2
				; SSE41-NEXT: andnpd %xmm2, %xmm0
				; SSE41-NEXT: orpd %xmm3, %xmm0
				; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vminpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vminpd %ymm0, %ymm2, %ymm4
	; AVX-NEXT: vminpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
	; AVX-NEXT: vminpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vblendvpd %ymm0, %ymm2, %ymm4, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vminpd %ymm1, %ymm3, %ymm2
	; AVX-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vcmpunordpd %ymm1, %ymm1, %ymm1
				; AVX-NEXT: vblendvpd %ymm1, %ymm3, %ymm2, %ymm1
				; AVX-NEXT: vminpd %ymm0, %ymm1, %ymm2
				; AVX-NEXT: vcmpunordpd %ymm0, %ymm0, %ymm0
				; AVX-NEXT: vblendvpd %ymm0, %ymm1, %ymm2, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vminsd %xmm0, %xmm1, %xmm2
				; AVX-NEXT: vcmpunordsd %xmm0, %xmm0, %xmm3
				; AVX-NEXT: vblendvpd %xmm3, %xmm1, %xmm2, %xmm1
				; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vcmpunordsd %xmm1, %xmm1, %xmm2
				; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vminpd %zmm0, %zmm1, %zmm2
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vcmpunordpd %zmm0, %zmm0, %k1
	; AVX512-NEXT: vminpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmovapd %zmm1, %zmm2 {%k1}
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm2[1,0]
	; AVX512-NEXT: vminpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vminsd %xmm2, %xmm0, %xmm1
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vcmpunordsd %xmm2, %xmm2, %k1
	; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm0
				; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vextractf32x4 $2, %zmm2, %xmm0
				; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vextractf32x4 $3, %zmm2, %xmm0
				; AVX512-NEXT: vminsd %xmm1, %xmm0, %xmm1
				; AVX512-NEXT: vmovsd %xmm0, %xmm1, %xmm1 {%k1}
				; AVX512-NEXT: vcmpunordsd %xmm1, %xmm1, %k1
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
				; AVX512-NEXT: vminsd %xmm1, %xmm2, %xmm0
				; AVX512-NEXT: vmovsd %xmm2, %xmm0, %xmm0 {%k1}
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call double @llvm.experimental.vector.reduce.fmin.v16f64(<16 x double> %a0)			%1 = call double @llvm.experimental.vector.reduce.fmin.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float>)			declare float @llvm.experimental.vector.reduce.fmin.v2f32(<2 x float>)
	declare float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float>)			declare float @llvm.experimental.vector.reduce.fmin.v4f32(<4 x float>)
	declare float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float>)			declare float @llvm.experimental.vector.reduce.fmin.v8f32(<8 x float>)
	declare float @llvm.experimental.vector.reduce.fmin.v16f32(<16 x float>)			declare float @llvm.experimental.vector.reduce.fmin.v16f32(<16 x float>)

	declare double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double>)			declare double @llvm.experimental.vector.reduce.fmin.v2f64(<2 x double>)
	declare double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double>)			declare double @llvm.experimental.vector.reduce.fmin.v4f64(<4 x double>)
	declare double @llvm.experimental.vector.reduce.fmin.v8f64(<8 x double>)			declare double @llvm.experimental.vector.reduce.fmin.v8f64(<8 x double>)
	declare double @llvm.experimental.vector.reduce.fmin.v16f64(<16 x double>)			declare double @llvm.experimental.vector.reduce.fmin.v16f64(<16 x double>)

This is an archive of the discontinued LLVM Phabricator instance.

[Intrinsics] define semantics for experimental fmax/fmin vector reductions
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 290737

llvm/docs/LangRef.rst

llvm/include/llvm/CodeGen/BasicTTIImpl.h

llvm/lib/CodeGen/ExpandReductions.cpp

llvm/lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

llvm/test/CodeGen/AArch64/vecreduce-fmax-legalization-nan.ll

llvm/test/CodeGen/Generic/expand-experimental-reductions.ll

llvm/test/CodeGen/Thumb2/mve-vecreduce-fminmax.ll

llvm/test/CodeGen/Thumb2/mve-vecreduce-loops.ll

llvm/test/CodeGen/X86/vector-reduce-fmax-nnan.ll

llvm/test/CodeGen/X86/vector-reduce-fmax.ll

llvm/test/CodeGen/X86/vector-reduce-fmin-nnan.ll

llvm/test/CodeGen/X86/vector-reduce-fmin.ll

This is an archive of the discontinued LLVM Phabricator instance.

[Intrinsics] define semantics for experimental fmax/fmin vector reductionsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 290737

llvm/docs/LangRef.rst

llvm/include/llvm/CodeGen/BasicTTIImpl.h

llvm/lib/CodeGen/ExpandReductions.cpp

llvm/lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

llvm/test/CodeGen/AArch64/vecreduce-fmax-legalization-nan.ll

llvm/test/CodeGen/Generic/expand-experimental-reductions.ll

llvm/test/CodeGen/Thumb2/mve-vecreduce-fminmax.ll

llvm/test/CodeGen/Thumb2/mve-vecreduce-loops.ll

llvm/test/CodeGen/X86/vector-reduce-fmax-nnan.ll

llvm/test/CodeGen/X86/vector-reduce-fmax.ll

llvm/test/CodeGen/X86/vector-reduce-fmin-nnan.ll

llvm/test/CodeGen/X86/vector-reduce-fmin.ll

[Intrinsics] define semantics for experimental fmax/fmin vector reductions
ClosedPublic