This is an archive of the discontinued LLVM Phabricator instance.

[X86] Recognize horizontal reduction trees and narrow the width of the later binops.
AbandonedPublic

Authored by craig.topper on Mar 20 2018, 12:02 AM.

Download Raw Diff

Details

Reviewers

RKSimon
spatel

Summary

This patch teaches DAG combine to recognize an extract_subvector of a horizontal reduction step and to reduce the size of the operation. New extract_subvectors will be inserted to propagate the reduction up the tree.

If the starting binop size is 512-bits wide, this reduction can allow the later steps to be narrowed to 128/256 bits were we can use a shorter VEX encoding.

I've put in the ADD, MIN, and MAX instructions so far, but there may be other operations we should support.

I have noticed an oddity due to the order that DAG combine visits nodes. We visit the last layer before all the FMAX/FMIN nodes get created. This prevents the combine from being recognized. A later DAG combine trigger by type legalization or vector legalization can catch it, but those DAG combines aren't guaranteed to run if nothing was legalized. We could mitigate this by detecting the reduction step at the binop itself and just padding the upper bits with undef hoping its used by an extract_subvector? I think that would get properly triggered as we create FMAX in the upper nodes since the combine will add users back to the worklist. Thoughts?

Diff Detail

Repository

rL LLVM

Build Status

Buildable 16253
Build 16253: arc lint + arc unit

Event Timeline

craig.topper created this revision.Mar 20 2018, 12:02 AM

Harbormaster completed remote builds in B16253: Diff 139079.Mar 20 2018, 12:02 AM

Thinking about this again in terms of D47401 - would it be better to focus on making better use of TargetLowering::SimplifyDemandedVectorElts ?

I'm not sure SimplifyDemandedElts can do it as it currently exists. All the arithmetic nodes have two users. SimplifyDemandedElts can't handle that can it?

craig.topper abandoned this revision.Oct 20 2018, 12:41 PM

Revision Contents

Path

Size

lib/

Target/

X86/

X86ISelLowering.cpp

159 lines

test/

CodeGen/

X86/

avx512-hadd-hsub.ll

14 lines

horizontal-reduce-smax.ll

47 lines

horizontal-reduce-smin.ll

47 lines

horizontal-reduce-umax.ll

99 lines

horizontal-reduce-umin.ll

99 lines

madd.ll

61 lines

required-vector-width.ll

14 lines

sad.ll

37 lines

Diff 139079

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 31,704 Lines • ▼ Show 20 Lines	if ((SrcVT == MVT::v8i16 && Subtarget.hasSSE2()) \|\|
SDValue ExtOp = DAG.getNode(OpCode, dl, MVT::i32, SrcOp,		SDValue ExtOp = DAG.getNode(OpCode, dl, MVT::i32, SrcOp,
DAG.getIntPtrConstant(SrcIdx, dl));		DAG.getIntPtrConstant(SrcIdx, dl));
return DAG.getZExtOrTrunc(ExtOp, dl, VT);		return DAG.getZExtOrTrunc(ExtOp, dl, VT);
}		}

return SDValue();		return SDValue();
}		}

		// Operations that we can recognize as part of a horizontal reduction.
		static bool isHorizontalReductionOpcode(unsigned Opcode) {
		switch (Opcode) {
		case ISD::ADD:
		case ISD::UMAX: case ISD::UMIN:
		case ISD::SMAX: case ISD::SMIN:
		case ISD::FADD:
		case X86ISD::FMAX: case X86ISD::FMIN:
		case X86ISD::FMAXC: case X86ISD::FMINC:
		return true;
		}

		return false;
		}

		// If we are looking at part of a horizontal reduction, determine its output
		// size.
		static int isHorizontalReductionStep(SDValue Root) {
		unsigned Opcode = Root.getOpcode();

		if (!isHorizontalReductionOpcode(Opcode))
		return -1;

		SDValue LHS = Root.getOperand(0);
		SDValue RHS = Root.getOperand(1);

		// Canonicalize op to LHS.
		if (RHS.getOpcode() == Opcode)
		std::swap(LHS, RHS);

		if (LHS.getOpcode() != Opcode \|\|
		RHS.getOpcode() != ISD::VECTOR_SHUFFLE)
		return -1;

		ArrayRef<int> Mask = cast<ShuffleVectorSDNode>(RHS)->getMask();

		// Make sure we have on input and its the same as LHS.
		if (RHS.getOperand(0) != LHS)
		return -1;

		// The mask should be shifting over elements. Find the starting index.
		int StartIdx = Mask[0];
		// Undef or shift of 0 isn't interesting.
		if (StartIdx <= 0)
		return -1;

		// Make sure the start index is no larger than half the mask or we'll go
		// out of bounds.
		if (StartIdx * 2 > (int)Mask.size())
		return false;

		// Make sure the first StartIdx elements are contiguous.
		for (int i = 0; i != StartIdx; ++i)
		if (Mask[i] != StartIdx + i)
		return false;

		// Make sure the rest are undef.
		for (int i = StartIdx; i != (int)Mask.size(); ++i)
		if (Mask[i] >= 0)
		return false;

		return StartIdx;
		}

/// Detect vector gather/scatter index generation and convert it from being a		/// Detect vector gather/scatter index generation and convert it from being a
/// bunch of shuffles and extracts into a somewhat faster sequence.		/// bunch of shuffles and extracts into a somewhat faster sequence.
/// For i686, the best sequence is apparently storing the value and loading		/// For i686, the best sequence is apparently storing the value and loading
/// scalars back, while for x64 we should use 64-bit extracts and shifts.		/// scalars back, while for x64 we should use 64-bit extracts and shifts.
static SDValue combineExtractVectorElt(SDNode *N, SelectionDAG &DAG,		static SDValue combineExtractVectorElt(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
if (SDValue NewOp = combineExtractWithShuffle(N, DAG, DCI, Subtarget))		if (SDValue NewOp = combineExtractWithShuffle(N, DAG, DCI, Subtarget))
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines	static SDValue combineExtractVectorElt(SDNode *N, SelectionDAG &DAG,
// Attempt to replace an all_of/any_of horizontal reduction with a MOVMSK.		// Attempt to replace an all_of/any_of horizontal reduction with a MOVMSK.
if (SDValue Cmp = combineHorizontalPredicateResult(N, DAG, Subtarget))		if (SDValue Cmp = combineHorizontalPredicateResult(N, DAG, Subtarget))
return Cmp;		return Cmp;

// Attempt to replace min/max v8i16/v16i8 reductions with PHMINPOSUW.		// Attempt to replace min/max v8i16/v16i8 reductions with PHMINPOSUW.
if (SDValue MinMax = combineHorizontalMinMaxResult(N, DAG, Subtarget))		if (SDValue MinMax = combineHorizontalMinMaxResult(N, DAG, Subtarget))
return MinMax;		return MinMax;

		// If this is an extract from element 0 of a 256/512 bit vector that is
		// the root of a horizontal reduction, insert an extract_subvector to kick
		// off a narrowing process.
		const TargetLowering &TLI = DAG.getTargetLoweringInfo();
		if (TLI.isTypeLegal(SrcVT) && isa<ConstantSDNode>(EltIdx) &&
		cast<ConstantSDNode>(EltIdx)->getZExtValue() == 0 &&
		InputVector.hasOneUse() && SrcVT.getSizeInBits() > 128 &&
		isHorizontalReductionStep(InputVector) == 1) {
		MVT EltVT = SrcVT.getSimpleVT().getVectorElementType();
		MVT SubVT = MVT::getVectorVT(EltVT, 128 / EltVT.getSizeInBits());
		SDValue SubVec = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, SubVT,
		InputVector, DAG.getIntPtrConstant(0, dl));
		return DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, VT, SubVec, EltIdx);
		}

return SDValue();		return SDValue();
}		}

/// If a vector select has an operand that is -1 or 0, try to simplify the		/// If a vector select has an operand that is -1 or 0, try to simplify the
/// select to a bitwise logic operation.		/// select to a bitwise logic operation.
/// TODO: Move to DAGCombiner, possibly using TargetLowering::hasAndNot()?		/// TODO: Move to DAGCombiner, possibly using TargetLowering::hasAndNot()?
static SDValue		static SDValue
combineVSelectWithAllOnesOrZeros(SDNode *N, SelectionDAG &DAG,		combineVSelectWithAllOnesOrZeros(SDNode *N, SelectionDAG &DAG,
▲ Show 20 Lines • Show All 6,684 Lines • ▼ Show 20 Lines	if (Idx2 && Idx2->getZExtValue() == 0) {

}		}
}		}
}		}

return SDValue();		return SDValue();
}		}

		// Narrows a step in a horizontal reduction.
		// For example:
		// extract_subvector (binop X, (vector_shuffle X, (4, 5, 6, 7, -1, -1, -1, -1))
		// where X is another binop with the same opcode.
		// We can put an extract_subvector on X and narrow this binop and the shuffle
		// based on the elements not being needed. This can allow us to start with a
		// 512 bit binop, and narrower to 256 and 128 bits as the reduction gets
		// smaller. The 128/256 bit operations can potentially use a smaller VEX
		// encoding.
		static SDValue narrowHorizontalReductionStep(MVT VT, SDValue InVec,
		SelectionDAG &DAG) {
		int ReductionSize = isHorizontalReductionStep(InVec);
		if (ReductionSize < 0)
		return SDValue();

		unsigned RequiredElts = ReductionSize * 2;
		RequiredElts = std::max(RequiredElts, VT.getVectorNumElements());

		unsigned NewWidth = RequiredElts * VT.getScalarSizeInBits();
		NewWidth = alignTo(NewWidth, 128);

		unsigned OpWidth = InVec.getSimpleValueType().getSizeInBits();
		if (NewWidth >= OpWidth \|\| OpWidth % NewWidth != 0)
		return SDValue();

		unsigned NewNumElts = NewWidth / VT.getScalarSizeInBits();
		MVT NewVT = MVT::getVectorVT(VT.getVectorElementType(), NewNumElts);

		unsigned Opcode = InVec.getOpcode();

		SDValue LHS = InVec.getOperand(0);
		SDValue RHS = InVec.getOperand(1);

		// Canonicalize.
		if (RHS.getOpcode() == Opcode)
		std::swap(LHS, RHS);

		if (LHS.getOpcode() != Opcode \|\|
		RHS.getOpcode() != ISD::VECTOR_SHUFFLE)
		return SDValue();

		ArrayRef<int> Mask = cast<ShuffleVectorSDNode>(RHS)->getMask();

		SDLoc dl(InVec);
		LHS = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, NewVT, LHS,
		DAG.getIntPtrConstant(0, dl));
		RHS = DAG.getVectorShuffle(NewVT, dl, LHS, LHS, Mask.slice(0, NewNumElts));
		SDValue Op = DAG.getNode(Opcode, dl, NewVT, LHS, RHS);
		return DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, VT, Op,
		DAG.getIntPtrConstant(0, dl));
		}

static SDValue combineExtractSubvector(SDNode *N, SelectionDAG &DAG,		static SDValue combineExtractSubvector(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
if (DCI.isBeforeLegalizeOps())		EVT VT = N->getValueType(0);
		SDValue InVec = N->getOperand(0);

		// Only handle constant indices.
		auto *Idx = dyn_cast<ConstantSDNode>(N->getOperand(1));
		if (!Idx)
return SDValue();		return SDValue();

MVT OpVT = N->getSimpleValueType(0);		unsigned IdxVal = Idx->getZExtValue();
SDValue InVec = N->getOperand(0);
unsigned IdxVal = cast<ConstantSDNode>(N->getOperand(1))->getZExtValue();		const TargetLowering &TLI = DAG.getTargetLoweringInfo();
		if (IdxVal == 0 && TLI.isTypeLegal(VT) &&
		TLI.isTypeLegal(InVec.getValueType()) && InVec.hasOneUse()) {
		if (SDValue V = narrowHorizontalReductionStep(VT.getSimpleVT(), InVec, DAG))
		return V;
		}

		// TODO: This code is needed anymore. Generic DAG combine does this better.

		if (!VT.isSimple())
		return SDValue();

		MVT OpVT = VT.getSimpleVT();

		if (DCI.isBeforeLegalizeOps())
		return SDValue();

if (ISD::isBuildVectorAllZeros(InVec.getNode()))		if (ISD::isBuildVectorAllZeros(InVec.getNode()))
return getZeroVector(OpVT, Subtarget, DAG, SDLoc(N));		return getZeroVector(OpVT, Subtarget, DAG, SDLoc(N));

if (ISD::isBuildVectorAllOnes(InVec.getNode())) {		if (ISD::isBuildVectorAllOnes(InVec.getNode())) {
if (OpVT.getScalarType() == MVT::i1)		if (OpVT.getScalarType() == MVT::i1)
return DAG.getConstant(1, SDLoc(N), OpVT);		return DAG.getConstant(1, SDLoc(N), OpVT);
return getOnesVector(OpVT, DAG, SDLoc(N));		return getOnesVector(OpVT, DAG, SDLoc(N));
▲ Show 20 Lines • Show All 1,239 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-hadd-hsub.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=knl \| FileCheck %s --check-prefix=KNL		;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=knl \| FileCheck %s --check-prefix=KNL
;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skx \| FileCheck %s --check-prefix=SKX		;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skx \| FileCheck %s --check-prefix=SKX

define i32 @hadd_16(<16 x i32> %x225) {		define i32 @hadd_16(<16 x i32> %x225) {
; KNL-LABEL: hadd_16:		; KNL-LABEL: hadd_16:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; KNL-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; KNL-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; KNL-NEXT: vphaddd %xmm0, %xmm0, %xmm0
; KNL-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; KNL-NEXT: vmovd %xmm0, %eax		; KNL-NEXT: vmovd %xmm0, %eax
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: hadd_16:		; SKX-LABEL: hadd_16:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SKX-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; SKX-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; SKX-NEXT: vphaddd %xmm0, %xmm0, %xmm0
; SKX-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; SKX-NEXT: vmovd %xmm0, %eax		; SKX-NEXT: vmovd %xmm0, %eax
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x i32> %x225, <16 x i32> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x226 = shufflevector <16 x i32> %x225, <16 x i32> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x227 = add <16 x i32> %x225, %x226		%x227 = add <16 x i32> %x225, %x226
%x228 = shufflevector <16 x i32> %x227, <16 x i32> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x228 = shufflevector <16 x i32> %x227, <16 x i32> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x229 = add <16 x i32> %x227, %x228		%x229 = add <16 x i32> %x227, %x228
%x230 = extractelement <16 x i32> %x229, i32 0		%x230 = extractelement <16 x i32> %x229, i32 0
Show All 27 Lines	; SKX-NEXT: retq
ret i32 %x230		ret i32 %x230
}		}

define float @fhadd_16(<16 x float> %x225) {		define float @fhadd_16(<16 x float> %x225) {
; KNL-LABEL: fhadd_16:		; KNL-LABEL: fhadd_16:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; KNL-NEXT: vaddps %zmm1, %zmm0, %zmm0		; KNL-NEXT: vaddps %zmm1, %zmm0, %zmm0
; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; KNL-NEXT: vhaddps %xmm0, %xmm0, %xmm0
; KNL-NEXT: vaddps %zmm1, %zmm0, %zmm0
; KNL-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fhadd_16:		; SKX-LABEL: fhadd_16:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; SKX-NEXT: vaddps %zmm1, %zmm0, %zmm0		; SKX-NEXT: vaddps %zmm1, %zmm0, %zmm0
; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; SKX-NEXT: vhaddps %xmm0, %xmm0, %xmm0
; SKX-NEXT: vaddps %zmm1, %zmm0, %zmm0
; SKX-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x227 = fadd <16 x float> %x225, %x226		%x227 = fadd <16 x float> %x225, %x226
%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x229 = fadd <16 x float> %x227, %x228		%x229 = fadd <16 x float> %x227, %x228
%x230 = extractelement <16 x float> %x229, i32 0		%x230 = extractelement <16 x float> %x229, i32 0
ret float %x230		ret float %x230
▲ Show 20 Lines • Show All 220 Lines • Show Last 20 Lines

test/CodeGen/X86/horizontal-reduce-smax.ll

	Show First 20 Lines • Show All 463 Lines • ▼ Show 20 Lines
	; X86-AVX1: ## %bb.0:			; X86-AVX1: ## %bb.0:
	; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2			; X86-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	; X86-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3			; X86-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2			; X86-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; X86-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X86-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X86-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2			; X86-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; X86-AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X86-AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm3
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; X86-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X86-AVX1-NEXT: vmovd %xmm0, %eax			; X86-AVX1-NEXT: vmovd %xmm0, %eax
	; X86-AVX1-NEXT: vpextrd $1, %xmm0, %edx			; X86-AVX1-NEXT: vpextrd $1, %xmm0, %edx
	; X86-AVX1-NEXT: vzeroupper			; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: test_reduce_v4i64:			; X86-AVX2-LABEL: test_reduce_v4i64:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2			; X86-AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
	; X86-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X86-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X86-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2			; X86-AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	; X86-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X86-AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vpextrd $1, %xmm0, %edx			; X86-AVX2-NEXT: vpextrd $1, %xmm0, %edx
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v4i64:			; X64-SSE2-LABEL: test_reduce_v4i64:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,0,2147483648,0]			; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,0,2147483648,0]
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; X64-AVX1: ## %bb.0:			; X64-AVX1: ## %bb.0:
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3			; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2			; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; X64-AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vmovq %xmm0, %rax			; X64-AVX1-NEXT: vmovq %xmm0, %rax
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v4i64:			; X64-AVX2-LABEL: test_reduce_v4i64:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X64-AVX2-NEXT: vmovq %xmm0, %rax			; X64-AVX2-NEXT: vmovq %xmm0, %rax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v4i64:			; X64-AVX512-LABEL: test_reduce_v4i64:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpmaxsq %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpmaxsq %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpmaxsq %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpmaxsq %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovq %xmm0, %rax			; X64-AVX512-NEXT: vmovq %xmm0, %rax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%2 = icmp sgt <4 x i64> %a0, %1			%2 = icmp sgt <4 x i64> %a0, %1
	%3 = select <4 x i1> %2, <4 x i64> %a0, <4 x i64> %1			%3 = select <4 x i1> %2, <4 x i64> %a0, <4 x i64> %1
	%4 = shufflevector <4 x i64> %3, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <4 x i64> %3, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%5 = icmp sgt <4 x i64> %3, %4			%5 = icmp sgt <4 x i64> %3, %4
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	;			;
	; X86-AVX2-LABEL: test_reduce_v8i32:			; X86-AVX2-LABEL: test_reduce_v8i32:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X86-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxsd %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v8i32:			; X64-SSE2-LABEL: test_reduce_v8i32:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa %xmm0, %xmm2			; X64-SSE2-NEXT: movdqa %xmm0, %xmm2
	; X64-SSE2-NEXT: pcmpgtd %xmm1, %xmm2			; X64-SSE2-NEXT: pcmpgtd %xmm1, %xmm2
	Show All 39 Lines
	;			;
	; X64-AVX2-LABEL: test_reduce_v8i32:			; X64-AVX2-LABEL: test_reduce_v8i32:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxsd %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vmovd %xmm0, %eax			; X64-AVX2-NEXT: vmovd %xmm0, %eax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v8i32:			; X64-AVX512-LABEL: test_reduce_v8i32:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX512-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpmaxsd %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovd %xmm0, %eax			; X64-AVX512-NEXT: vmovd %xmm0, %eax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp sgt <8 x i32> %a0, %1			%2 = icmp sgt <8 x i32> %a0, %1
	%3 = select <8 x i1> %2, <8 x i32> %a0, <8 x i32> %1			%3 = select <8 x i1> %2, <8 x i32> %a0, <8 x i32> %1
	%4 = shufflevector <8 x i32> %3, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <8 x i32> %3, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp sgt <8 x i32> %3, %4			%5 = icmp sgt <8 x i32> %3, %4
	▲ Show 20 Lines • Show All 559 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm3			; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; X64-AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vmovq %xmm0, %rax			; X64-AVX1-NEXT: vmovq %xmm0, %rax
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v8i64:			; X64-AVX2-LABEL: test_reduce_v8i64:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X64-AVX2-NEXT: vmovq %xmm0, %rax			; X64-AVX2-NEXT: vmovq %xmm0, %rax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v8i64:			; X64-AVX512-LABEL: test_reduce_v8i64:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; X64-AVX512-NEXT: vpmaxsq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxsq %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpmaxsq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxsq %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpmaxsq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxsq %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovq %xmm0, %rax			; X64-AVX512-NEXT: vmovq %xmm0, %rax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp sgt <8 x i64> %a0, %1			%2 = icmp sgt <8 x i64> %a0, %1
	%3 = select <8 x i1> %2, <8 x i64> %a0, <8 x i64> %1			%3 = select <8 x i1> %2, <8 x i64> %a0, <8 x i64> %1
	%4 = shufflevector <8 x i64> %3, <8 x i64> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <8 x i64> %3, <8 x i64> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp sgt <8 x i64> %3, %4			%5 = icmp sgt <8 x i64> %3, %4
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: test_reduce_v16i32:			; X86-AVX2-LABEL: test_reduce_v16i32:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxsd %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X86-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxsd %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v16i32:			; X64-SSE2-LABEL: test_reduce_v16i32:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa %xmm1, %xmm4			; X64-SSE2-NEXT: movdqa %xmm1, %xmm4
	; X64-SSE2-NEXT: pcmpgtd %xmm3, %xmm4			; X64-SSE2-NEXT: pcmpgtd %xmm3, %xmm4
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v16i32:			; X64-AVX2-LABEL: test_reduce_v16i32:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxsd %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX2-NEXT: vpmaxsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxsd %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vmovd %xmm0, %eax			; X64-AVX2-NEXT: vmovd %xmm0, %eax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v16i32:			; X64-AVX512-LABEL: test_reduce_v16i32:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; X64-AVX512-NEXT: vpmaxsd %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxsd %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpmaxsd %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxsd %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpmaxsd %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxsd %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX512-NEXT: vpmaxsd %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxsd %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovd %xmm0, %eax			; X64-AVX512-NEXT: vmovd %xmm0, %eax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp sgt <16 x i32> %a0, %1			%2 = icmp sgt <16 x i32> %a0, %1
	%3 = select <16 x i1> %2, <16 x i32> %a0, <16 x i32> %1			%3 = select <16 x i1> %2, <16 x i32> %a0, <16 x i32> %1
	%4 = shufflevector <16 x i32> %3, <16 x i32> undef, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <16 x i32> %3, <16 x i32> undef, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp sgt <16 x i32> %3, %4			%5 = icmp sgt <16 x i32> %3, %4
	▲ Show 20 Lines • Show All 395 Lines • Show Last 20 Lines

test/CodeGen/X86/horizontal-reduce-smin.ll

	Show First 20 Lines • Show All 466 Lines • ▼ Show 20 Lines
	; X86-AVX1: ## %bb.0:			; X86-AVX1: ## %bb.0:
	; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2			; X86-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	; X86-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm3			; X86-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm3
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2			; X86-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; X86-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X86-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X86-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2			; X86-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; X86-AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X86-AVX1-NEXT: vpcmpgtq %xmm3, %xmm0, %xmm3
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; X86-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X86-AVX1-NEXT: vmovd %xmm0, %eax			; X86-AVX1-NEXT: vmovd %xmm0, %eax
	; X86-AVX1-NEXT: vpextrd $1, %xmm0, %edx			; X86-AVX1-NEXT: vpextrd $1, %xmm0, %edx
	; X86-AVX1-NEXT: vzeroupper			; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: test_reduce_v4i64:			; X86-AVX2-LABEL: test_reduce_v4i64:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; X86-AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; X86-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X86-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X86-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; X86-AVX2-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	; X86-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X86-AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vpextrd $1, %xmm0, %edx			; X86-AVX2-NEXT: vpextrd $1, %xmm0, %edx
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v4i64:			; X64-SSE2-LABEL: test_reduce_v4i64:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,0,2147483648,0]			; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,0,2147483648,0]
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; X64-AVX1: ## %bb.0:			; X64-AVX1: ## %bb.0:
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm3			; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2			; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; X64-AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X64-AVX1-NEXT: vpcmpgtq %xmm3, %xmm0, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vmovq %xmm0, %rax			; X64-AVX1-NEXT: vmovq %xmm0, %rax
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v4i64:			; X64-AVX2-LABEL: test_reduce_v4i64:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X64-AVX2-NEXT: vmovq %xmm0, %rax			; X64-AVX2-NEXT: vmovq %xmm0, %rax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v4i64:			; X64-AVX512-LABEL: test_reduce_v4i64:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpminsq %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpminsq %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpminsq %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpminsq %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovq %xmm0, %rax			; X64-AVX512-NEXT: vmovq %xmm0, %rax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%2 = icmp slt <4 x i64> %a0, %1			%2 = icmp slt <4 x i64> %a0, %1
	%3 = select <4 x i1> %2, <4 x i64> %a0, <4 x i64> %1			%3 = select <4 x i1> %2, <4 x i64> %a0, <4 x i64> %1
	%4 = shufflevector <4 x i64> %3, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <4 x i64> %3, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%5 = icmp slt <4 x i64> %3, %4			%5 = icmp slt <4 x i64> %3, %4
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	;			;
	; X86-AVX2-LABEL: test_reduce_v8i32:			; X86-AVX2-LABEL: test_reduce_v8i32:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X86-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminsd %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v8i32:			; X64-SSE2-LABEL: test_reduce_v8i32:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa %xmm1, %xmm2			; X64-SSE2-NEXT: movdqa %xmm1, %xmm2
	; X64-SSE2-NEXT: pcmpgtd %xmm0, %xmm2			; X64-SSE2-NEXT: pcmpgtd %xmm0, %xmm2
	Show All 39 Lines
	;			;
	; X64-AVX2-LABEL: test_reduce_v8i32:			; X64-AVX2-LABEL: test_reduce_v8i32:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminsd %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vmovd %xmm0, %eax			; X64-AVX2-NEXT: vmovd %xmm0, %eax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v8i32:			; X64-AVX512-LABEL: test_reduce_v8i32:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpminsd %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpminsd %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX512-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpminsd %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovd %xmm0, %eax			; X64-AVX512-NEXT: vmovd %xmm0, %eax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp slt <8 x i32> %a0, %1			%2 = icmp slt <8 x i32> %a0, %1
	%3 = select <8 x i1> %2, <8 x i32> %a0, <8 x i32> %1			%3 = select <8 x i1> %2, <8 x i32> %a0, <8 x i32> %1
	%4 = shufflevector <8 x i32> %3, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <8 x i32> %3, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp slt <8 x i32> %3, %4			%5 = icmp slt <8 x i32> %3, %4
	▲ Show 20 Lines • Show All 559 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3			; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; X64-AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X64-AVX1-NEXT: vpcmpgtq %xmm3, %xmm0, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vmovq %xmm0, %rax			; X64-AVX1-NEXT: vmovq %xmm0, %rax
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v8i64:			; X64-AVX2-LABEL: test_reduce_v8i64:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; X64-AVX2-NEXT: vmovq %xmm0, %rax			; X64-AVX2-NEXT: vmovq %xmm0, %rax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v8i64:			; X64-AVX512-LABEL: test_reduce_v8i64:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; X64-AVX512-NEXT: vpminsq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminsq %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpminsq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminsq %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpminsq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminsq %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovq %xmm0, %rax			; X64-AVX512-NEXT: vmovq %xmm0, %rax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp slt <8 x i64> %a0, %1			%2 = icmp slt <8 x i64> %a0, %1
	%3 = select <8 x i1> %2, <8 x i64> %a0, <8 x i64> %1			%3 = select <8 x i1> %2, <8 x i64> %a0, <8 x i64> %1
	%4 = shufflevector <8 x i64> %3, <8 x i64> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <8 x i64> %3, <8 x i64> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp slt <8 x i64> %3, %4			%5 = icmp slt <8 x i64> %3, %4
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: test_reduce_v16i32:			; X86-AVX2-LABEL: test_reduce_v16i32:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminsd %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X86-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminsd %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v16i32:			; X64-SSE2-LABEL: test_reduce_v16i32:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa %xmm2, %xmm4			; X64-SSE2-NEXT: movdqa %xmm2, %xmm4
	; X64-SSE2-NEXT: pcmpgtd %xmm0, %xmm4			; X64-SSE2-NEXT: pcmpgtd %xmm0, %xmm4
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v16i32:			; X64-AVX2-LABEL: test_reduce_v16i32:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminsd %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX2-NEXT: vpminsd %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminsd %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vmovd %xmm0, %eax			; X64-AVX2-NEXT: vmovd %xmm0, %eax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v16i32:			; X64-AVX512-LABEL: test_reduce_v16i32:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; X64-AVX512-NEXT: vpminsd %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminsd %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpminsd %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminsd %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpminsd %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminsd %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX512-NEXT: vpminsd %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminsd %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovd %xmm0, %eax			; X64-AVX512-NEXT: vmovd %xmm0, %eax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp slt <16 x i32> %a0, %1			%2 = icmp slt <16 x i32> %a0, %1
	%3 = select <16 x i1> %2, <16 x i32> %a0, <16 x i32> %1			%3 = select <16 x i1> %2, <16 x i32> %a0, <16 x i32> %1
	%4 = shufflevector <16 x i32> %3, <16 x i32> undef, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <16 x i32> %3, <16 x i32> undef, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp slt <16 x i32> %3, %4			%5 = icmp slt <16 x i32> %3, %4
	▲ Show 20 Lines • Show All 395 Lines • Show Last 20 Lines

test/CodeGen/X86/horizontal-reduce-umax.ll

	Show First 20 Lines • Show All 527 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,2147483648,0,2147483648]			; X86-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,2147483648,0,2147483648]
	; X86-AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3			; X86-AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3
	; X86-AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm4			; X86-AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm4
	; X86-AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm4			; X86-AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm4
	; X86-AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm3			; X86-AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm3
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3			; X86-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3
	; X86-AVX1-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0			; X86-AVX1-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X86-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX1-NEXT: vxorpd %xmm2, %xmm0, %xmm1
	; X86-AVX1-NEXT: vxorpd %xmm2, %xmm0, %xmm3			; X86-AVX1-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; X86-AVX1-NEXT: vxorpd %xmm2, %xmm1, %xmm4			; X86-AVX1-NEXT: vxorpd %xmm2, %xmm3, %xmm2
	; X86-AVX1-NEXT: vpcmpgtq %xmm4, %xmm3, %xmm3			; X86-AVX1-NEXT: vpcmpgtq %xmm2, %xmm1, %xmm1
	; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; X86-AVX1-NEXT: vblendvpd %xmm1, %xmm0, %xmm3, %xmm0
	; X86-AVX1-NEXT: vpxor %xmm2, %xmm4, %xmm2
	; X86-AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm2
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; X86-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X86-AVX1-NEXT: vmovd %xmm0, %eax			; X86-AVX1-NEXT: vmovd %xmm0, %eax
	; X86-AVX1-NEXT: vpextrd $1, %xmm0, %edx			; X86-AVX1-NEXT: vpextrd $1, %xmm0, %edx
	; X86-AVX1-NEXT: vzeroupper			; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: test_reduce_v4i64:			; X86-AVX2-LABEL: test_reduce_v4i64:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2147483648,0,2147483648,0,2147483648,0,2147483648]			; X86-AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2147483648,0,2147483648,0,2147483648,0,2147483648]
	; X86-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3			; X86-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3
	; X86-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm4			; X86-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm2
	; X86-AVX2-NEXT: vpcmpgtq %ymm4, %ymm3, %ymm3
	; X86-AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X86-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vxorpd %ymm2, %ymm0, %ymm3
	; X86-AVX2-NEXT: vxorpd %ymm2, %ymm1, %ymm2
	; X86-AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2			; X86-AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2
	; X86-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X86-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
				; X86-AVX2-NEXT: vmovapd {{.*#+}} xmm1 = [0,2147483648,0,2147483648]
				; X86-AVX2-NEXT: vxorpd %xmm1, %xmm0, %xmm2
				; X86-AVX2-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[2,3,0,1]
				; X86-AVX2-NEXT: vxorpd %xmm1, %xmm3, %xmm1
				; X86-AVX2-NEXT: vpcmpgtq %xmm1, %xmm2, %xmm1
				; X86-AVX2-NEXT: vblendvpd %xmm1, %xmm0, %xmm3, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vpextrd $1, %xmm0, %edx			; X86-AVX2-NEXT: vpextrd $1, %xmm0, %edx
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v4i64:			; X64-SSE2-LABEL: test_reduce_v4i64:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	; X64-AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3			; X64-AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3
	; X64-AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm4			; X64-AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm4
	; X64-AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm4			; X64-AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm4
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm3			; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3			; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3
	; X64-AVX1-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX1-NEXT: vxorpd %xmm2, %xmm0, %xmm1
	; X64-AVX1-NEXT: vxorpd %xmm2, %xmm0, %xmm3			; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; X64-AVX1-NEXT: vxorpd %xmm2, %xmm1, %xmm4			; X64-AVX1-NEXT: vxorpd %xmm2, %xmm3, %xmm2
	; X64-AVX1-NEXT: vpcmpgtq %xmm4, %xmm3, %xmm3			; X64-AVX1-NEXT: vpcmpgtq %xmm2, %xmm1, %xmm1
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; X64-AVX1-NEXT: vblendvpd %xmm1, %xmm0, %xmm3, %xmm0
	; X64-AVX1-NEXT: vpxor %xmm2, %xmm4, %xmm2
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm2
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vmovq %xmm0, %rax			; X64-AVX1-NEXT: vmovq %xmm0, %rax
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v4i64:			; X64-AVX2-LABEL: test_reduce_v4i64:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; X64-AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; X64-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3			; X64-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3
	; X64-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm4			; X64-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm2
	; X64-AVX2-NEXT: vpcmpgtq %ymm4, %ymm3, %ymm3
	; X64-AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm0, %ymm3
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm1, %ymm2
	; X64-AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
				; X64-AVX2-NEXT: vmovapd {{.*#+}} xmm1 = [9223372036854775808,9223372036854775808]
				; X64-AVX2-NEXT: vxorpd %xmm1, %xmm0, %xmm2
				; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[2,3,0,1]
				; X64-AVX2-NEXT: vxorpd %xmm1, %xmm3, %xmm1
				; X64-AVX2-NEXT: vpcmpgtq %xmm1, %xmm2, %xmm1
				; X64-AVX2-NEXT: vblendvpd %xmm1, %xmm0, %xmm3, %xmm0
	; X64-AVX2-NEXT: vmovq %xmm0, %rax			; X64-AVX2-NEXT: vmovq %xmm0, %rax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v4i64:			; X64-AVX512-LABEL: test_reduce_v4i64:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpmaxuq %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpmaxuq %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpmaxuq %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovq %xmm0, %rax			; X64-AVX512-NEXT: vmovq %xmm0, %rax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%2 = icmp ugt <4 x i64> %a0, %1			%2 = icmp ugt <4 x i64> %a0, %1
	%3 = select <4 x i1> %2, <4 x i64> %a0, <4 x i64> %1			%3 = select <4 x i1> %2, <4 x i64> %a0, <4 x i64> %1
	%4 = shufflevector <4 x i64> %3, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <4 x i64> %3, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%5 = icmp ugt <4 x i64> %3, %4			%5 = icmp ugt <4 x i64> %3, %4
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	;			;
	; X86-AVX2-LABEL: test_reduce_v8i32:			; X86-AVX2-LABEL: test_reduce_v8i32:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X86-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v8i32:			; X64-SSE2-LABEL: test_reduce_v8i32:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	; X64-SSE2-NEXT: movdqa %xmm1, %xmm3			; X64-SSE2-NEXT: movdqa %xmm1, %xmm3
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	;			;
	; X64-AVX2-LABEL: test_reduce_v8i32:			; X64-AVX2-LABEL: test_reduce_v8i32:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vmovd %xmm0, %eax			; X64-AVX2-NEXT: vmovd %xmm0, %eax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v8i32:			; X64-AVX512-LABEL: test_reduce_v8i32:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX512-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovd %xmm0, %eax			; X64-AVX512-NEXT: vmovd %xmm0, %eax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp ugt <8 x i32> %a0, %1			%2 = icmp ugt <8 x i32> %a0, %1
	%3 = select <8 x i1> %2, <8 x i32> %a0, <8 x i32> %1			%3 = select <8 x i1> %2, <8 x i32> %a0, <8 x i32> %1
	%4 = shufflevector <8 x i32> %3, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <8 x i32> %3, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp ugt <8 x i32> %3, %4			%5 = icmp ugt <8 x i32> %3, %4
	▲ Show 20 Lines • Show All 587 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm2			; X64-AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm2
	; X64-AVX1-NEXT: vxorpd %xmm3, %xmm0, %xmm4			; X64-AVX1-NEXT: vxorpd %xmm3, %xmm0, %xmm4
	; X64-AVX1-NEXT: vpcmpgtq %xmm2, %xmm4, %xmm4			; X64-AVX1-NEXT: vpcmpgtq %xmm2, %xmm4, %xmm4
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm2
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm4, %ymm2			; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm4, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX1-NEXT: vxorpd %xmm3, %xmm0, %xmm1
	; X64-AVX1-NEXT: vxorpd %xmm3, %xmm0, %xmm2			; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; X64-AVX1-NEXT: vxorpd %xmm3, %xmm1, %xmm4			; X64-AVX1-NEXT: vxorpd %xmm3, %xmm2, %xmm3
	; X64-AVX1-NEXT: vpcmpgtq %xmm4, %xmm2, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm3, %xmm1, %xmm1
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; X64-AVX1-NEXT: vblendvpd %xmm1, %xmm0, %xmm2, %xmm0
	; X64-AVX1-NEXT: vpxor %xmm3, %xmm4, %xmm3
	; X64-AVX1-NEXT: vpcmpgtq %xmm0, %xmm3, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vmovq %xmm0, %rax			; X64-AVX1-NEXT: vmovq %xmm0, %rax
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v8i64:			; X64-AVX2-LABEL: test_reduce_v8i64:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; X64-AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; X64-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3			; X64-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3
	; X64-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm4			; X64-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm4
	; X64-AVX2-NEXT: vpcmpgtq %ymm3, %ymm4, %ymm3			; X64-AVX2-NEXT: vpcmpgtq %ymm3, %ymm4, %ymm3
	; X64-AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm0, %ymm3			; X64-AVX2-NEXT: vxorpd %ymm2, %ymm0, %ymm3
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm1, %ymm4
	; X64-AVX2-NEXT: vpcmpgtq %ymm4, %ymm3, %ymm3
	; X64-AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm0, %ymm3
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm1, %ymm2			; X64-AVX2-NEXT: vxorpd %ymm2, %ymm1, %ymm2
	; X64-AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
				; X64-AVX2-NEXT: vmovapd {{.*#+}} xmm1 = [9223372036854775808,9223372036854775808]
				; X64-AVX2-NEXT: vxorpd %xmm1, %xmm0, %xmm2
				; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[2,3,0,1]
				; X64-AVX2-NEXT: vxorpd %xmm1, %xmm3, %xmm1
				; X64-AVX2-NEXT: vpcmpgtq %xmm1, %xmm2, %xmm1
				; X64-AVX2-NEXT: vblendvpd %xmm1, %xmm0, %xmm3, %xmm0
	; X64-AVX2-NEXT: vmovq %xmm0, %rax			; X64-AVX2-NEXT: vmovq %xmm0, %rax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v8i64:			; X64-AVX512-LABEL: test_reduce_v8i64:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; X64-AVX512-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpmaxuq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxuq %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovq %xmm0, %rax			; X64-AVX512-NEXT: vmovq %xmm0, %rax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp ugt <8 x i64> %a0, %1			%2 = icmp ugt <8 x i64> %a0, %1
	%3 = select <8 x i1> %2, <8 x i64> %a0, <8 x i64> %1			%3 = select <8 x i1> %2, <8 x i64> %a0, <8 x i64> %1
	%4 = shufflevector <8 x i64> %3, <8 x i64> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <8 x i64> %3, <8 x i64> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp ugt <8 x i64> %3, %4			%5 = icmp ugt <8 x i64> %3, %4
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: test_reduce_v16i32:			; X86-AVX2-LABEL: test_reduce_v16i32:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X86-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v16i32:			; X64-SSE2-LABEL: test_reduce_v16i32:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]			; X64-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
	; X64-SSE2-NEXT: movdqa %xmm2, %xmm6			; X64-SSE2-NEXT: movdqa %xmm2, %xmm6
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v16i32:			; X64-AVX2-LABEL: test_reduce_v16i32:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX2-NEXT: vpmaxud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vmovd %xmm0, %eax			; X64-AVX2-NEXT: vmovd %xmm0, %eax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v16i32:			; X64-AVX512-LABEL: test_reduce_v16i32:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; X64-AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX512-NEXT: vpmaxud %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpmaxud %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovd %xmm0, %eax			; X64-AVX512-NEXT: vmovd %xmm0, %eax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp ugt <16 x i32> %a0, %1			%2 = icmp ugt <16 x i32> %a0, %1
	%3 = select <16 x i1> %2, <16 x i32> %a0, <16 x i32> %1			%3 = select <16 x i1> %2, <16 x i32> %a0, <16 x i32> %1
	%4 = shufflevector <16 x i32> %3, <16 x i32> undef, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <16 x i32> %3, <16 x i32> undef, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp ugt <16 x i32> %3, %4			%5 = icmp ugt <16 x i32> %3, %4
	▲ Show 20 Lines • Show All 375 Lines • Show Last 20 Lines

test/CodeGen/X86/horizontal-reduce-umin.ll

	Show First 20 Lines • Show All 465 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,2147483648,0,2147483648]			; X86-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,2147483648,0,2147483648]
	; X86-AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3			; X86-AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3
	; X86-AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm4			; X86-AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm4
	; X86-AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3			; X86-AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
	; X86-AVX1-NEXT: vpcmpgtq %xmm4, %xmm0, %xmm4			; X86-AVX1-NEXT: vpcmpgtq %xmm4, %xmm0, %xmm4
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3			; X86-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; X86-AVX1-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0			; X86-AVX1-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X86-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX1-NEXT: vxorpd %xmm2, %xmm0, %xmm1
	; X86-AVX1-NEXT: vxorpd %xmm2, %xmm0, %xmm3			; X86-AVX1-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; X86-AVX1-NEXT: vxorpd %xmm2, %xmm1, %xmm4			; X86-AVX1-NEXT: vxorpd %xmm2, %xmm3, %xmm2
	; X86-AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3			; X86-AVX1-NEXT: vpcmpgtq %xmm1, %xmm2, %xmm1
	; X86-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; X86-AVX1-NEXT: vblendvpd %xmm1, %xmm0, %xmm3, %xmm0
	; X86-AVX1-NEXT: vpxor %xmm2, %xmm4, %xmm2
	; X86-AVX1-NEXT: vpcmpgtq %xmm2, %xmm0, %xmm2
	; X86-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; X86-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X86-AVX1-NEXT: vmovd %xmm0, %eax			; X86-AVX1-NEXT: vmovd %xmm0, %eax
	; X86-AVX1-NEXT: vpextrd $1, %xmm0, %edx			; X86-AVX1-NEXT: vpextrd $1, %xmm0, %edx
	; X86-AVX1-NEXT: vzeroupper			; X86-AVX1-NEXT: vzeroupper
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: test_reduce_v4i64:			; X86-AVX2-LABEL: test_reduce_v4i64:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2147483648,0,2147483648,0,2147483648,0,2147483648]			; X86-AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2147483648,0,2147483648,0,2147483648,0,2147483648]
	; X86-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3			; X86-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3
	; X86-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm4			; X86-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm2
	; X86-AVX2-NEXT: vpcmpgtq %ymm3, %ymm4, %ymm3
	; X86-AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X86-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vxorpd %ymm2, %ymm0, %ymm3
	; X86-AVX2-NEXT: vxorpd %ymm2, %ymm1, %ymm2
	; X86-AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2			; X86-AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2
	; X86-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X86-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
				; X86-AVX2-NEXT: vmovapd {{.*#+}} xmm1 = [0,2147483648,0,2147483648]
				; X86-AVX2-NEXT: vxorpd %xmm1, %xmm0, %xmm2
				; X86-AVX2-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[2,3,0,1]
				; X86-AVX2-NEXT: vxorpd %xmm1, %xmm3, %xmm1
				; X86-AVX2-NEXT: vpcmpgtq %xmm2, %xmm1, %xmm1
				; X86-AVX2-NEXT: vblendvpd %xmm1, %xmm0, %xmm3, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vpextrd $1, %xmm0, %edx			; X86-AVX2-NEXT: vpextrd $1, %xmm0, %edx
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v4i64:			; X64-SSE2-LABEL: test_reduce_v4i64:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	; X64-AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3			; X64-AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3
	; X64-AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm4			; X64-AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm4
	; X64-AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3			; X64-AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3
	; X64-AVX1-NEXT: vpcmpgtq %xmm4, %xmm0, %xmm4			; X64-AVX1-NEXT: vpcmpgtq %xmm4, %xmm0, %xmm4
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3			; X64-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm3, %ymm3
	; X64-AVX1-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX1-NEXT: vxorpd %xmm2, %xmm0, %xmm1
	; X64-AVX1-NEXT: vxorpd %xmm2, %xmm0, %xmm3			; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; X64-AVX1-NEXT: vxorpd %xmm2, %xmm1, %xmm4			; X64-AVX1-NEXT: vxorpd %xmm2, %xmm3, %xmm2
	; X64-AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm3			; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm2, %xmm1
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; X64-AVX1-NEXT: vblendvpd %xmm1, %xmm0, %xmm3, %xmm0
	; X64-AVX1-NEXT: vpxor %xmm2, %xmm4, %xmm2
	; X64-AVX1-NEXT: vpcmpgtq %xmm2, %xmm0, %xmm2
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vmovq %xmm0, %rax			; X64-AVX1-NEXT: vmovq %xmm0, %rax
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v4i64:			; X64-AVX2-LABEL: test_reduce_v4i64:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; X64-AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; X64-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3			; X64-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3
	; X64-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm4			; X64-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm2
	; X64-AVX2-NEXT: vpcmpgtq %ymm3, %ymm4, %ymm3
	; X64-AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm0, %ymm3
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm1, %ymm2
	; X64-AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
				; X64-AVX2-NEXT: vmovapd {{.*#+}} xmm1 = [9223372036854775808,9223372036854775808]
				; X64-AVX2-NEXT: vxorpd %xmm1, %xmm0, %xmm2
				; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[2,3,0,1]
				; X64-AVX2-NEXT: vxorpd %xmm1, %xmm3, %xmm1
				; X64-AVX2-NEXT: vpcmpgtq %xmm2, %xmm1, %xmm1
				; X64-AVX2-NEXT: vblendvpd %xmm1, %xmm0, %xmm3, %xmm0
	; X64-AVX2-NEXT: vmovq %xmm0, %rax			; X64-AVX2-NEXT: vmovq %xmm0, %rax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v4i64:			; X64-AVX512-LABEL: test_reduce_v4i64:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpminuq %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpminuq %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpminuq %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpminuq %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovq %xmm0, %rax			; X64-AVX512-NEXT: vmovq %xmm0, %rax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%2 = icmp ult <4 x i64> %a0, %1			%2 = icmp ult <4 x i64> %a0, %1
	%3 = select <4 x i1> %2, <4 x i64> %a0, <4 x i64> %1			%3 = select <4 x i1> %2, <4 x i64> %a0, <4 x i64> %1
	%4 = shufflevector <4 x i64> %3, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <4 x i64> %3, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%5 = icmp ult <4 x i64> %3, %4			%5 = icmp ult <4 x i64> %3, %4
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	;			;
	; X86-AVX2-LABEL: test_reduce_v8i32:			; X86-AVX2-LABEL: test_reduce_v8i32:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X86-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminud %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v8i32:			; X64-SSE2-LABEL: test_reduce_v8i32:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]			; X64-SSE2-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
	; X64-SSE2-NEXT: movdqa %xmm0, %xmm3			; X64-SSE2-NEXT: movdqa %xmm0, %xmm3
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	;			;
	; X64-AVX2-LABEL: test_reduce_v8i32:			; X64-AVX2-LABEL: test_reduce_v8i32:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminud %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vmovd %xmm0, %eax			; X64-AVX2-NEXT: vmovd %xmm0, %eax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v8i32:			; X64-AVX512-LABEL: test_reduce_v8i32:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpminud %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpminud %ymm1, %ymm0, %ymm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX512-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X64-AVX512-NEXT: vpminud %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovd %xmm0, %eax			; X64-AVX512-NEXT: vmovd %xmm0, %eax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp ult <8 x i32> %a0, %1			%2 = icmp ult <8 x i32> %a0, %1
	%3 = select <8 x i1> %2, <8 x i32> %a0, <8 x i32> %1			%3 = select <8 x i1> %2, <8 x i32> %a0, <8 x i32> %1
	%4 = shufflevector <8 x i32> %3, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <8 x i32> %3, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp ult <8 x i32> %3, %4			%5 = icmp ult <8 x i32> %3, %4
	▲ Show 20 Lines • Show All 551 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vxorpd %xmm3, %xmm0, %xmm2			; X64-AVX1-NEXT: vxorpd %xmm3, %xmm0, %xmm2
	; X64-AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm4			; X64-AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm4
	; X64-AVX1-NEXT: vpcmpgtq %xmm2, %xmm4, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm2, %xmm4, %xmm2
	; X64-AVX1-NEXT: vpcmpgtq %xmm4, %xmm0, %xmm4			; X64-AVX1-NEXT: vpcmpgtq %xmm4, %xmm0, %xmm4
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2			; X64-AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX1-NEXT: vxorpd %xmm3, %xmm0, %xmm1
	; X64-AVX1-NEXT: vxorpd %xmm3, %xmm0, %xmm2			; X64-AVX1-NEXT: vpermilps {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; X64-AVX1-NEXT: vxorpd %xmm3, %xmm1, %xmm4			; X64-AVX1-NEXT: vxorpd %xmm3, %xmm2, %xmm3
	; X64-AVX1-NEXT: vpcmpgtq %xmm2, %xmm4, %xmm2			; X64-AVX1-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm1
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm4			; X64-AVX1-NEXT: vblendvpd %xmm1, %xmm0, %xmm2, %xmm0
	; X64-AVX1-NEXT: vpxor %xmm3, %xmm4, %xmm3
	; X64-AVX1-NEXT: vpcmpgtq %xmm3, %xmm0, %xmm3
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; X64-AVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; X64-AVX1-NEXT: vmovq %xmm0, %rax			; X64-AVX1-NEXT: vmovq %xmm0, %rax
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v8i64:			; X64-AVX2-LABEL: test_reduce_v8i64:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; X64-AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; X64-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3			; X64-AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3
	; X64-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm4			; X64-AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm4
	; X64-AVX2-NEXT: vpcmpgtq %ymm3, %ymm4, %ymm3			; X64-AVX2-NEXT: vpcmpgtq %ymm3, %ymm4, %ymm3
	; X64-AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm0, %ymm3			; X64-AVX2-NEXT: vxorpd %ymm2, %ymm0, %ymm3
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm1, %ymm4
	; X64-AVX2-NEXT: vpcmpgtq %ymm3, %ymm4, %ymm3
	; X64-AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm1, %ymm0
	; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm0, %ymm3
	; X64-AVX2-NEXT: vxorpd %ymm2, %ymm1, %ymm2			; X64-AVX2-NEXT: vxorpd %ymm2, %ymm1, %ymm2
	; X64-AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2			; X64-AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2
	; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; X64-AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
				; X64-AVX2-NEXT: vmovapd {{.*#+}} xmm1 = [9223372036854775808,9223372036854775808]
				; X64-AVX2-NEXT: vxorpd %xmm1, %xmm0, %xmm2
				; X64-AVX2-NEXT: vpermilps {{.*#+}} xmm3 = xmm0[2,3,0,1]
				; X64-AVX2-NEXT: vxorpd %xmm1, %xmm3, %xmm1
				; X64-AVX2-NEXT: vpcmpgtq %xmm2, %xmm1, %xmm1
				; X64-AVX2-NEXT: vblendvpd %xmm1, %xmm0, %xmm3, %xmm0
	; X64-AVX2-NEXT: vmovq %xmm0, %rax			; X64-AVX2-NEXT: vmovq %xmm0, %rax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v8i64:			; X64-AVX512-LABEL: test_reduce_v8i64:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; X64-AVX512-NEXT: vpminuq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminuq %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpminuq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminuq %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpminuq %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminuq %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovq %xmm0, %rax			; X64-AVX512-NEXT: vmovq %xmm0, %rax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp ult <8 x i64> %a0, %1			%2 = icmp ult <8 x i64> %a0, %1
	%3 = select <8 x i1> %2, <8 x i64> %a0, <8 x i64> %1			%3 = select <8 x i1> %2, <8 x i64> %a0, <8 x i64> %1
	%4 = shufflevector <8 x i64> %3, <8 x i64> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <8 x i64> %3, <8 x i64> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp ult <8 x i64> %3, %4			%5 = icmp ult <8 x i64> %3, %4
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; X86-AVX1-NEXT: retl			; X86-AVX1-NEXT: retl
	;			;
	; X86-AVX2-LABEL: test_reduce_v16i32:			; X86-AVX2-LABEL: test_reduce_v16i32:
	; X86-AVX2: ## %bb.0:			; X86-AVX2: ## %bb.0:
	; X86-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminud %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X86-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X86-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X86-AVX2-NEXT: vpminud %xmm1, %xmm0, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	;			;
	; X64-SSE2-LABEL: test_reduce_v16i32:			; X64-SSE2-LABEL: test_reduce_v16i32:
	; X64-SSE2: ## %bb.0:			; X64-SSE2: ## %bb.0:
	; X64-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]			; X64-SSE2-NEXT: movdqa {{.*#+}} xmm4 = [2147483648,2147483648,2147483648,2147483648]
	; X64-SSE2-NEXT: movdqa %xmm1, %xmm5			; X64-SSE2-NEXT: movdqa %xmm1, %xmm5
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_reduce_v16i32:			; X64-AVX2-LABEL: test_reduce_v16i32:
	; X64-AVX2: ## %bb.0:			; X64-AVX2: ## %bb.0:
	; X64-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminud %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX2-NEXT: vpminud %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpminud %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vmovd %xmm0, %eax			; X64-AVX2-NEXT: vmovd %xmm0, %eax
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_reduce_v16i32:			; X64-AVX512-LABEL: test_reduce_v16i32:
	; X64-AVX512: ## %bb.0:			; X64-AVX512: ## %bb.0:
	; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; X64-AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; X64-AVX512-NEXT: vpminud %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminud %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX512-NEXT: vpminud %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminud %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-AVX512-NEXT: vpminud %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminud %zmm1, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; X64-AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; X64-AVX512-NEXT: vpminud %zmm1, %zmm0, %zmm0			; X64-AVX512-NEXT: vpminud %xmm1, %xmm0, %xmm0
	; X64-AVX512-NEXT: vmovd %xmm0, %eax			; X64-AVX512-NEXT: vmovd %xmm0, %eax
	; X64-AVX512-NEXT: vzeroupper			; X64-AVX512-NEXT: vzeroupper
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = icmp ult <16 x i32> %a0, %1			%2 = icmp ult <16 x i32> %a0, %1
	%3 = select <16 x i1> %2, <16 x i32> %a0, <16 x i32> %1			%3 = select <16 x i1> %2, <16 x i32> %a0, <16 x i32> %1
	%4 = shufflevector <16 x i32> %3, <16 x i32> undef, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%4 = shufflevector <16 x i32> %3, <16 x i32> undef, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%5 = icmp ult <16 x i32> %3, %4			%5 = icmp ult <16 x i32> %3, %4
	▲ Show 20 Lines • Show All 335 Lines • Show Last 20 Lines

test/CodeGen/X86/madd.ll

	Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: addq $8, %rcx			; AVX1-NEXT: addq $8, %rcx
	; AVX1-NEXT: cmpq %rcx, %rax			; AVX1-NEXT: cmpq %rcx, %rax
	; AVX1-NEXT: jne .LBB0_1			; AVX1-NEXT: jne .LBB0_1
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX256-LABEL: _Z10test_shortPsS_i:			; AVX256-LABEL: _Z10test_shortPsS_i:
	; AVX256: # %bb.0: # %entry			; AVX256: # %bb.0: # %entry
	; AVX256-NEXT: movl %edx, %eax			; AVX256-NEXT: movl %edx, %eax
	; AVX256-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX256-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX256-NEXT: xorl %ecx, %ecx			; AVX256-NEXT: xorl %ecx, %ecx
	; AVX256-NEXT: .p2align 4, 0x90			; AVX256-NEXT: .p2align 4, 0x90
	; AVX256-NEXT: .LBB0_1: # %vector.body			; AVX256-NEXT: .LBB0_1: # %vector.body
	; AVX256-NEXT: # =>This Inner Loop Header: Depth=1			; AVX256-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX256-NEXT: vmovdqu (%rsi,%rcx,2), %xmm1			; AVX256-NEXT: vmovdqu (%rsi,%rcx,2), %xmm1
	; AVX256-NEXT: vpmaddwd (%rdi,%rcx,2), %xmm1, %xmm1			; AVX256-NEXT: vpmaddwd (%rdi,%rcx,2), %xmm1, %xmm1
	; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX256-NEXT: addq $8, %rcx			; AVX256-NEXT: addq $8, %rcx
	; AVX256-NEXT: cmpq %rcx, %rax			; AVX256-NEXT: cmpq %rcx, %rax
	; AVX256-NEXT: jne .LBB0_1			; AVX256-NEXT: jne .LBB0_1
	; AVX256-NEXT: # %bb.2: # %middle.block			; AVX256-NEXT: # %bb.2: # %middle.block
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX256-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: _Z10test_shortPsS_i_512:			; AVX2-LABEL: _Z10test_shortPsS_i_512:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: movl %edx, %eax			; AVX2-NEXT: movl %edx, %eax
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 32 Lines
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: addq $16, %rcx			; AVX512-NEXT: addq $16, %rcx
	; AVX512-NEXT: cmpq %rcx, %rax			; AVX512-NEXT: cmpq %rcx, %rax
	; AVX512-NEXT: jne .LBB1_1			; AVX512-NEXT: jne .LBB1_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: addq $8, %rcx			; AVX1-NEXT: addq $8, %rcx
	; AVX1-NEXT: cmpq %rcx, %rax			; AVX1-NEXT: cmpq %rcx, %rax
	; AVX1-NEXT: jne .LBB2_1			; AVX1-NEXT: jne .LBB2_1
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX256-LABEL: test_unsigned_short:			; AVX256-LABEL: test_unsigned_short:
	; AVX256: # %bb.0: # %entry			; AVX256: # %bb.0: # %entry
	; AVX256-NEXT: movl %edx, %eax			; AVX256-NEXT: movl %edx, %eax
	; AVX256-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX256-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX256-NEXT: xorl %ecx, %ecx			; AVX256-NEXT: xorl %ecx, %ecx
	; AVX256-NEXT: .p2align 4, 0x90			; AVX256-NEXT: .p2align 4, 0x90
	; AVX256-NEXT: .LBB2_1: # %vector.body			; AVX256-NEXT: .LBB2_1: # %vector.body
	; AVX256-NEXT: # =>This Inner Loop Header: Depth=1			; AVX256-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; AVX256-NEXT: vpmulld %ymm1, %ymm2, %ymm1			; AVX256-NEXT: vpmulld %ymm1, %ymm2, %ymm1
	; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX256-NEXT: addq $8, %rcx			; AVX256-NEXT: addq $8, %rcx
	; AVX256-NEXT: cmpq %rcx, %rax			; AVX256-NEXT: cmpq %rcx, %rax
	; AVX256-NEXT: jne .LBB2_1			; AVX256-NEXT: jne .LBB2_1
	; AVX256-NEXT: # %bb.2: # %middle.block			; AVX256-NEXT: # %bb.2: # %middle.block
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX256-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_unsigned_short_512:			; AVX2-LABEL: test_unsigned_short_512:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: movl %edx, %eax			; AVX2-NEXT: movl %edx, %eax
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 38 Lines
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: addq $16, %rcx			; AVX512-NEXT: addq $16, %rcx
	; AVX512-NEXT: cmpq %rcx, %rax			; AVX512-NEXT: cmpq %rcx, %rax
	; AVX512-NEXT: jne .LBB3_1			; AVX512-NEXT: jne .LBB3_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 103 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: _Z9test_charPcS_i:			; AVX2-LABEL: _Z9test_charPcS_i:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: movl %edx, %eax			; AVX2-NEXT: movl %edx, %eax
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 34 Lines
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: addq $16, %rcx			; AVX512-NEXT: addq $16, %rcx
	; AVX512-NEXT: cmpq %rcx, %rax			; AVX512-NEXT: cmpq %rcx, %rax
	; AVX512-NEXT: jne .LBB4_1			; AVX512-NEXT: jne .LBB4_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm6, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm6, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm5, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: vpaddd %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: _Z9test_charPcS_i_512:			; AVX2-LABEL: _Z9test_charPcS_i_512:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: movl %edx, %eax			; AVX2-NEXT: movl %edx, %eax
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: addq $32, %rcx			; AVX512F-NEXT: addq $32, %rcx
	; AVX512F-NEXT: cmpq %rcx, %rax			; AVX512F-NEXT: cmpq %rcx, %rax
	; AVX512F-NEXT: jne .LBB5_1			; AVX512F-NEXT: jne .LBB5_1
	; AVX512F-NEXT: # %bb.2: # %middle.block			; AVX512F-NEXT: # %bb.2: # %middle.block
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512F-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: _Z9test_charPcS_i_512:			; AVX512BW-LABEL: _Z9test_charPcS_i_512:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	; AVX512BW-NEXT: movl %edx, %eax			; AVX512BW-NEXT: movl %edx, %eax
	; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 9 Lines
	; AVX512BW-NEXT: addq $32, %rcx			; AVX512BW-NEXT: addq $32, %rcx
	; AVX512BW-NEXT: cmpq %rcx, %rax			; AVX512BW-NEXT: cmpq %rcx, %rax
	; AVX512BW-NEXT: jne .LBB5_1			; AVX512BW-NEXT: jne .LBB5_1
	; AVX512BW-NEXT: # %bb.2: # %middle.block			; AVX512BW-NEXT: # %bb.2: # %middle.block
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 514 Lines • Show Last 20 Lines

test/CodeGen/X86/required-vector-width.ll

	Show First 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: addq $32, %rcx			; CHECK-NEXT: addq $32, %rcx
	; CHECK-NEXT: cmpq %rcx, %rax			; CHECK-NEXT: cmpq %rcx, %rax
	; CHECK-NEXT: jne .LBB9_1			; CHECK-NEXT: jne .LBB9_1
	; CHECK-NEXT: # %bb.2: # %middle.block			; CHECK-NEXT: # %bb.2: # %middle.block
	; CHECK-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; CHECK-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; CHECK-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 104 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1			; CHECK-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1
	; CHECK-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; CHECK-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; CHECK-NEXT: addq $4, %rax			; CHECK-NEXT: addq $4, %rax
	; CHECK-NEXT: jne .LBB11_1			; CHECK-NEXT: jne .LBB11_1
	; CHECK-NEXT: # %bb.2: # %middle.block			; CHECK-NEXT: # %bb.2: # %middle.block
	; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; CHECK-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	▲ Show 20 Lines • Show All 254 Lines • Show Last 20 Lines

test/CodeGen/X86/sad.ll

	Show First 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: sad_16i8:			; AVX2-LABEL: sad_16i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX2-NEXT: movq $-1024, %rax # imm = 0xFC00
	Show All 28 Lines
	; AVX512-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1			; AVX512-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: addq $4, %rax			; AVX512-NEXT: addq $4, %rax
	; AVX512-NEXT: jne .LBB0_1			; AVX512-NEXT: jne .LBB0_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	▲ Show 20 Lines • Show All 195 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpaddd %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vpaddd %xmm6, %xmm5, %xmm5
	; AVX1-NEXT: vpaddd %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpaddd %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: sad_32i8:			; AVX2-LABEL: sad_32i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX2-NEXT: movq $-1024, %rax # imm = 0xFC00
	Show All 32 Lines
	; AVX512-NEXT: vpaddd %zmm1, %zmm2, %zmm1			; AVX512-NEXT: vpaddd %zmm1, %zmm2, %zmm1
	; AVX512-NEXT: addq $4, %rax			; AVX512-NEXT: addq $4, %rax
	; AVX512-NEXT: jne .LBB1_1			; AVX512-NEXT: jne .LBB1_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	▲ Show 20 Lines • Show All 471 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpaddd %xmm2, %xmm8, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm8, %xmm2
	; AVX1-NEXT: vpaddd %xmm1, %xmm9, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm9, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm15, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm15, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm14, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm14, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: addq $24, %rsp			; AVX1-NEXT: addq $24, %rsp
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: sad_avx64i8:			; AVX2-LABEL: sad_avx64i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 104 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: jne .LBB2_1			; AVX512F-NEXT: jne .LBB2_1
	; AVX512F-NEXT: # %bb.2: # %middle.block			; AVX512F-NEXT: # %bb.2: # %middle.block
	; AVX512F-NEXT: vpaddd %zmm2, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm2, %zmm0, %zmm0
	; AVX512F-NEXT: vpaddd %zmm3, %zmm1, %zmm1			; AVX512F-NEXT: vpaddd %zmm3, %zmm1, %zmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512F-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: sad_avx64i8:			; AVX512BW-LABEL: sad_avx64i8:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BW-NEXT: .p2align 4, 0x90			; AVX512BW-NEXT: .p2align 4, 0x90
	; AVX512BW-NEXT: .LBB2_1: # %vector.body			; AVX512BW-NEXT: .LBB2_1: # %vector.body
	; AVX512BW-NEXT: # =>This Inner Loop Header: Depth=1			; AVX512BW-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX512BW-NEXT: vmovdqa64 a+1024(%rax), %zmm2			; AVX512BW-NEXT: vmovdqa64 a+1024(%rax), %zmm2
	; AVX512BW-NEXT: vpsadbw b+1024(%rax), %zmm2, %zmm2			; AVX512BW-NEXT: vpsadbw b+1024(%rax), %zmm2, %zmm2
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm2, %zmm1			; AVX512BW-NEXT: vpaddd %zmm1, %zmm2, %zmm1
	; AVX512BW-NEXT: addq $4, %rax			; AVX512BW-NEXT: addq $4, %rax
	; AVX512BW-NEXT: jne .LBB2_1			; AVX512BW-NEXT: jne .LBB2_1
	; AVX512BW-NEXT: # %bb.2: # %middle.block			; AVX512BW-NEXT: # %bb.2: # %middle.block
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	▲ Show 20 Lines • Show All 374 Lines • Show Last 20 Lines