This is an archive of the discontinued LLVM Phabricator instance.

[x86] add and use fast horizontal vector math subtarget feature
ClosedPublic

Authored by spatel on Oct 10 2018, 10:27 AM.

Download Raw Diff

Details

Reviewers

craig.topper
andreadb
lebedev.ri
RKSimon
dyung

Commits

rGe28c8ecd7279: [x86] add and use fast horizontal vector math subtarget feature
rL344361: [x86] add and use fast horizontal vector math subtarget feature

Summary

This is the planned follow-up to D52997. Here we are reducing horizontal vector math codegen by default. AMD Jaguar (btver2) should have no difference with this patch because it has fast-hops. (If we want to set that bit for other CPUs, let me know.)

The code changes are small, but there are many test diffs. For files that are specifically testing for hops, I added RUNs to distinguish fast/slow, so we can see the consequences side-by-side. For files that are primarily concerned with codegen other than hops, I just updated the CHECK lines to reflect the new default codegen.

To recap the recent horizontal op story:

Before rL343727, we were producing hops for all subtargets for a variety of patterns. Hops were likely not optimal for all targets though.
The IR improvement in r343727 exposed a hole in the backend hop pattern matching, so we reduced hop codegen for all subtargets. That was bad for Jaguar (PR39195).
We restored the hop codegen for all targets with rL344141. Good for Jaguar, but probably bad for other CPUs.
This patch allows us to distinguish when we want to produce hops, so everyone can be happy. I'm not sure if we have the best predicate here, but the intent is to undo the extra hop-iness that was enabled by r344141.

Diff Detail

Repository: rL LLVM

Event Timeline

spatel created this revision.Oct 10 2018, 10:27 AM

Herald added a subscriber: mcrosier. · View Herald TranscriptOct 10 2018, 10:27 AM

LGTM.

Thanks Sanjay!

This revision is now accepted and ready to land.Oct 11 2018, 8:53 AM

LGTM too

RKSimon mentioned this in D52912: [SelectionDAG] allow FP binops in SimplifyDemandedVectorElts.Oct 12 2018, 3:32 AM

Closed by commit rL344361: [x86] add and use fast horizontal vector math subtarget feature (authored by spatel). · Explain WhyOct 12 2018, 9:43 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86.td

12 lines

X86ISelLowering.cpp

22 lines

X86Subtarget.h

4 lines

test/

CodeGen/

X86/

avx2-phaddsub.ll

38 lines

avx512-intrinsics-fast-isel.ll

21 lines

891 lines

428 lines

409 lines

69 lines

654 lines

required-vector-width.ll

6 lines

sad.ll

238 lines

vector-reduce-add.ll

356 lines

vector-reduce-fadd-fast.ll

493 lines

vector-shuffle-combining.ll

39 lines

Diff 169439

llvm/trunk/lib/Target/X86/X86.td

Show First 20 Lines • Show All 398 Lines • ▼ Show 20 Lines	def FeatureMOVDIRI : SubtargetFeature<"movdiri", "HasMOVDIRI", "true",
"Support movdiri instruction">;		"Support movdiri instruction">;
def FeatureMOVDIR64B : SubtargetFeature<"movdir64b", "HasMOVDIR64B", "true",		def FeatureMOVDIR64B : SubtargetFeature<"movdir64b", "HasMOVDIR64B", "true",
"Support movdir64b instruction">;		"Support movdir64b instruction">;

def FeatureFastBEXTR : SubtargetFeature<"fast-bextr", "HasFastBEXTR", "true",		def FeatureFastBEXTR : SubtargetFeature<"fast-bextr", "HasFastBEXTR", "true",
"Indicates that the BEXTR instruction is implemented as a single uop "		"Indicates that the BEXTR instruction is implemented as a single uop "
"with good throughput.">;		"with good throughput.">;

		// Combine vector math operations with shuffles into horizontal math
		// instructions if a CPU implements horizontal operations (introduced with
		// SSE3) with better latency/throughput than the alternative sequence.
		def FeatureFastHorizontalOps
		: SubtargetFeature<
		"fast-hops", "HasFastHorizontalOps", "true",
		"Prefer horizontal vector math instructions (haddp, phsub, etc.) over "
		"normal vector instructions with shuffles", [FeatureSSE3]>;

// Merge branches using three-way conditional code.		// Merge branches using three-way conditional code.
def FeatureMergeToThreeWayBranch : SubtargetFeature<"merge-to-threeway-branch",		def FeatureMergeToThreeWayBranch : SubtargetFeature<"merge-to-threeway-branch",
"ThreewayBranchProfitable", "true",		"ThreewayBranchProfitable", "true",
"Merge branches to a three-way "		"Merge branches to a three-way "
"conditional branch">;		"conditional branch">;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Register File Description		// Register File Description
▲ Show 20 Lines • Show All 578 Lines • ▼ Show 20 Lines	def : ProcessorModel<"btver2", BtVer2Model, [
FeatureFastLZCNT,		FeatureFastLZCNT,
FeaturePOPCNT,		FeaturePOPCNT,
FeatureXSAVE,		FeatureXSAVE,
FeatureXSAVEOPT,		FeatureXSAVEOPT,
FeatureSlowSHLD,		FeatureSlowSHLD,
FeatureLAHFSAHF,		FeatureLAHFSAHF,
FeatureFast15ByteNOP,		FeatureFast15ByteNOP,
FeatureFastBEXTR,		FeatureFastBEXTR,
FeatureFastPartialYMMorZMMWrite		FeatureFastPartialYMMorZMMWrite,
		FeatureFastHorizontalOps
]>;		]>;

// Bulldozer		// Bulldozer
def : Proc<"bdver1", [		def : Proc<"bdver1", [
FeatureX87,		FeatureX87,
FeatureCMOV,		FeatureCMOV,
FeatureXOP,		FeatureXOP,
FeatureFMA4,		FeatureFMA4,
▲ Show 20 Lines • Show All 253 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 37,025 Lines • ▼ Show 20 Lines	for (unsigned i = 0; i != NumEltsPer128BitChunk; ++i) {
if (LIdx < 0 \|\| RIdx < 0 \|\|		if (LIdx < 0 \|\| RIdx < 0 \|\|
(!A.getNode() && (LIdx < (int)NumElts \|\| RIdx < (int)NumElts)) \|\|		(!A.getNode() && (LIdx < (int)NumElts \|\| RIdx < (int)NumElts)) \|\|
(!B.getNode() && (LIdx >= (int)NumElts \|\| RIdx >= (int)NumElts)))		(!B.getNode() && (LIdx >= (int)NumElts \|\| RIdx >= (int)NumElts)))
continue;		continue;

// The low half of the 128-bit result must choose from A.		// The low half of the 128-bit result must choose from A.
// The high half of the 128-bit result must choose from B,		// The high half of the 128-bit result must choose from B,
// unless B is undef. In that case, we are always choosing from A.		// unless B is undef. In that case, we are always choosing from A.
// TODO: Using a horizontal op on a single input is likely worse for
// performance on many CPUs, so this should be limited here or reversed
// in a later pass.
unsigned NumEltsPer64BitChunk = NumEltsPer128BitChunk / 2;		unsigned NumEltsPer64BitChunk = NumEltsPer128BitChunk / 2;
unsigned Src = B.getNode() ? i >= NumEltsPer64BitChunk : 0;		unsigned Src = B.getNode() ? i >= NumEltsPer64BitChunk : 0;

// Check that successive elements are being operated on. If not, this is		// Check that successive elements are being operated on. If not, this is
// not a horizontal operation.		// not a horizontal operation.
int Index = 2 * (i % NumEltsPer64BitChunk) + NumElts * Src + j;		int Index = 2 * (i % NumEltsPer64BitChunk) + NumElts * Src + j;
if (!(LIdx == Index && RIdx == Index + 1) &&		if (!(LIdx == Index && RIdx == Index + 1) &&
!(IsCommutative && LIdx == Index + 1 && RIdx == Index))		!(IsCommutative && LIdx == Index + 1 && RIdx == Index))
return false;		return false;
}		}
}		}

LHS = A.getNode() ? A : B; // If A is 'UNDEF', use B for it.		LHS = A.getNode() ? A : B; // If A is 'UNDEF', use B for it.
RHS = B.getNode() ? B : A; // If B is 'UNDEF', use A for it.		RHS = B.getNode() ? B : A; // If B is 'UNDEF', use A for it.
return true;		return true;
}		}

		/// Horizontal vector math instructions may be slower than normal math with
		/// shuffles. Limit horizontal op codegen based on size/speed trade-offs, uarch
		/// implementation, and likely shuffle complexity of the alternate sequence.
		static bool shouldCombineToHorizontalOp(bool IsSingleSource, SelectionDAG &DAG,
		const X86Subtarget &Subtarget) {
		bool IsOptimizingSize = DAG.getMachineFunction().getFunction().optForSize();
		bool HasFastHOps = Subtarget.hasFastHorizontalOps();
		return !IsSingleSource \|\| IsOptimizingSize \|\| HasFastHOps;
		}

/// Do target-specific dag combines on floating-point adds/subs.		/// Do target-specific dag combines on floating-point adds/subs.
static SDValue combineFaddFsub(SDNode *N, SelectionDAG &DAG,		static SDValue combineFaddFsub(SDNode *N, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
SDValue LHS = N->getOperand(0);		SDValue LHS = N->getOperand(0);
SDValue RHS = N->getOperand(1);		SDValue RHS = N->getOperand(1);
bool IsFadd = N->getOpcode() == ISD::FADD;		bool IsFadd = N->getOpcode() == ISD::FADD;
assert((IsFadd \|\| N->getOpcode() == ISD::FSUB) && "Wrong opcode");		assert((IsFadd \|\| N->getOpcode() == ISD::FSUB) && "Wrong opcode");

// Try to synthesize horizontal add/sub from adds/subs of shuffles.		// Try to synthesize horizontal add/sub from adds/subs of shuffles.
if (((Subtarget.hasSSE3() && (VT == MVT::v4f32 \|\| VT == MVT::v2f64)) \|\|		if (((Subtarget.hasSSE3() && (VT == MVT::v4f32 \|\| VT == MVT::v2f64)) \|\|
(Subtarget.hasAVX() && (VT == MVT::v8f32 \|\| VT == MVT::v4f64))) &&		(Subtarget.hasAVX() && (VT == MVT::v8f32 \|\| VT == MVT::v4f64))) &&
isHorizontalBinOp(LHS, RHS, IsFadd)) {		isHorizontalBinOp(LHS, RHS, IsFadd) &&
		shouldCombineToHorizontalOp(LHS == RHS, DAG, Subtarget)) {
auto NewOpcode = IsFadd ? X86ISD::FHADD : X86ISD::FHSUB;		auto NewOpcode = IsFadd ? X86ISD::FHADD : X86ISD::FHSUB;
return DAG.getNode(NewOpcode, SDLoc(N), VT, LHS, RHS);		return DAG.getNode(NewOpcode, SDLoc(N), VT, LHS, RHS);
}		}
return SDValue();		return SDValue();
}		}

/// Attempt to pre-truncate inputs to arithmetic ops if it will simplify		/// Attempt to pre-truncate inputs to arithmetic ops if it will simplify
/// the codegen.		/// the codegen.
▲ Show 20 Lines • Show All 2,707 Lines • ▼ Show 20 Lines	static SDValue combineAdd(SDNode *N, SelectionDAG &DAG,
if (SDValue MAdd = matchPMADDWD(DAG, Op0, Op1, SDLoc(N), VT, Subtarget))		if (SDValue MAdd = matchPMADDWD(DAG, Op0, Op1, SDLoc(N), VT, Subtarget))
return MAdd;		return MAdd;
if (SDValue MAdd = matchPMADDWD_2(DAG, Op0, Op1, SDLoc(N), VT, Subtarget))		if (SDValue MAdd = matchPMADDWD_2(DAG, Op0, Op1, SDLoc(N), VT, Subtarget))
return MAdd;		return MAdd;

// Try to synthesize horizontal adds from adds of shuffles.		// Try to synthesize horizontal adds from adds of shuffles.
if ((VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\| VT == MVT::v16i16 \|\|		if ((VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\| VT == MVT::v16i16 \|\|
VT == MVT::v8i32) &&		VT == MVT::v8i32) &&
Subtarget.hasSSSE3() && isHorizontalBinOp(Op0, Op1, true)) {		Subtarget.hasSSSE3() && isHorizontalBinOp(Op0, Op1, true) &&
		shouldCombineToHorizontalOp(Op0 == Op1, DAG, Subtarget)) {
auto HADDBuilder = [](SelectionDAG &DAG, const SDLoc &DL,		auto HADDBuilder = [](SelectionDAG &DAG, const SDLoc &DL,
ArrayRef<SDValue> Ops) {		ArrayRef<SDValue> Ops) {
return DAG.getNode(X86ISD::HADD, DL, Ops[0].getValueType(), Ops);		return DAG.getNode(X86ISD::HADD, DL, Ops[0].getValueType(), Ops);
};		};
return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, {Op0, Op1},		return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, {Op0, Op1},
HADDBuilder);		HADDBuilder);
}		}

▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines	if (Op1->hasOneUse() && Op1.getOpcode() == ISD::XOR &&
DAG.getConstant(C->getAPIntValue() + 1, SDLoc(N), VT));		DAG.getConstant(C->getAPIntValue() + 1, SDLoc(N), VT));
}		}
}		}

// Try to synthesize horizontal subs from subs of shuffles.		// Try to synthesize horizontal subs from subs of shuffles.
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
if ((VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\| VT == MVT::v16i16 \|\|		if ((VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\| VT == MVT::v16i16 \|\|
VT == MVT::v8i32) &&		VT == MVT::v8i32) &&
Subtarget.hasSSSE3() && isHorizontalBinOp(Op0, Op1, false)) {		Subtarget.hasSSSE3() && isHorizontalBinOp(Op0, Op1, false) &&
		shouldCombineToHorizontalOp(Op0 == Op1, DAG, Subtarget)) {
auto HSUBBuilder = [](SelectionDAG &DAG, const SDLoc &DL,		auto HSUBBuilder = [](SelectionDAG &DAG, const SDLoc &DL,
ArrayRef<SDValue> Ops) {		ArrayRef<SDValue> Ops) {
return DAG.getNode(X86ISD::HSUB, DL, Ops[0].getValueType(), Ops);		return DAG.getNode(X86ISD::HSUB, DL, Ops[0].getValueType(), Ops);
};		};
return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, {Op0, Op1},		return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, {Op0, Op1},
HSUBBuilder);		HSUBBuilder);
}		}

▲ Show 20 Lines • Show All 1,650 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86Subtarget.h

Show First 20 Lines • Show All 382 Lines • ▼ Show 20 Lines	protected:
bool HasWAITPKG = false;		bool HasWAITPKG = false;

/// Processor supports PCONFIG instruction		/// Processor supports PCONFIG instruction
bool HasPCONFIG = false;		bool HasPCONFIG = false;

/// Processor has a single uop BEXTR implementation.		/// Processor has a single uop BEXTR implementation.
bool HasFastBEXTR = false;		bool HasFastBEXTR = false;

		/// Try harder to combine to horizontal vector ops if they are fast.
		bool HasFastHorizontalOps = false;

/// Use a retpoline thunk rather than indirect calls to block speculative		/// Use a retpoline thunk rather than indirect calls to block speculative
/// execution.		/// execution.
bool UseRetpolineIndirectCalls = false;		bool UseRetpolineIndirectCalls = false;

/// Use a retpoline thunk or remove any indirect branch to block speculative		/// Use a retpoline thunk or remove any indirect branch to block speculative
/// execution.		/// execution.
bool UseRetpolineIndirectBranches = false;		bool UseRetpolineIndirectBranches = false;

▲ Show 20 Lines • Show All 232 Lines • ▼ Show 20 Lines	bool hasFastPartialYMMorZMMWrite() const {
return HasFastPartialYMMorZMMWrite;		return HasFastPartialYMMorZMMWrite;
}		}
bool hasFastGather() const { return HasFastGather; }		bool hasFastGather() const { return HasFastGather; }
bool hasFastScalarFSQRT() const { return HasFastScalarFSQRT; }		bool hasFastScalarFSQRT() const { return HasFastScalarFSQRT; }
bool hasFastVectorFSQRT() const { return HasFastVectorFSQRT; }		bool hasFastVectorFSQRT() const { return HasFastVectorFSQRT; }
bool hasFastLZCNT() const { return HasFastLZCNT; }		bool hasFastLZCNT() const { return HasFastLZCNT; }
bool hasFastSHLDRotate() const { return HasFastSHLDRotate; }		bool hasFastSHLDRotate() const { return HasFastSHLDRotate; }
bool hasFastBEXTR() const { return HasFastBEXTR; }		bool hasFastBEXTR() const { return HasFastBEXTR; }
		bool hasFastHorizontalOps() const { return HasFastHorizontalOps; }
bool hasMacroFusion() const { return HasMacroFusion; }		bool hasMacroFusion() const { return HasMacroFusion; }
bool hasERMSB() const { return HasERMSB; }		bool hasERMSB() const { return HasERMSB; }
bool hasSlowDivide32() const { return HasSlowDivide32; }		bool hasSlowDivide32() const { return HasSlowDivide32; }
bool hasSlowDivide64() const { return HasSlowDivide64; }		bool hasSlowDivide64() const { return HasSlowDivide64; }
bool padShortFunctions() const { return PadShortFunctions; }		bool padShortFunctions() const { return PadShortFunctions; }
bool slowTwoMemOps() const { return SlowTwoMemOps; }		bool slowTwoMemOps() const { return SlowTwoMemOps; }
bool LEAusesAG() const { return LEAUsesAG; }		bool LEAusesAG() const { return LEAUsesAG; }
bool slowLEA() const { return SlowLEA; }		bool slowLEA() const { return SlowLEA; }
▲ Show 20 Lines • Show All 203 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx2-phaddsub.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-- -mattr=+avx2 \| FileCheck %s --check-prefixes=X32,X32-SLOW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=i686-- -mattr=+avx2,fast-hops \| FileCheck %s --check-prefixes=X32,X32-FAST
				; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2 \| FileCheck %s --check-prefixes=X64,X64-SLOW
				; RUN: llc < %s -mtriple=x86_64-- -mattr=+avx2,fast-hops \| FileCheck %s --check-prefixes=X64,X64-FAST

	define <16 x i16> @phaddw1(<16 x i16> %x, <16 x i16> %y) {			define <16 x i16> @phaddw1(<16 x i16> %x, <16 x i16> %y) {
	; X32-LABEL: phaddw1:			; X32-LABEL: phaddw1:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: vphaddw %ymm1, %ymm0, %ymm0			; X32-NEXT: vphaddw %ymm1, %ymm0, %ymm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: phaddw1:			; X64-LABEL: phaddw1:
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; X64-NEXT: retq			; X64-NEXT: retq
	%a = shufflevector <8 x i32> %x, <8 x i32> %y, <8 x i32> <i32 1, i32 2, i32 9, i32 10, i32 5, i32 6, i32 13, i32 14>			%a = shufflevector <8 x i32> %x, <8 x i32> %y, <8 x i32> <i32 1, i32 2, i32 9, i32 10, i32 5, i32 6, i32 13, i32 14>
	%b = shufflevector <8 x i32> %y, <8 x i32> %x, <8 x i32> <i32 8, i32 11, i32 0, i32 3, i32 12, i32 15, i32 4, i32 7>			%b = shufflevector <8 x i32> %y, <8 x i32> %x, <8 x i32> <i32 8, i32 11, i32 0, i32 3, i32 12, i32 15, i32 4, i32 7>
	%r = add <8 x i32> %a, %b			%r = add <8 x i32> %a, %b
	ret <8 x i32> %r			ret <8 x i32> %r
	}			}

	define <8 x i32> @phaddd3(<8 x i32> %x) {			define <8 x i32> @phaddd3(<8 x i32> %x) {
	; X32-LABEL: phaddd3:			; X32-SLOW-LABEL: phaddd3:
	; X32: # %bb.0:			; X32-SLOW: # %bb.0:
	; X32-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; X32-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
	; X32-NEXT: retl			; X32-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
	;			; X32-SLOW-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; X64-LABEL: phaddd3:			; X32-SLOW-NEXT: retl
	; X64: # %bb.0:			;
	; X64-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; X32-FAST-LABEL: phaddd3:
	; X64-NEXT: retq			; X32-FAST: # %bb.0:
				; X32-FAST-NEXT: vphaddd %ymm0, %ymm0, %ymm0
				; X32-FAST-NEXT: retl
				;
				; X64-SLOW-LABEL: phaddd3:
				; X64-SLOW: # %bb.0:
				; X64-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
				; X64-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
				; X64-SLOW-NEXT: vpaddd %ymm0, %ymm1, %ymm0
				; X64-SLOW-NEXT: retq
				;
				; X64-FAST-LABEL: phaddd3:
				; X64-FAST: # %bb.0:
				; X64-FAST-NEXT: vphaddd %ymm0, %ymm0, %ymm0
				; X64-FAST-NEXT: retq
	%a = shufflevector <8 x i32> %x, <8 x i32> undef, <8 x i32> <i32 undef, i32 2, i32 8, i32 10, i32 4, i32 6, i32 undef, i32 14>			%a = shufflevector <8 x i32> %x, <8 x i32> undef, <8 x i32> <i32 undef, i32 2, i32 8, i32 10, i32 4, i32 6, i32 undef, i32 14>
	%b = shufflevector <8 x i32> %x, <8 x i32> undef, <8 x i32> <i32 1, i32 3, i32 9, i32 undef, i32 5, i32 7, i32 13, i32 15>			%b = shufflevector <8 x i32> %x, <8 x i32> undef, <8 x i32> <i32 1, i32 3, i32 9, i32 undef, i32 5, i32 7, i32 13, i32 15>
	%r = add <8 x i32> %a, %b			%r = add <8 x i32> %a, %b
	ret <8 x i32> %r			ret <8 x i32> %r
	}			}

	define <16 x i16> @phsubw1(<16 x i16> %x, <16 x i16> %y) {			define <16 x i16> @phsubw1(<16 x i16> %x, <16 x i16> %y) {
	; X32-LABEL: phsubw1:			; X32-LABEL: phsubw1:
	▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-intrinsics-fast-isel.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 6,854 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test_mm512_reduce_add_epi32:			; CHECK-LABEL: test_mm512_reduce_add_epi32:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; CHECK-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; CHECK-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; CHECK-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	entry:			entry:
	%extract.i = shufflevector <8 x i64> %__W, <8 x i64> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%extract.i = shufflevector <8 x i64> %__W, <8 x i64> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%0 = bitcast <4 x i64> %extract.i to <8 x i32>			%0 = bitcast <4 x i64> %extract.i to <8 x i32>
	%extract2.i = shufflevector <8 x i64> %__W, <8 x i64> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%extract2.i = shufflevector <8 x i64> %__W, <8 x i64> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%1 = bitcast <4 x i64> %extract2.i to <8 x i32>			%1 = bitcast <4 x i64> %extract2.i to <8 x i32>
	▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
	; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1			; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1
	; X86-NEXT: vmovdqa32 %zmm0, %zmm0 {%k1} {z}			; X86-NEXT: vmovdqa32 %zmm0, %zmm0 {%k1} {z}
	; X86-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; X86-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; X86-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; X86-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; X86-NEXT: vextracti128 $1, %ymm0, %xmm1			; X86-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X86-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; X86-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X86-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; X86-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; X86-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; X86-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; X86-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; X86-NEXT: vmovd %xmm0, %eax			; X86-NEXT: vmovd %xmm0, %eax
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm512_mask_reduce_add_epi32:			; X64-LABEL: test_mm512_mask_reduce_add_epi32:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovw %edi, %k1			; X64-NEXT: kmovw %edi, %k1
	; X64-NEXT: vmovdqa32 %zmm0, %zmm0 {%k1} {z}			; X64-NEXT: vmovdqa32 %zmm0, %zmm0 {%k1} {z}
	; X64-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; X64-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; X64-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; X64-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; X64-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; X64-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; X64-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; X64-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; X64-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; X64-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; X64-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; X64-NEXT: vmovd %xmm0, %eax			; X64-NEXT: vmovd %xmm0, %eax
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast <8 x i64> %__W to <16 x i32>			%0 = bitcast <8 x i64> %__W to <16 x i32>
	%1 = bitcast i16 %__M to <16 x i1>			%1 = bitcast i16 %__M to <16 x i1>
	%2 = select <16 x i1> %1, <16 x i32> %0, <16 x i32> zeroinitializer			%2 = select <16 x i1> %1, <16 x i32> %0, <16 x i32> zeroinitializer
	%3 = bitcast <16 x i32> %2 to <8 x i64>			%3 = bitcast <16 x i32> %2 to <8 x i64>
	▲ Show 20 Lines • Show All 189 Lines • ▼ Show 20 Lines
	; X86-NEXT: movl %esp, %ebp			; X86-NEXT: movl %esp, %ebp
	; X86-NEXT: .cfi_def_cfa_register %ebp			; X86-NEXT: .cfi_def_cfa_register %ebp
	; X86-NEXT: andl $-8, %esp			; X86-NEXT: andl $-8, %esp
	; X86-NEXT: subl $8, %esp			; X86-NEXT: subl $8, %esp
	; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; X86-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovlpd %xmm0, (%esp)			; X86-NEXT: vmovlpd %xmm0, (%esp)
	; X86-NEXT: fldl (%esp)			; X86-NEXT: fldl (%esp)
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: .cfi_def_cfa %esp, 4			; X86-NEXT: .cfi_def_cfa %esp, 4
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm512_reduce_add_pd:			; X64-LABEL: test_mm512_reduce_add_pd:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%shuffle.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%shuffle.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%shuffle1.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%shuffle1.i = shufflevector <8 x double> %__W, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%add.i = fadd <4 x double> %shuffle.i, %shuffle1.i			%add.i = fadd <4 x double> %shuffle.i, %shuffle1.i
	%shuffle2.i = shufflevector <4 x double> %add.i, <4 x double> undef, <2 x i32> <i32 0, i32 1>			%shuffle2.i = shufflevector <4 x double> %add.i, <4 x double> undef, <2 x i32> <i32 0, i32 1>
	%shuffle3.i = shufflevector <4 x double> %add.i, <4 x double> undef, <2 x i32> <i32 2, i32 3>			%shuffle3.i = shufflevector <4 x double> %add.i, <4 x double> undef, <2 x i32> <i32 2, i32 3>
	▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines
	; X86-NEXT: subl $8, %esp			; X86-NEXT: subl $8, %esp
	; X86-NEXT: movb 8(%ebp), %al			; X86-NEXT: movb 8(%ebp), %al
	; X86-NEXT: kmovw %eax, %k1			; X86-NEXT: kmovw %eax, %k1
	; X86-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}			; X86-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}
	; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X86-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; X86-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; X86-NEXT: vextractf128 $1, %ymm0, %xmm1			; X86-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; X86-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; X86-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X86-NEXT: vmovlpd %xmm0, (%esp)			; X86-NEXT: vmovlpd %xmm0, (%esp)
	; X86-NEXT: fldl (%esp)			; X86-NEXT: fldl (%esp)
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: .cfi_def_cfa %esp, 4			; X86-NEXT: .cfi_def_cfa %esp, 4
	; X86-NEXT: vzeroupper			; X86-NEXT: vzeroupper
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_mm512_mask_reduce_add_pd:			; X64-LABEL: test_mm512_mask_reduce_add_pd:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: kmovw %edi, %k1			; X64-NEXT: kmovw %edi, %k1
	; X64-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}			; X64-NEXT: vmovapd %zmm0, %zmm0 {%k1} {z}
	; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; X64-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; X64-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			; X64-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; X64-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; X64-NEXT: vzeroupper			; X64-NEXT: vzeroupper
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast i8 %__M to <8 x i1>			%0 = bitcast i8 %__M to <8 x i1>
	%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> zeroinitializer			%1 = select <8 x i1> %0, <8 x double> %__W, <8 x double> zeroinitializer
	%shuffle.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%shuffle.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%shuffle1.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%shuffle1.i = shufflevector <8 x double> %1, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%add.i = fadd <4 x double> %shuffle.i, %shuffle1.i			%add.i = fadd <4 x double> %shuffle.i, %shuffle1.i
	▲ Show 20 Lines • Show All 2,368 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/haddsub-shuf.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3 \| FileCheck %s --check-prefix=SSSE3		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3 \| FileCheck %s --check-prefixes=SSSE3,SSSE3_SLOW
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3,fast-hops \| FileCheck %s --check-prefixes=SSSE3,SSSE3_FAST
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1_SLOW
		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx,fast-hops \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1_FAST
		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2,AVX2_SLOW
		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2,fast-hops \| FileCheck %s --check-prefixes=AVX,AVX2,AVX2_FAST

; The next 8 tests check for matching the horizontal op and eliminating the shuffle.		; The next 8 tests check for matching the horizontal op and eliminating the shuffle.
; PR34111 - https://bugs.llvm.org/show_bug.cgi?id=34111		; PR34111 - https://bugs.llvm.org/show_bug.cgi?id=34111

define <4 x float> @hadd_v4f32(<4 x float> %a) {		define <4 x float> @hadd_v4f32(<4 x float> %a) {
; SSSE3-LABEL: hadd_v4f32:		; SSSE3_SLOW-LABEL: hadd_v4f32:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: haddps %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movaps %xmm0, %xmm1
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[2,3]
;		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3,2,3]
; AVX-LABEL: hadd_v4f32:		; SSSE3_SLOW-NEXT: addps %xmm1, %xmm0
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; SSSE3_SLOW-NEXT: retq
; AVX-NEXT: retq		;
		; SSSE3_FAST-LABEL: hadd_v4f32:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: haddps %xmm0, %xmm0
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hadd_v4f32:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
		; AVX1_SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hadd_v4f32:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hadd_v4f32:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]
		; AVX2_SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
		; AVX2_SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX2_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hadd_v4f32:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX2_FAST-NEXT: retq
%a02 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 0, i32 2>		%a02 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 0, i32 2>
%a13 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 1, i32 3>		%a13 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 1, i32 3>
%hop = fadd <2 x float> %a02, %a13		%hop = fadd <2 x float> %a02, %a13
%shuf = shufflevector <2 x float> %hop, <2 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 1>		%shuf = shufflevector <2 x float> %hop, <2 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 1>
ret <4 x float> %shuf		ret <4 x float> %shuf
}		}

define <8 x float> @hadd_v8f32a(<8 x float> %a) {		define <8 x float> @hadd_v8f32a(<8 x float> %a) {
Show All 22 Lines	; AVX2-NEXT: retq
%a0 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>		%a0 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
%a1 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>		%a1 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
%hop = fadd <4 x float> %a0, %a1		%hop = fadd <4 x float> %a0, %a1
%shuf = shufflevector <4 x float> %hop, <4 x float> undef, <8 x i32> <i32 undef, i32 undef, i32 0, i32 1, i32 undef, i32 undef, i32 2, i32 3>		%shuf = shufflevector <4 x float> %hop, <4 x float> undef, <8 x i32> <i32 undef, i32 undef, i32 0, i32 1, i32 undef, i32 undef, i32 2, i32 3>
ret <8 x float> %shuf		ret <8 x float> %shuf
}		}

define <8 x float> @hadd_v8f32b(<8 x float> %a) {		define <8 x float> @hadd_v8f32b(<8 x float> %a) {
; SSSE3-LABEL: hadd_v8f32b:		; SSSE3_SLOW-LABEL: hadd_v8f32b:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: haddps %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movaps %xmm0, %xmm2
; SSSE3-NEXT: haddps %xmm1, %xmm1		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm0[2,3]
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: movaps %xmm1, %xmm3
;		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,2],xmm1[2,3]
; AVX-LABEL: hadd_v8f32b:		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3,2,3]
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: addps %xmm2, %xmm0
; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,3,2,3]
; AVX-NEXT: retq		; SSSE3_SLOW-NEXT: addps %xmm3, %xmm1
		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]
		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm1 = xmm1[0,0]
		; SSSE3_SLOW-NEXT: retq
		;
		; SSSE3_FAST-LABEL: hadd_v8f32b:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: haddps %xmm0, %xmm0
		; SSSE3_FAST-NEXT: haddps %xmm1, %xmm1
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hadd_v8f32b:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
		; AVX1_SLOW-NEXT: vaddps %ymm0, %ymm1, %ymm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hadd_v8f32b:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vhaddps %ymm0, %ymm0, %ymm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hadd_v8f32b:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
		; AVX2_SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
		; AVX2_SLOW-NEXT: vaddps %ymm0, %ymm1, %ymm0
		; AVX2_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hadd_v8f32b:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vhaddps %ymm0, %ymm0, %ymm0
		; AVX2_FAST-NEXT: retq
%a0 = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 4, i32 6, i32 undef, i32 undef>		%a0 = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 4, i32 6, i32 undef, i32 undef>
%a1 = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 5, i32 7, i32 undef, i32 undef>		%a1 = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 5, i32 7, i32 undef, i32 undef>
%hop = fadd <8 x float> %a0, %a1		%hop = fadd <8 x float> %a0, %a1
%shuf = shufflevector <8 x float> %hop, <8 x float> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5>		%shuf = shufflevector <8 x float> %hop, <8 x float> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5>
ret <8 x float> %shuf		ret <8 x float> %shuf
}		}

define <4 x float> @hsub_v4f32(<4 x float> %a) {		define <4 x float> @hsub_v4f32(<4 x float> %a) {
; SSSE3-LABEL: hsub_v4f32:		; SSSE3_SLOW-LABEL: hsub_v4f32:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: hsubps %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movaps %xmm0, %xmm1
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[2,3]
;		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3,2,3]
; AVX-LABEL: hsub_v4f32:		; SSSE3_SLOW-NEXT: subps %xmm0, %xmm1
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm0 = xmm1[0,0]
; AVX-NEXT: vhsubps %xmm0, %xmm0, %xmm0		; SSSE3_SLOW-NEXT: retq
; AVX-NEXT: retq		;
		; SSSE3_FAST-LABEL: hsub_v4f32:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: hsubps %xmm0, %xmm0
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hsub_v4f32:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
		; AVX1_SLOW-NEXT: vsubps %xmm0, %xmm1, %xmm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hsub_v4f32:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vhsubps %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hsub_v4f32:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]
		; AVX2_SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
		; AVX2_SLOW-NEXT: vsubps %xmm0, %xmm1, %xmm0
		; AVX2_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hsub_v4f32:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vhsubps %xmm0, %xmm0, %xmm0
		; AVX2_FAST-NEXT: retq
%a02 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 0, i32 2>		%a02 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 0, i32 2>
%a13 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 1, i32 3>		%a13 = shufflevector <4 x float> %a, <4 x float> undef, <2 x i32> <i32 1, i32 3>
%hop = fsub <2 x float> %a02, %a13		%hop = fsub <2 x float> %a02, %a13
%shuf = shufflevector <2 x float> %hop, <2 x float> undef, <4 x i32> <i32 0, i32 1, i32 0, i32 1>		%shuf = shufflevector <2 x float> %hop, <2 x float> undef, <4 x i32> <i32 0, i32 1, i32 0, i32 1>
ret <4 x float> %shuf		ret <4 x float> %shuf
}		}

define <8 x float> @hsub_v8f32a(<8 x float> %a) {		define <8 x float> @hsub_v8f32a(<8 x float> %a) {
Show All 22 Lines	; AVX2-NEXT: retq
%a0 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>		%a0 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
%a1 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>		%a1 = shufflevector <8 x float> %a, <8 x float> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
%hop = fsub <4 x float> %a0, %a1		%hop = fsub <4 x float> %a0, %a1
%shuf = shufflevector <4 x float> %hop, <4 x float> undef, <8 x i32> <i32 undef, i32 undef, i32 0, i32 1, i32 undef, i32 undef, i32 2, i32 3>		%shuf = shufflevector <4 x float> %hop, <4 x float> undef, <8 x i32> <i32 undef, i32 undef, i32 0, i32 1, i32 undef, i32 undef, i32 2, i32 3>
ret <8 x float> %shuf		ret <8 x float> %shuf
}		}

define <8 x float> @hsub_v8f32b(<8 x float> %a) {		define <8 x float> @hsub_v8f32b(<8 x float> %a) {
; SSSE3-LABEL: hsub_v8f32b:		; SSSE3_SLOW-LABEL: hsub_v8f32b:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: hsubps %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movaps %xmm0, %xmm2
; SSSE3-NEXT: hsubps %xmm1, %xmm1		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm0[2,3]
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: movaps %xmm1, %xmm3
;		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,2],xmm1[2,3]
; AVX-LABEL: hsub_v8f32b:		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3,2,3]
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: subps %xmm0, %xmm2
; AVX-NEXT: vhsubps %ymm0, %ymm0, %ymm0		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,3,2,3]
; AVX-NEXT: retq		; SSSE3_SLOW-NEXT: subps %xmm1, %xmm3
		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm0 = xmm2[0,0]
		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm1 = xmm3[0,0]
		; SSSE3_SLOW-NEXT: retq
		;
		; SSSE3_FAST-LABEL: hsub_v8f32b:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: hsubps %xmm0, %xmm0
		; SSSE3_FAST-NEXT: hsubps %xmm1, %xmm1
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hsub_v8f32b:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
		; AVX1_SLOW-NEXT: vsubps %ymm0, %ymm1, %ymm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hsub_v8f32b:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vhsubps %ymm0, %ymm0, %ymm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hsub_v8f32b:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
		; AVX2_SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
		; AVX2_SLOW-NEXT: vsubps %ymm0, %ymm1, %ymm0
		; AVX2_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hsub_v8f32b:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vhsubps %ymm0, %ymm0, %ymm0
		; AVX2_FAST-NEXT: retq
%a0 = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 4, i32 6, i32 undef, i32 undef>		%a0 = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 4, i32 6, i32 undef, i32 undef>
%a1 = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 5, i32 7, i32 undef, i32 undef>		%a1 = shufflevector <8 x float> %a, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 5, i32 7, i32 undef, i32 undef>
%hop = fsub <8 x float> %a0, %a1		%hop = fsub <8 x float> %a0, %a1
%shuf = shufflevector <8 x float> %hop, <8 x float> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5>		%shuf = shufflevector <8 x float> %hop, <8 x float> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5>
ret <8 x float> %shuf		ret <8 x float> %shuf
}		}

define <2 x double> @hadd_v2f64(<2 x double> %a) {		define <2 x double> @hadd_v2f64(<2 x double> %a) {
; SSSE3-LABEL: hadd_v2f64:		; SSSE3_SLOW-LABEL: hadd_v2f64:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: haddpd %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movapd %xmm0, %xmm1
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
;		; SSSE3_SLOW-NEXT: addpd %xmm0, %xmm1
; AVX-LABEL: hadd_v2f64:		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm0 = xmm1[0,0]
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: retq
; AVX-NEXT: vhaddpd %xmm0, %xmm0, %xmm0		;
; AVX-NEXT: retq		; SSSE3_FAST-LABEL: hadd_v2f64:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: haddpd %xmm0, %xmm0
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hadd_v2f64:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX1_SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hadd_v2f64:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hadd_v2f64:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX2_SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
		; AVX2_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hadd_v2f64:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
		; AVX2_FAST-NEXT: retq
%a0 = shufflevector <2 x double> %a, <2 x double> undef, <2 x i32> <i32 0, i32 undef>		%a0 = shufflevector <2 x double> %a, <2 x double> undef, <2 x i32> <i32 0, i32 undef>
%a1 = shufflevector <2 x double> %a, <2 x double> undef, <2 x i32> <i32 1, i32 undef>		%a1 = shufflevector <2 x double> %a, <2 x double> undef, <2 x i32> <i32 1, i32 undef>
%hop = fadd <2 x double> %a0, %a1		%hop = fadd <2 x double> %a0, %a1
%shuf = shufflevector <2 x double> %hop, <2 x double> undef, <2 x i32> <i32 0, i32 0>		%shuf = shufflevector <2 x double> %hop, <2 x double> undef, <2 x i32> <i32 0, i32 0>
ret <2 x double> %shuf		ret <2 x double> %shuf
}		}

define <4 x double> @hadd_v4f64(<4 x double> %a) {		define <4 x double> @hadd_v4f64(<4 x double> %a) {
; SSSE3-LABEL: hadd_v4f64:		; SSSE3_SLOW-LABEL: hadd_v4f64:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: haddpd %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movapd %xmm0, %xmm2
; SSSE3-NEXT: haddpd %xmm1, %xmm1		; SSSE3_SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: movapd %xmm1, %xmm3
;		; SSSE3_SLOW-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1],xmm1[1]
; AVX-LABEL: hadd_v4f64:		; SSSE3_SLOW-NEXT: addpd %xmm1, %xmm3
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: addpd %xmm0, %xmm2
; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm0 = xmm2[0,0]
; AVX-NEXT: retq		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm1 = xmm3[0,0]
		; SSSE3_SLOW-NEXT: retq
		;
		; SSSE3_FAST-LABEL: hadd_v4f64:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: haddpd %xmm0, %xmm0
		; SSSE3_FAST-NEXT: haddpd %xmm1, %xmm1
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hadd_v4f64:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpermilpd {{.*#+}} ymm1 = ymm0[1,0,3,2]
		; AVX1_SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hadd_v4f64:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vhaddpd %ymm0, %ymm0, %ymm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hadd_v4f64:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpermilpd {{.*#+}} ymm1 = ymm0[1,0,3,2]
		; AVX2_SLOW-NEXT: vaddpd %ymm1, %ymm0, %ymm0
		; AVX2_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hadd_v4f64:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vhaddpd %ymm0, %ymm0, %ymm0
		; AVX2_FAST-NEXT: retq
%a0 = shufflevector <4 x double> %a, <4 x double> undef, <4 x i32> <i32 0, i32 undef, i32 2, i32 undef>		%a0 = shufflevector <4 x double> %a, <4 x double> undef, <4 x i32> <i32 0, i32 undef, i32 2, i32 undef>
%a1 = shufflevector <4 x double> %a, <4 x double> undef, <4 x i32> <i32 1, i32 undef, i32 3, i32 undef>		%a1 = shufflevector <4 x double> %a, <4 x double> undef, <4 x i32> <i32 1, i32 undef, i32 3, i32 undef>
%hop = fadd <4 x double> %a0, %a1		%hop = fadd <4 x double> %a0, %a1
%shuf = shufflevector <4 x double> %hop, <4 x double> undef, <4 x i32> <i32 0, i32 0, i32 2, i32 2>		%shuf = shufflevector <4 x double> %hop, <4 x double> undef, <4 x i32> <i32 0, i32 0, i32 2, i32 2>
ret <4 x double> %shuf		ret <4 x double> %shuf
}		}

define <2 x double> @hsub_v2f64(<2 x double> %a) {		define <2 x double> @hsub_v2f64(<2 x double> %a) {
; SSSE3-LABEL: hsub_v2f64:		; SSSE3_SLOW-LABEL: hsub_v2f64:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: hsubpd %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movapd %xmm0, %xmm1
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
;		; SSSE3_SLOW-NEXT: subpd %xmm1, %xmm0
; AVX-LABEL: hsub_v2f64:		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: retq
; AVX-NEXT: vhsubpd %xmm0, %xmm0, %xmm0		;
; AVX-NEXT: retq		; SSSE3_FAST-LABEL: hsub_v2f64:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: hsubpd %xmm0, %xmm0
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hsub_v2f64:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX1_SLOW-NEXT: vsubpd %xmm1, %xmm0, %xmm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hsub_v2f64:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hsub_v2f64:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX2_SLOW-NEXT: vsubpd %xmm1, %xmm0, %xmm0
		; AVX2_SLOW-NEXT: vmovddup {{.*#+}} xmm0 = xmm0[0,0]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hsub_v2f64:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0
		; AVX2_FAST-NEXT: retq
%a0 = shufflevector <2 x double> %a, <2 x double> undef, <2 x i32> <i32 0, i32 undef>		%a0 = shufflevector <2 x double> %a, <2 x double> undef, <2 x i32> <i32 0, i32 undef>
%a1 = shufflevector <2 x double> %a, <2 x double> undef, <2 x i32> <i32 1, i32 undef>		%a1 = shufflevector <2 x double> %a, <2 x double> undef, <2 x i32> <i32 1, i32 undef>
%hop = fsub <2 x double> %a0, %a1		%hop = fsub <2 x double> %a0, %a1
%shuf = shufflevector <2 x double> %hop, <2 x double> undef, <2 x i32> <i32 undef, i32 0>		%shuf = shufflevector <2 x double> %hop, <2 x double> undef, <2 x i32> <i32 undef, i32 0>
ret <2 x double> %shuf		ret <2 x double> %shuf
}		}

define <4 x double> @hsub_v4f64(<4 x double> %a) {		define <4 x double> @hsub_v4f64(<4 x double> %a) {
; SSSE3-LABEL: hsub_v4f64:		; SSSE3_SLOW-LABEL: hsub_v4f64:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: hsubpd %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movapd %xmm0, %xmm2
; SSSE3-NEXT: hsubpd %xmm1, %xmm1		; SSSE3_SLOW-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: movapd %xmm1, %xmm3
;		; SSSE3_SLOW-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1],xmm1[1]
; AVX-LABEL: hsub_v4f64:		; SSSE3_SLOW-NEXT: subpd %xmm3, %xmm1
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: subpd %xmm2, %xmm0
; AVX-NEXT: vhsubpd %ymm0, %ymm0, %ymm0		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm0 = xmm0[0,0]
; AVX-NEXT: retq		; SSSE3_SLOW-NEXT: movddup {{.*#+}} xmm1 = xmm1[0,0]
		; SSSE3_SLOW-NEXT: retq
		;
		; SSSE3_FAST-LABEL: hsub_v4f64:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: hsubpd %xmm0, %xmm0
		; SSSE3_FAST-NEXT: hsubpd %xmm1, %xmm1
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hsub_v4f64:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpermilpd {{.*#+}} ymm1 = ymm0[1,0,3,2]
		; AVX1_SLOW-NEXT: vsubpd %ymm1, %ymm0, %ymm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hsub_v4f64:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vhsubpd %ymm0, %ymm0, %ymm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hsub_v4f64:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpermilpd {{.*#+}} ymm1 = ymm0[1,0,3,2]
		; AVX2_SLOW-NEXT: vsubpd %ymm1, %ymm0, %ymm0
		; AVX2_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hsub_v4f64:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vhsubpd %ymm0, %ymm0, %ymm0
		; AVX2_FAST-NEXT: retq
%a0 = shufflevector <4 x double> %a, <4 x double> undef, <4 x i32> <i32 0, i32 undef, i32 2, i32 undef>		%a0 = shufflevector <4 x double> %a, <4 x double> undef, <4 x i32> <i32 0, i32 undef, i32 2, i32 undef>
%a1 = shufflevector <4 x double> %a, <4 x double> undef, <4 x i32> <i32 1, i32 undef, i32 3, i32 undef>		%a1 = shufflevector <4 x double> %a, <4 x double> undef, <4 x i32> <i32 1, i32 undef, i32 3, i32 undef>
%hop = fsub <4 x double> %a0, %a1		%hop = fsub <4 x double> %a0, %a1
%shuf = shufflevector <4 x double> %hop, <4 x double> undef, <4 x i32> <i32 0, i32 0, i32 2, i32 2>		%shuf = shufflevector <4 x double> %hop, <4 x double> undef, <4 x i32> <i32 0, i32 0, i32 2, i32 2>
ret <4 x double> %shuf		ret <4 x double> %shuf
}		}

define <4 x i32> @hadd_v4i32(<4 x i32> %a) {		define <4 x i32> @hadd_v4i32(<4 x i32> %a) {
; SSSE3-LABEL: hadd_v4i32:		; SSSE3_SLOW-LABEL: hadd_v4i32:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: phaddd %xmm0, %xmm0		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
;		; SSSE3_SLOW-NEXT: paddd %xmm1, %xmm0
; AVX-LABEL: hadd_v4i32:		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: retq
; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0		;
; AVX-NEXT: retq		; SSSE3_FAST-LABEL: hadd_v4i32:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: phaddd %xmm0, %xmm0
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hadd_v4i32:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
		; AVX1_SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
		; AVX1_SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
		; AVX1_SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hadd_v4i32:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hadd_v4i32:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
		; AVX2_SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
		; AVX2_SLOW-NEXT: vpbroadcastq %xmm0, %xmm0
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hadd_v4i32:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
		; AVX2_FAST-NEXT: retq
%a02 = shufflevector <4 x i32> %a, <4 x i32> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>		%a02 = shufflevector <4 x i32> %a, <4 x i32> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>
%a13 = shufflevector <4 x i32> %a, <4 x i32> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>		%a13 = shufflevector <4 x i32> %a, <4 x i32> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>
%hop = add <4 x i32> %a02, %a13		%hop = add <4 x i32> %a02, %a13
%shuf = shufflevector <4 x i32> %hop, <4 x i32> undef, <4 x i32> <i32 0, i32 undef, i32 undef, i32 1>		%shuf = shufflevector <4 x i32> %hop, <4 x i32> undef, <4 x i32> <i32 0, i32 undef, i32 undef, i32 1>
ret <4 x i32> %shuf		ret <4 x i32> %shuf
}		}

define <8 x i32> @hadd_v8i32a(<8 x i32> %a) {		define <8 x i32> @hadd_v8i32a(<8 x i32> %a) {
Show All 22 Lines	; AVX2-NEXT: retq
%a0 = shufflevector <8 x i32> %a, <8 x i32> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>		%a0 = shufflevector <8 x i32> %a, <8 x i32> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
%a1 = shufflevector <8 x i32> %a, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>		%a1 = shufflevector <8 x i32> %a, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
%hop = add <4 x i32> %a0, %a1		%hop = add <4 x i32> %a0, %a1
%shuf = shufflevector <4 x i32> %hop, <4 x i32> undef, <8 x i32> <i32 undef, i32 undef, i32 0, i32 1, i32 undef, i32 undef, i32 2, i32 3>		%shuf = shufflevector <4 x i32> %hop, <4 x i32> undef, <8 x i32> <i32 undef, i32 undef, i32 0, i32 1, i32 undef, i32 undef, i32 2, i32 3>
ret <8 x i32> %shuf		ret <8 x i32> %shuf
}		}

define <8 x i32> @hadd_v8i32b(<8 x i32> %a) {		define <8 x i32> @hadd_v8i32b(<8 x i32> %a) {
; SSSE3-LABEL: hadd_v8i32b:		; SSSE3_SLOW-LABEL: hadd_v8i32b:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: phaddd %xmm0, %xmm0		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,2,2,3]
; SSSE3-NEXT: phaddd %xmm1, %xmm1		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,2,2,3]
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
;		; SSSE3_SLOW-NEXT: paddd %xmm2, %xmm0
; AVX1-LABEL: hadd_v8i32b:		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
; AVX1: # %bb.0:		; SSSE3_SLOW-NEXT: paddd %xmm3, %xmm1
; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm1		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]
; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0		; SSSE3_SLOW-NEXT: retq
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		;
; AVX1-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]		; SSSE3_FAST-LABEL: hadd_v8i32b:
; AVX1-NEXT: retq		; SSSE3_FAST: # %bb.0:
;		; SSSE3_FAST-NEXT: phaddd %xmm0, %xmm0
; AVX2-LABEL: hadd_v8i32b:		; SSSE3_FAST-NEXT: phaddd %xmm1, %xmm1
; AVX2: # %bb.0:		; SSSE3_FAST-NEXT: retq
; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0		;
; AVX2-NEXT: retq		; AVX1_SLOW-LABEL: hadd_v8i32b:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
		; AVX1_SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
		; AVX1_SLOW-NEXT: vextractf128 $1, %ymm1, %xmm3
		; AVX1_SLOW-NEXT: vpaddd %xmm2, %xmm3, %xmm2
		; AVX1_SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
		; AVX1_SLOW-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hadd_v8i32b:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm1
		; AVX1_FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
		; AVX1_FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
		; AVX1_FAST-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hadd_v8i32b:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
		; AVX2_SLOW-NEXT: vpaddd %ymm0, %ymm1, %ymm0
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,1,0,1,4,5,4,5]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hadd_v8i32b:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vphaddd %ymm0, %ymm0, %ymm0
		; AVX2_FAST-NEXT: retq
%a0 = shufflevector <8 x i32> %a, <8 x i32> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 4, i32 6, i32 undef, i32 undef>		%a0 = shufflevector <8 x i32> %a, <8 x i32> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 4, i32 6, i32 undef, i32 undef>
%a1 = shufflevector <8 x i32> %a, <8 x i32> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 5, i32 7, i32 undef, i32 undef>		%a1 = shufflevector <8 x i32> %a, <8 x i32> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 5, i32 7, i32 undef, i32 undef>
%hop = add <8 x i32> %a0, %a1		%hop = add <8 x i32> %a0, %a1
%shuf = shufflevector <8 x i32> %hop, <8 x i32> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5>		%shuf = shufflevector <8 x i32> %hop, <8 x i32> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5>
ret <8 x i32> %shuf		ret <8 x i32> %shuf
}		}

define <4 x i32> @hsub_v4i32(<4 x i32> %a) {		define <4 x i32> @hsub_v4i32(<4 x i32> %a) {
; SSSE3-LABEL: hsub_v4i32:		; SSSE3_SLOW-LABEL: hsub_v4i32:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: phsubd %xmm0, %xmm0		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
;		; SSSE3_SLOW-NEXT: psubd %xmm0, %xmm1
; AVX-LABEL: hsub_v4i32:		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,1,0,1]
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: retq
; AVX-NEXT: vphsubd %xmm0, %xmm0, %xmm0		;
; AVX-NEXT: retq		; SSSE3_FAST-LABEL: hsub_v4i32:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: phsubd %xmm0, %xmm0
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hsub_v4i32:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
		; AVX1_SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
		; AVX1_SLOW-NEXT: vpsubd %xmm0, %xmm1, %xmm0
		; AVX1_SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hsub_v4i32:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vphsubd %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hsub_v4i32:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
		; AVX2_SLOW-NEXT: vpsubd %xmm0, %xmm1, %xmm0
		; AVX2_SLOW-NEXT: vpbroadcastq %xmm0, %xmm0
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hsub_v4i32:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vphsubd %xmm0, %xmm0, %xmm0
		; AVX2_FAST-NEXT: retq
%a02 = shufflevector <4 x i32> %a, <4 x i32> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>		%a02 = shufflevector <4 x i32> %a, <4 x i32> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>
%a13 = shufflevector <4 x i32> %a, <4 x i32> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>		%a13 = shufflevector <4 x i32> %a, <4 x i32> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>
%hop = sub <4 x i32> %a02, %a13		%hop = sub <4 x i32> %a02, %a13
%shuf = shufflevector <4 x i32> %hop, <4 x i32> undef, <4 x i32> <i32 undef, i32 1, i32 0, i32 undef>		%shuf = shufflevector <4 x i32> %hop, <4 x i32> undef, <4 x i32> <i32 undef, i32 1, i32 0, i32 undef>
ret <4 x i32> %shuf		ret <4 x i32> %shuf
}		}

define <8 x i32> @hsub_v8i32a(<8 x i32> %a) {		define <8 x i32> @hsub_v8i32a(<8 x i32> %a) {
Show All 22 Lines	; AVX2-NEXT: retq
%a0 = shufflevector <8 x i32> %a, <8 x i32> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>		%a0 = shufflevector <8 x i32> %a, <8 x i32> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
%a1 = shufflevector <8 x i32> %a, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>		%a1 = shufflevector <8 x i32> %a, <8 x i32> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
%hop = sub <4 x i32> %a0, %a1		%hop = sub <4 x i32> %a0, %a1
%shuf = shufflevector <4 x i32> %hop, <4 x i32> undef, <8 x i32> <i32 undef, i32 undef, i32 0, i32 1, i32 undef, i32 undef, i32 2, i32 3>		%shuf = shufflevector <4 x i32> %hop, <4 x i32> undef, <8 x i32> <i32 undef, i32 undef, i32 0, i32 1, i32 undef, i32 undef, i32 2, i32 3>
ret <8 x i32> %shuf		ret <8 x i32> %shuf
}		}

define <8 x i32> @hsub_v8i32b(<8 x i32> %a) {		define <8 x i32> @hsub_v8i32b(<8 x i32> %a) {
; SSSE3-LABEL: hsub_v8i32b:		; SSSE3_SLOW-LABEL: hsub_v8i32b:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: phsubd %xmm0, %xmm0		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm2 = xmm0[0,2,2,3]
; SSSE3-NEXT: phsubd %xmm1, %xmm1		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,2,2,3]
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
;		; SSSE3_SLOW-NEXT: psubd %xmm0, %xmm2
; AVX1-LABEL: hsub_v8i32b:		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,3,2,3]
; AVX1: # %bb.0:		; SSSE3_SLOW-NEXT: psubd %xmm0, %xmm3
; AVX1-NEXT: vphsubd %xmm0, %xmm0, %xmm1		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,1,0,1]
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,1,0,1]
; AVX1-NEXT: vphsubd %xmm0, %xmm0, %xmm0		; SSSE3_SLOW-NEXT: retq
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		;
; AVX1-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]		; SSSE3_FAST-LABEL: hsub_v8i32b:
; AVX1-NEXT: retq		; SSSE3_FAST: # %bb.0:
;		; SSSE3_FAST-NEXT: phsubd %xmm0, %xmm0
; AVX2-LABEL: hsub_v8i32b:		; SSSE3_FAST-NEXT: phsubd %xmm1, %xmm1
; AVX2: # %bb.0:		; SSSE3_FAST-NEXT: retq
; AVX2-NEXT: vphsubd %ymm0, %ymm0, %ymm0		;
; AVX2-NEXT: retq		; AVX1_SLOW-LABEL: hsub_v8i32b:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
		; AVX1_SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
		; AVX1_SLOW-NEXT: vextractf128 $1, %ymm1, %xmm3
		; AVX1_SLOW-NEXT: vpsubd %xmm2, %xmm3, %xmm2
		; AVX1_SLOW-NEXT: vpsubd %xmm0, %xmm1, %xmm0
		; AVX1_SLOW-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hsub_v8i32b:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vphsubd %xmm0, %xmm0, %xmm1
		; AVX1_FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
		; AVX1_FAST-NEXT: vphsubd %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
		; AVX1_FAST-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hsub_v8i32b:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
		; AVX2_SLOW-NEXT: vpsubd %ymm0, %ymm1, %ymm0
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,1,0,1,4,5,4,5]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hsub_v8i32b:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vphsubd %ymm0, %ymm0, %ymm0
		; AVX2_FAST-NEXT: retq
%a0 = shufflevector <8 x i32> %a, <8 x i32> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 4, i32 6, i32 undef, i32 undef>		%a0 = shufflevector <8 x i32> %a, <8 x i32> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 4, i32 6, i32 undef, i32 undef>
%a1 = shufflevector <8 x i32> %a, <8 x i32> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 5, i32 7, i32 undef, i32 undef>		%a1 = shufflevector <8 x i32> %a, <8 x i32> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 5, i32 7, i32 undef, i32 undef>
%hop = sub <8 x i32> %a0, %a1		%hop = sub <8 x i32> %a0, %a1
%shuf = shufflevector <8 x i32> %hop, <8 x i32> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5>		%shuf = shufflevector <8 x i32> %hop, <8 x i32> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 4, i32 5, i32 4, i32 5>
ret <8 x i32> %shuf		ret <8 x i32> %shuf
}		}

define <8 x i16> @hadd_v8i16(<8 x i16> %a) {		define <8 x i16> @hadd_v8i16(<8 x i16> %a) {
; SSSE3-LABEL: hadd_v8i16:		; SSSE3_SLOW-LABEL: hadd_v8i16:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: phaddw %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movdqa %xmm0, %xmm1
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
;		; SSSE3_SLOW-NEXT: pshufb {{.*#+}} xmm0 = xmm0[2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
; AVX-LABEL: hadd_v8i16:		; SSSE3_SLOW-NEXT: paddw %xmm1, %xmm0
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
; AVX-NEXT: vphaddw %xmm0, %xmm0, %xmm0		; SSSE3_SLOW-NEXT: retq
; AVX-NEXT: retq		;
		; SSSE3_FAST-LABEL: hadd_v8i16:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: phaddw %xmm0, %xmm0
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hadd_v8i16:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
		; AVX1_SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
		; AVX1_SLOW-NEXT: vpaddw %xmm0, %xmm1, %xmm0
		; AVX1_SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hadd_v8i16:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vphaddw %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hadd_v8i16:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
		; AVX2_SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
		; AVX2_SLOW-NEXT: vpaddw %xmm0, %xmm1, %xmm0
		; AVX2_SLOW-NEXT: vpbroadcastq %xmm0, %xmm0
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hadd_v8i16:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vphaddw %xmm0, %xmm0, %xmm0
		; AVX2_FAST-NEXT: retq
%a0246 = shufflevector <8 x i16> %a, <8 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef>		%a0246 = shufflevector <8 x i16> %a, <8 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef>
%a1357 = shufflevector <8 x i16> %a, <8 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>		%a1357 = shufflevector <8 x i16> %a, <8 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
%hop = add <8 x i16> %a0246, %a1357		%hop = add <8 x i16> %a0246, %a1357
%shuf = shufflevector <8 x i16> %hop, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 1, i32 2, i32 3>		%shuf = shufflevector <8 x i16> %hop, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 1, i32 2, i32 3>
ret <8 x i16> %shuf		ret <8 x i16> %shuf
}		}

define <16 x i16> @hadd_v16i16a(<16 x i16> %a) {		define <16 x i16> @hadd_v16i16a(<16 x i16> %a) {
Show All 22 Lines	; AVX2-NEXT: retq
%a0 = shufflevector <16 x i16> %a, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>		%a0 = shufflevector <16 x i16> %a, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
%a1 = shufflevector <16 x i16> %a, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>		%a1 = shufflevector <16 x i16> %a, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
%hop = add <8 x i16> %a0, %a1		%hop = add <8 x i16> %a0, %a1
%shuf = shufflevector <8 x i16> %hop, <8 x i16> undef, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 4, i32 5, i32 6, i32 7>		%shuf = shufflevector <8 x i16> %hop, <8 x i16> undef, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 4, i32 5, i32 6, i32 7>
ret <16 x i16> %shuf		ret <16 x i16> %shuf
}		}

define <16 x i16> @hadd_v16i16b(<16 x i16> %a) {		define <16 x i16> @hadd_v16i16b(<16 x i16> %a) {
; SSSE3-LABEL: hadd_v16i16b:		; SSSE3_SLOW-LABEL: hadd_v16i16b:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: phaddw %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; SSSE3-NEXT: phaddw %xmm1, %xmm1		; SSSE3_SLOW-NEXT: movdqa %xmm0, %xmm3
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: pshufb %xmm2, %xmm3
;		; SSSE3_SLOW-NEXT: movdqa %xmm1, %xmm4
; AVX1-LABEL: hadd_v16i16b:		; SSSE3_SLOW-NEXT: pshufb %xmm2, %xmm4
; AVX1: # %bb.0:		; SSSE3_SLOW-NEXT: movdqa {{.*#+}} xmm2 = [2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
; AVX1-NEXT: vphaddw %xmm0, %xmm0, %xmm1		; SSSE3_SLOW-NEXT: pshufb %xmm2, %xmm0
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; SSSE3_SLOW-NEXT: paddw %xmm3, %xmm0
; AVX1-NEXT: vphaddw %xmm0, %xmm0, %xmm0		; SSSE3_SLOW-NEXT: pshufb %xmm2, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; SSSE3_SLOW-NEXT: paddw %xmm4, %xmm1
; AVX1-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
; AVX1-NEXT: retq		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,1]
;		; SSSE3_SLOW-NEXT: retq
; AVX2-LABEL: hadd_v16i16b:		;
; AVX2: # %bb.0:		; SSSE3_FAST-LABEL: hadd_v16i16b:
; AVX2-NEXT: vphaddw %ymm0, %ymm0, %ymm0		; SSSE3_FAST: # %bb.0:
; AVX2-NEXT: retq		; SSSE3_FAST-NEXT: phaddw %xmm0, %xmm0
		; SSSE3_FAST-NEXT: phaddw %xmm1, %xmm1
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hadd_v16i16b:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
		; AVX1_SLOW-NEXT: vpshufb %xmm1, %xmm0, %xmm2
		; AVX1_SLOW-NEXT: vextractf128 $1, %ymm0, %xmm3
		; AVX1_SLOW-NEXT: vpshufb %xmm1, %xmm3, %xmm1
		; AVX1_SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
		; AVX1_SLOW-NEXT: vpshufb %xmm4, %xmm0, %xmm0
		; AVX1_SLOW-NEXT: vpaddw %xmm0, %xmm2, %xmm0
		; AVX1_SLOW-NEXT: vpshufb %xmm4, %xmm3, %xmm2
		; AVX1_SLOW-NEXT: vpaddw %xmm2, %xmm1, %xmm1
		; AVX1_SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hadd_v16i16b:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vphaddw %xmm0, %xmm0, %xmm1
		; AVX1_FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
		; AVX1_FAST-NEXT: vphaddw %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
		; AVX1_FAST-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hadd_v16i16b:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
		; AVX2_SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15,18,19,22,23,26,27,30,31,30,31,26,27,28,29,30,31]
		; AVX2_SLOW-NEXT: vpaddw %ymm0, %ymm1, %ymm0
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,1,0,1,4,5,4,5]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hadd_v16i16b:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vphaddw %ymm0, %ymm0, %ymm0
		; AVX2_FAST-NEXT: retq
%a0 = shufflevector <16 x i16> %a, <16 x i16> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef, i32 8, i32 10, i32 12, i32 14, i32 undef, i32 undef, i32 undef, i32 undef>		%a0 = shufflevector <16 x i16> %a, <16 x i16> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef, i32 8, i32 10, i32 12, i32 14, i32 undef, i32 undef, i32 undef, i32 undef>
%a1 = shufflevector <16 x i16> %a, <16 x i16> undef, <16 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 9, i32 11, i32 13, i32 15, i32 undef, i32 undef, i32 undef, i32 undef>		%a1 = shufflevector <16 x i16> %a, <16 x i16> undef, <16 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 9, i32 11, i32 13, i32 15, i32 undef, i32 undef, i32 undef, i32 undef>
%hop = add <16 x i16> %a0, %a1		%hop = add <16 x i16> %a0, %a1
%shuf = shufflevector <16 x i16> %hop, <16 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 8, i32 9, i32 10, i32 11, i32 8, i32 9, i32 10, i32 11>		%shuf = shufflevector <16 x i16> %hop, <16 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 8, i32 9, i32 10, i32 11, i32 8, i32 9, i32 10, i32 11>
ret <16 x i16> %shuf		ret <16 x i16> %shuf
}		}

define <8 x i16> @hsub_v8i16(<8 x i16> %a) {		define <8 x i16> @hsub_v8i16(<8 x i16> %a) {
; SSSE3-LABEL: hsub_v8i16:		; SSSE3_SLOW-LABEL: hsub_v8i16:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: phsubw %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movdqa %xmm0, %xmm1
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
;		; SSSE3_SLOW-NEXT: pshufb {{.*#+}} xmm0 = xmm0[2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
; AVX-LABEL: hsub_v8i16:		; SSSE3_SLOW-NEXT: psubw %xmm0, %xmm1
; AVX: # %bb.0:		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,1,0,1]
; AVX-NEXT: vphsubw %xmm0, %xmm0, %xmm0		; SSSE3_SLOW-NEXT: retq
; AVX-NEXT: retq		;
		; SSSE3_FAST-LABEL: hsub_v8i16:
		; SSSE3_FAST: # %bb.0:
		; SSSE3_FAST-NEXT: phsubw %xmm0, %xmm0
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hsub_v8i16:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
		; AVX1_SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
		; AVX1_SLOW-NEXT: vpsubw %xmm0, %xmm1, %xmm0
		; AVX1_SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hsub_v8i16:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vphsubw %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hsub_v8i16:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
		; AVX2_SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
		; AVX2_SLOW-NEXT: vpsubw %xmm0, %xmm1, %xmm0
		; AVX2_SLOW-NEXT: vpbroadcastq %xmm0, %xmm0
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hsub_v8i16:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vphsubw %xmm0, %xmm0, %xmm0
		; AVX2_FAST-NEXT: retq
%a0246 = shufflevector <8 x i16> %a, <8 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef>		%a0246 = shufflevector <8 x i16> %a, <8 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef>
%a1357 = shufflevector <8 x i16> %a, <8 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>		%a1357 = shufflevector <8 x i16> %a, <8 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
%hop = sub <8 x i16> %a0246, %a1357		%hop = sub <8 x i16> %a0246, %a1357
%shuf = shufflevector <8 x i16> %hop, <8 x i16> undef, <8 x i32> <i32 0, i32 undef, i32 2, i32 undef, i32 undef, i32 1, i32 undef, i32 3>		%shuf = shufflevector <8 x i16> %hop, <8 x i16> undef, <8 x i32> <i32 0, i32 undef, i32 2, i32 undef, i32 undef, i32 1, i32 undef, i32 3>
ret <8 x i16> %shuf		ret <8 x i16> %shuf
}		}

define <16 x i16> @hsub_v16i16a(<16 x i16> %a) {		define <16 x i16> @hsub_v16i16a(<16 x i16> %a) {
Show All 22 Lines	; AVX2-NEXT: retq
%a0 = shufflevector <16 x i16> %a, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>		%a0 = shufflevector <16 x i16> %a, <16 x i16> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
%a1 = shufflevector <16 x i16> %a, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>		%a1 = shufflevector <16 x i16> %a, <16 x i16> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
%hop = sub <8 x i16> %a0, %a1		%hop = sub <8 x i16> %a0, %a1
%shuf = shufflevector <8 x i16> %hop, <8 x i16> undef, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 4, i32 5, i32 6, i32 7>		%shuf = shufflevector <8 x i16> %hop, <8 x i16> undef, <16 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 4, i32 5, i32 6, i32 7>
ret <16 x i16> %shuf		ret <16 x i16> %shuf
}		}

define <16 x i16> @hsub_v16i16b(<16 x i16> %a) {		define <16 x i16> @hsub_v16i16b(<16 x i16> %a) {
; SSSE3-LABEL: hsub_v16i16b:		; SSSE3_SLOW-LABEL: hsub_v16i16b:
; SSSE3: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3-NEXT: phsubw %xmm0, %xmm0		; SSSE3_SLOW-NEXT: movdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
; SSSE3-NEXT: phsubw %xmm1, %xmm1		; SSSE3_SLOW-NEXT: movdqa %xmm0, %xmm3
; SSSE3-NEXT: retq		; SSSE3_SLOW-NEXT: pshufb %xmm2, %xmm3
;		; SSSE3_SLOW-NEXT: movdqa %xmm1, %xmm4
; AVX1-LABEL: hsub_v16i16b:		; SSSE3_SLOW-NEXT: pshufb %xmm2, %xmm4
; AVX1: # %bb.0:		; SSSE3_SLOW-NEXT: movdqa {{.*#+}} xmm2 = [2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
; AVX1-NEXT: vphsubw %xmm0, %xmm0, %xmm1		; SSSE3_SLOW-NEXT: pshufb %xmm2, %xmm0
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; SSSE3_SLOW-NEXT: psubw %xmm0, %xmm3
; AVX1-NEXT: vphsubw %xmm0, %xmm0, %xmm0		; SSSE3_SLOW-NEXT: pshufb %xmm2, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; SSSE3_SLOW-NEXT: psubw %xmm1, %xmm4
; AVX1-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,1,0,1]
; AVX1-NEXT: retq		; SSSE3_SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm4[0,1,0,1]
;		; SSSE3_SLOW-NEXT: retq
; AVX2-LABEL: hsub_v16i16b:		;
; AVX2: # %bb.0:		; SSSE3_FAST-LABEL: hsub_v16i16b:
; AVX2-NEXT: vphsubw %ymm0, %ymm0, %ymm0		; SSSE3_FAST: # %bb.0:
; AVX2-NEXT: retq		; SSSE3_FAST-NEXT: phsubw %xmm0, %xmm0
		; SSSE3_FAST-NEXT: phsubw %xmm1, %xmm1
		; SSSE3_FAST-NEXT: retq
		;
		; AVX1_SLOW-LABEL: hsub_v16i16b:
		; AVX1_SLOW: # %bb.0:
		; AVX1_SLOW-NEXT: vmovdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
		; AVX1_SLOW-NEXT: vpshufb %xmm1, %xmm0, %xmm2
		; AVX1_SLOW-NEXT: vextractf128 $1, %ymm0, %xmm3
		; AVX1_SLOW-NEXT: vpshufb %xmm1, %xmm3, %xmm1
		; AVX1_SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15]
		; AVX1_SLOW-NEXT: vpshufb %xmm4, %xmm0, %xmm0
		; AVX1_SLOW-NEXT: vpsubw %xmm0, %xmm2, %xmm0
		; AVX1_SLOW-NEXT: vpshufb %xmm4, %xmm3, %xmm2
		; AVX1_SLOW-NEXT: vpsubw %xmm2, %xmm1, %xmm1
		; AVX1_SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
		; AVX1_SLOW-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_SLOW-NEXT: retq
		;
		; AVX1_FAST-LABEL: hsub_v16i16b:
		; AVX1_FAST: # %bb.0:
		; AVX1_FAST-NEXT: vphsubw %xmm0, %xmm0, %xmm1
		; AVX1_FAST-NEXT: vextractf128 $1, %ymm0, %xmm0
		; AVX1_FAST-NEXT: vphsubw %xmm0, %xmm0, %xmm0
		; AVX1_FAST-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
		; AVX1_FAST-NEXT: vmovddup {{.*#+}} ymm0 = ymm0[0,0,2,2]
		; AVX1_FAST-NEXT: retq
		;
		; AVX2_SLOW-LABEL: hsub_v16i16b:
		; AVX2_SLOW: # %bb.0:
		; AVX2_SLOW-NEXT: vpshufb {{.*#+}} ymm1 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
		; AVX2_SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[2,3,6,7,10,11,14,15,14,15,10,11,12,13,14,15,18,19,22,23,26,27,30,31,30,31,26,27,28,29,30,31]
		; AVX2_SLOW-NEXT: vpsubw %ymm0, %ymm1, %ymm0
		; AVX2_SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,1,0,1,4,5,4,5]
		; AVX2_SLOW-NEXT: retq
		;
		; AVX2_FAST-LABEL: hsub_v16i16b:
		; AVX2_FAST: # %bb.0:
		; AVX2_FAST-NEXT: vphsubw %ymm0, %ymm0, %ymm0
		; AVX2_FAST-NEXT: retq
%a0 = shufflevector <16 x i16> %a, <16 x i16> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef, i32 8, i32 10, i32 12, i32 14, i32 undef, i32 undef, i32 undef, i32 undef>		%a0 = shufflevector <16 x i16> %a, <16 x i16> undef, <16 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef, i32 8, i32 10, i32 12, i32 14, i32 undef, i32 undef, i32 undef, i32 undef>
%a1 = shufflevector <16 x i16> %a, <16 x i16> undef, <16 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 9, i32 11, i32 13, i32 15, i32 undef, i32 undef, i32 undef, i32 undef>		%a1 = shufflevector <16 x i16> %a, <16 x i16> undef, <16 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 9, i32 11, i32 13, i32 15, i32 undef, i32 undef, i32 undef, i32 undef>
%hop = sub <16 x i16> %a0, %a1		%hop = sub <16 x i16> %a0, %a1
%shuf = shufflevector <16 x i16> %hop, <16 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 8, i32 9, i32 10, i32 11, i32 8, i32 9, i32 10, i32 11>		%shuf = shufflevector <16 x i16> %hop, <16 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 8, i32 9, i32 10, i32 11, i32 8, i32 9, i32 10, i32 11>
ret <16 x i16> %shuf		ret <16 x i16> %shuf
}		}

llvm/trunk/test/CodeGen/X86/haddsub-undef.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3 \| FileCheck %s --check-prefix=SSE		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3 \| FileCheck %s --check-prefixes=SSE,SSE-SLOW
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3,fast-hops \| FileCheck %s --check-prefixes=SSE,SSE-FAST
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1-SLOW
		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx,fast-hops \| FileCheck %s --check-prefixes=AVX,AVX1,AVX1-FAST
		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX2,AVX2-SLOW
		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2,fast-hops \| FileCheck %s --check-prefixes=AVX,AVX2,AVX2-FAST

; Verify that we correctly fold horizontal binop even in the presence of UNDEFs.		; Verify that we correctly fold horizontal binop even in the presence of UNDEFs.

define <4 x float> @test1_undef(<4 x float> %a, <4 x float> %b) {		define <4 x float> @test1_undef(<4 x float> %a, <4 x float> %b) {
; SSE-LABEL: test1_undef:		; SSE-LABEL: test1_undef:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: haddps %xmm1, %xmm0		; SSE-NEXT: haddps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
▲ Show 20 Lines • Show All 321 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
%vecinit = insertelement <8 x i32> undef, i32 %add, i32 0		%vecinit = insertelement <8 x i32> undef, i32 %add, i32 0
%vecext2 = extractelement <8 x i32> %b, i32 2		%vecext2 = extractelement <8 x i32> %b, i32 2
%vecext3 = extractelement <8 x i32> %b, i32 3		%vecext3 = extractelement <8 x i32> %b, i32 3
%add4 = add i32 %vecext2, %vecext3		%add4 = add i32 %vecext2, %vecext3
%vecinit5 = insertelement <8 x i32> %vecinit, i32 %add4, i32 3		%vecinit5 = insertelement <8 x i32> %vecinit, i32 %add4, i32 3
ret <8 x i32> %vecinit5		ret <8 x i32> %vecinit5
}		}

; On AVX2, the following sequence can be folded into a single horizontal add.
; If the Subtarget doesn't support AVX2, then we avoid emitting two packed
; integer horizontal adds instead of two scalar adds followed by vector inserts.		; integer horizontal adds instead of two scalar adds followed by vector inserts.
define <8 x i32> @test15_undef(<8 x i32> %a, <8 x i32> %b) {		define <8 x i32> @test15_undef(<8 x i32> %a, <8 x i32> %b) {
; SSE-LABEL: test15_undef:		; SSE-LABEL: test15_undef:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movd %xmm0, %eax		; SSE-NEXT: movd %xmm0, %eax
; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
; SSE-NEXT: movd %xmm0, %ecx		; SSE-NEXT: movd %xmm0, %ecx
; SSE-NEXT: addl %eax, %ecx		; SSE-NEXT: addl %eax, %ecx
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
%vecext6 = extractelement <8 x i32> %a, i32 6		%vecext6 = extractelement <8 x i32> %a, i32 6
%vecext7 = extractelement <8 x i32> %a, i32 7		%vecext7 = extractelement <8 x i32> %a, i32 7
%add4 = add i32 %vecext6, %vecext7		%add4 = add i32 %vecext6, %vecext7
%vecinit4 = insertelement <8 x i32> %vecinit3, i32 %add4, i32 3		%vecinit4 = insertelement <8 x i32> %vecinit3, i32 %add4, i32 3
ret <8 x i32> %vecinit4		ret <8 x i32> %vecinit4
}		}

define <2 x double> @add_pd_003(<2 x double> %x) {		define <2 x double> @add_pd_003(<2 x double> %x) {
; SSE-LABEL: add_pd_003:		; SSE-SLOW-LABEL: add_pd_003:
; SSE: # %bb.0:		; SSE-SLOW: # %bb.0:
; SSE-NEXT: haddpd %xmm0, %xmm0		; SSE-SLOW-NEXT: movddup {{.*#+}} xmm1 = xmm0[0,0]
; SSE-NEXT: retq		; SSE-SLOW-NEXT: addpd %xmm1, %xmm0
;		; SSE-SLOW-NEXT: retq
; AVX-LABEL: add_pd_003:		;
; AVX: # %bb.0:		; SSE-FAST-LABEL: add_pd_003:
; AVX-NEXT: vhaddpd %xmm0, %xmm0, %xmm0		; SSE-FAST: # %bb.0:
; AVX-NEXT: retq		; SSE-FAST-NEXT: haddpd %xmm0, %xmm0
		; SSE-FAST-NEXT: retq
		;
		; AVX1-SLOW-LABEL: add_pd_003:
		; AVX1-SLOW: # %bb.0:
		; AVX1-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm0[0,0]
		; AVX1-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0
		; AVX1-SLOW-NEXT: retq
		;
		; AVX1-FAST-LABEL: add_pd_003:
		; AVX1-FAST: # %bb.0:
		; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
		; AVX1-FAST-NEXT: retq
		;
		; AVX2-SLOW-LABEL: add_pd_003:
		; AVX2-SLOW: # %bb.0:
		; AVX2-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm0[0,0]
		; AVX2-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0
		; AVX2-SLOW-NEXT: retq
		;
		; AVX2-FAST-LABEL: add_pd_003:
		; AVX2-FAST: # %bb.0:
		; AVX2-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
		; AVX2-FAST-NEXT: retq
%l = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 undef, i32 0>		%l = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 undef, i32 0>
%add = fadd <2 x double> %l, %x		%add = fadd <2 x double> %l, %x
ret <2 x double> %add		ret <2 x double> %add
}		}

; Change shuffle mask - no undefs.		; Change shuffle mask - no undefs.

define <2 x double> @add_pd_003_2(<2 x double> %x) {		define <2 x double> @add_pd_003_2(<2 x double> %x) {
; SSE-LABEL: add_pd_003_2:		; SSE-SLOW-LABEL: add_pd_003_2:
; SSE: # %bb.0:		; SSE-SLOW: # %bb.0:
; SSE-NEXT: haddpd %xmm0, %xmm0		; SSE-SLOW-NEXT: movapd %xmm0, %xmm1
; SSE-NEXT: retq		; SSE-SLOW-NEXT: shufpd {{.*#+}} xmm1 = xmm1[1],xmm0[0]
;		; SSE-SLOW-NEXT: addpd %xmm0, %xmm1
; AVX-LABEL: add_pd_003_2:		; SSE-SLOW-NEXT: movapd %xmm1, %xmm0
; AVX: # %bb.0:		; SSE-SLOW-NEXT: retq
; AVX-NEXT: vhaddpd %xmm0, %xmm0, %xmm0		;
; AVX-NEXT: retq		; SSE-FAST-LABEL: add_pd_003_2:
		; SSE-FAST: # %bb.0:
		; SSE-FAST-NEXT: haddpd %xmm0, %xmm0
		; SSE-FAST-NEXT: retq
		;
		; AVX1-SLOW-LABEL: add_pd_003_2:
		; AVX1-SLOW: # %bb.0:
		; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX1-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0
		; AVX1-SLOW-NEXT: retq
		;
		; AVX1-FAST-LABEL: add_pd_003_2:
		; AVX1-FAST: # %bb.0:
		; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
		; AVX1-FAST-NEXT: retq
		;
		; AVX2-SLOW-LABEL: add_pd_003_2:
		; AVX2-SLOW: # %bb.0:
		; AVX2-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX2-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0
		; AVX2-SLOW-NEXT: retq
		;
		; AVX2-FAST-LABEL: add_pd_003_2:
		; AVX2-FAST: # %bb.0:
		; AVX2-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
		; AVX2-FAST-NEXT: retq
%l = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 1, i32 0>		%l = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 1, i32 0>
%add = fadd <2 x double> %l, %x		%add = fadd <2 x double> %l, %x
ret <2 x double> %add		ret <2 x double> %add
}		}

define <2 x double> @add_pd_010(<2 x double> %x) {		define <2 x double> @add_pd_010(<2 x double> %x) {
; SSE-LABEL: add_pd_010:		; SSE-SLOW-LABEL: add_pd_010:
; SSE: # %bb.0:		; SSE-SLOW: # %bb.0:
; SSE-NEXT: haddpd %xmm0, %xmm0		; SSE-SLOW-NEXT: movddup {{.*#+}} xmm1 = xmm0[0,0]
; SSE-NEXT: retq		; SSE-SLOW-NEXT: addpd %xmm0, %xmm1
;		; SSE-SLOW-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1,1]
; AVX-LABEL: add_pd_010:		; SSE-SLOW-NEXT: movapd %xmm1, %xmm0
; AVX: # %bb.0:		; SSE-SLOW-NEXT: retq
; AVX-NEXT: vhaddpd %xmm0, %xmm0, %xmm0		;
; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; SSE-FAST-LABEL: add_pd_010:
; AVX-NEXT: retq		; SSE-FAST: # %bb.0:
		; SSE-FAST-NEXT: haddpd %xmm0, %xmm0
		; SSE-FAST-NEXT: retq
		;
		; AVX1-SLOW-LABEL: add_pd_010:
		; AVX1-SLOW: # %bb.0:
		; AVX1-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm0[0,0]
		; AVX1-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0
		; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
		; AVX1-SLOW-NEXT: retq
		;
		; AVX1-FAST-LABEL: add_pd_010:
		; AVX1-FAST: # %bb.0:
		; AVX1-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
		; AVX1-FAST-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
		; AVX1-FAST-NEXT: retq
		;
		; AVX2-SLOW-LABEL: add_pd_010:
		; AVX2-SLOW: # %bb.0:
		; AVX2-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm0[0,0]
		; AVX2-SLOW-NEXT: vaddpd %xmm0, %xmm1, %xmm0
		; AVX2-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
		; AVX2-SLOW-NEXT: retq
		;
		; AVX2-FAST-LABEL: add_pd_010:
		; AVX2-FAST: # %bb.0:
		; AVX2-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
		; AVX2-FAST-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
		; AVX2-FAST-NEXT: retq
%l = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 undef, i32 0>		%l = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 undef, i32 0>
%add = fadd <2 x double> %l, %x		%add = fadd <2 x double> %l, %x
%shuffle2 = shufflevector <2 x double> %add, <2 x double> undef, <2 x i32> <i32 1, i32 undef>		%shuffle2 = shufflevector <2 x double> %add, <2 x double> undef, <2 x i32> <i32 1, i32 undef>
ret <2 x double> %shuffle2		ret <2 x double> %shuffle2
}		}

define <4 x float> @add_ps_007(<4 x float> %x) {		define <4 x float> @add_ps_007(<4 x float> %x) {
; SSE-LABEL: add_ps_007:		; SSE-SLOW-LABEL: add_ps_007:
; SSE: # %bb.0:		; SSE-SLOW: # %bb.0:
; SSE-NEXT: haddps %xmm0, %xmm0		; SSE-SLOW-NEXT: movaps %xmm0, %xmm1
; SSE-NEXT: retq		; SSE-SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,2]
;		; SSE-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]
; AVX-LABEL: add_ps_007:		; SSE-SLOW-NEXT: addps %xmm1, %xmm0
; AVX: # %bb.0:		; SSE-SLOW-NEXT: retq
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		;
; AVX-NEXT: retq		; SSE-FAST-LABEL: add_ps_007:
		; SSE-FAST: # %bb.0:
		; SSE-FAST-NEXT: haddps %xmm0, %xmm0
		; SSE-FAST-NEXT: retq
		;
		; AVX1-SLOW-LABEL: add_ps_007:
		; AVX1-SLOW: # %bb.0:
		; AVX1-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,1,0,2]
		; AVX1-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,3]
		; AVX1-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX1-SLOW-NEXT: retq
		;
		; AVX1-FAST-LABEL: add_ps_007:
		; AVX1-FAST: # %bb.0:
		; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX1-FAST-NEXT: retq
		;
		; AVX2-SLOW-LABEL: add_ps_007:
		; AVX2-SLOW: # %bb.0:
		; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,1,0,2]
		; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,3]
		; AVX2-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX2-SLOW-NEXT: retq
		;
		; AVX2-FAST-LABEL: add_ps_007:
		; AVX2-FAST: # %bb.0:
		; AVX2-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX2-FAST-NEXT: retq
%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 2>		%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 2>
%r = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 3>		%r = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 3>
%add = fadd <4 x float> %l, %r		%add = fadd <4 x float> %l, %r
ret <4 x float> %add		ret <4 x float> %add
}		}

define <4 x float> @add_ps_030(<4 x float> %x) {		define <4 x float> @add_ps_030(<4 x float> %x) {
; SSE-LABEL: add_ps_030:		; SSE-SLOW-LABEL: add_ps_030:
; SSE: # %bb.0:		; SSE-SLOW: # %bb.0:
; SSE-NEXT: haddps %xmm0, %xmm0		; SSE-SLOW-NEXT: movaps %xmm0, %xmm1
; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,2,2,3]		; SSE-SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[0,2]
; SSE-NEXT: retq		; SSE-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]
;		; SSE-SLOW-NEXT: addps %xmm1, %xmm0
; AVX-LABEL: add_ps_030:		; SSE-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,2,2,3]
; AVX: # %bb.0:		; SSE-SLOW-NEXT: retq
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		;
; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,2,3]		; SSE-FAST-LABEL: add_ps_030:
; AVX-NEXT: retq		; SSE-FAST: # %bb.0:
		; SSE-FAST-NEXT: haddps %xmm0, %xmm0
		; SSE-FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,2,2,3]
		; SSE-FAST-NEXT: retq
		;
		; AVX1-SLOW-LABEL: add_ps_030:
		; AVX1-SLOW: # %bb.0:
		; AVX1-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,1,0,2]
		; AVX1-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,3]
		; AVX1-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX1-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,2,3]
		; AVX1-SLOW-NEXT: retq
		;
		; AVX1-FAST-LABEL: add_ps_030:
		; AVX1-FAST: # %bb.0:
		; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX1-FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,2,3]
		; AVX1-FAST-NEXT: retq
		;
		; AVX2-SLOW-LABEL: add_ps_030:
		; AVX2-SLOW: # %bb.0:
		; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,1,0,2]
		; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,3]
		; AVX2-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,2,3]
		; AVX2-SLOW-NEXT: retq
		;
		; AVX2-FAST-LABEL: add_ps_030:
		; AVX2-FAST: # %bb.0:
		; AVX2-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX2-FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,2,2,3]
		; AVX2-FAST-NEXT: retq
%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 2>		%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 2>
%r = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 3>		%r = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 3>
%add = fadd <4 x float> %l, %r		%add = fadd <4 x float> %l, %r
%shuffle2 = shufflevector <4 x float> %add, <4 x float> undef, <4 x i32> <i32 3, i32 2, i32 undef, i32 undef>		%shuffle2 = shufflevector <4 x float> %add, <4 x float> undef, <4 x i32> <i32 3, i32 2, i32 undef, i32 undef>
ret <4 x float> %shuffle2		ret <4 x float> %shuffle2
}		}

define <4 x float> @add_ps_007_2(<4 x float> %x) {		define <4 x float> @add_ps_007_2(<4 x float> %x) {
; SSE-LABEL: add_ps_007_2:		; SSE-SLOW-LABEL: add_ps_007_2:
; SSE: # %bb.0:		; SSE-SLOW: # %bb.0:
; SSE-NEXT: haddps %xmm0, %xmm0		; SSE-SLOW-NEXT: movddup {{.*#+}} xmm1 = xmm0[0,0]
; SSE-NEXT: retq		; SSE-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]
;		; SSE-SLOW-NEXT: addps %xmm1, %xmm0
; AVX-LABEL: add_ps_007_2:		; SSE-SLOW-NEXT: retq
; AVX: # %bb.0:		;
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; SSE-FAST-LABEL: add_ps_007_2:
; AVX-NEXT: retq		; SSE-FAST: # %bb.0:
		; SSE-FAST-NEXT: haddps %xmm0, %xmm0
		; SSE-FAST-NEXT: retq
		;
		; AVX1-SLOW-LABEL: add_ps_007_2:
		; AVX1-SLOW: # %bb.0:
		; AVX1-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm0[0,0]
		; AVX1-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,3]
		; AVX1-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX1-SLOW-NEXT: retq
		;
		; AVX1-FAST-LABEL: add_ps_007_2:
		; AVX1-FAST: # %bb.0:
		; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX1-FAST-NEXT: retq
		;
		; AVX2-SLOW-LABEL: add_ps_007_2:
		; AVX2-SLOW: # %bb.0:
		; AVX2-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm0[0,0]
		; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,3]
		; AVX2-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX2-SLOW-NEXT: retq
		;
		; AVX2-FAST-LABEL: add_ps_007_2:
		; AVX2-FAST: # %bb.0:
		; AVX2-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX2-FAST-NEXT: retq
%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 undef>		%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 undef>
%r = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 undef>		%r = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 undef>
%add = fadd <4 x float> %l, %r		%add = fadd <4 x float> %l, %r
ret <4 x float> %add		ret <4 x float> %add
}		}

define <4 x float> @add_ps_008(<4 x float> %x) {		define <4 x float> @add_ps_008(<4 x float> %x) {
; SSE-LABEL: add_ps_008:		; SSE-SLOW-LABEL: add_ps_008:
; SSE: # %bb.0:		; SSE-SLOW: # %bb.0:
; SSE-NEXT: haddps %xmm0, %xmm0		; SSE-SLOW-NEXT: movsldup {{.*#+}} xmm1 = xmm0[0,0,2,2]
; SSE-NEXT: retq		; SSE-SLOW-NEXT: addps %xmm1, %xmm0
;		; SSE-SLOW-NEXT: retq
; AVX-LABEL: add_ps_008:		;
; AVX: # %bb.0:		; SSE-FAST-LABEL: add_ps_008:
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; SSE-FAST: # %bb.0:
; AVX-NEXT: retq		; SSE-FAST-NEXT: haddps %xmm0, %xmm0
		; SSE-FAST-NEXT: retq
		;
		; AVX1-SLOW-LABEL: add_ps_008:
		; AVX1-SLOW: # %bb.0:
		; AVX1-SLOW-NEXT: vmovsldup {{.*#+}} xmm1 = xmm0[0,0,2,2]
		; AVX1-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX1-SLOW-NEXT: retq
		;
		; AVX1-FAST-LABEL: add_ps_008:
		; AVX1-FAST: # %bb.0:
		; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX1-FAST-NEXT: retq
		;
		; AVX2-SLOW-LABEL: add_ps_008:
		; AVX2-SLOW: # %bb.0:
		; AVX2-SLOW-NEXT: vmovsldup {{.*#+}} xmm1 = xmm0[0,0,2,2]
		; AVX2-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX2-SLOW-NEXT: retq
		;
		; AVX2-FAST-LABEL: add_ps_008:
		; AVX2-FAST: # %bb.0:
		; AVX2-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX2-FAST-NEXT: retq
%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>		%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>
%add = fadd <4 x float> %l, %x		%add = fadd <4 x float> %l, %x
ret <4 x float> %add		ret <4 x float> %add
}		}

define <4 x float> @add_ps_017(<4 x float> %x) {		define <4 x float> @add_ps_017(<4 x float> %x) {
; SSE-LABEL: add_ps_017:		; SSE-SLOW-LABEL: add_ps_017:
; SSE: # %bb.0:		; SSE-SLOW: # %bb.0:
; SSE-NEXT: haddps %xmm0, %xmm0		; SSE-SLOW-NEXT: movsldup {{.*#+}} xmm1 = xmm0[0,0,2,2]
; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]		; SSE-SLOW-NEXT: addps %xmm0, %xmm1
; SSE-NEXT: retq		; SSE-SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1,2,3]
;		; SSE-SLOW-NEXT: movaps %xmm1, %xmm0
; AVX-LABEL: add_ps_017:		; SSE-SLOW-NEXT: retq
; AVX: # %bb.0:		;
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; SSE-FAST-LABEL: add_ps_017:
; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]		; SSE-FAST: # %bb.0:
; AVX-NEXT: retq		; SSE-FAST-NEXT: haddps %xmm0, %xmm0
		; SSE-FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]
		; SSE-FAST-NEXT: retq
		;
		; AVX1-SLOW-LABEL: add_ps_017:
		; AVX1-SLOW: # %bb.0:
		; AVX1-SLOW-NEXT: vmovsldup {{.*#+}} xmm1 = xmm0[0,0,2,2]
		; AVX1-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX1-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
		; AVX1-SLOW-NEXT: retq
		;
		; AVX1-FAST-LABEL: add_ps_017:
		; AVX1-FAST: # %bb.0:
		; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX1-FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
		; AVX1-FAST-NEXT: retq
		;
		; AVX2-SLOW-LABEL: add_ps_017:
		; AVX2-SLOW: # %bb.0:
		; AVX2-SLOW-NEXT: vmovsldup {{.*#+}} xmm1 = xmm0[0,0,2,2]
		; AVX2-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
		; AVX2-SLOW-NEXT: retq
		;
		; AVX2-FAST-LABEL: add_ps_017:
		; AVX2-FAST: # %bb.0:
		; AVX2-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX2-FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
		; AVX2-FAST-NEXT: retq
%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>		%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>
%add = fadd <4 x float> %l, %x		%add = fadd <4 x float> %l, %x
%shuffle2 = shufflevector <4 x float> %add, <4 x float> undef, <4 x i32> <i32 3, i32 undef, i32 undef, i32 undef>		%shuffle2 = shufflevector <4 x float> %add, <4 x float> undef, <4 x i32> <i32 3, i32 undef, i32 undef, i32 undef>
ret <4 x float> %shuffle2		ret <4 x float> %shuffle2
}		}

define <4 x float> @add_ps_018(<4 x float> %x) {		define <4 x float> @add_ps_018(<4 x float> %x) {
; SSE-LABEL: add_ps_018:		; SSE-SLOW-LABEL: add_ps_018:
; SSE: # %bb.0:		; SSE-SLOW: # %bb.0:
; SSE-NEXT: haddps %xmm0, %xmm0		; SSE-SLOW-NEXT: movddup {{.*#+}} xmm1 = xmm0[0,0]
; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2,2,3]		; SSE-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1,1,3]
; SSE-NEXT: retq		; SSE-SLOW-NEXT: addps %xmm1, %xmm0
;		; SSE-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2,2,3]
; AVX-LABEL: add_ps_018:		; SSE-SLOW-NEXT: retq
; AVX: # %bb.0:		;
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; SSE-FAST-LABEL: add_ps_018:
; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]		; SSE-FAST: # %bb.0:
; AVX-NEXT: retq		; SSE-FAST-NEXT: haddps %xmm0, %xmm0
		; SSE-FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; SSE-FAST-NEXT: retq
		;
		; AVX1-SLOW-LABEL: add_ps_018:
		; AVX1-SLOW: # %bb.0:
		; AVX1-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm0[0,0]
		; AVX1-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,3]
		; AVX1-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX1-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; AVX1-SLOW-NEXT: retq
		;
		; AVX1-FAST-LABEL: add_ps_018:
		; AVX1-FAST: # %bb.0:
		; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX1-FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; AVX1-FAST-NEXT: retq
		;
		; AVX2-SLOW-LABEL: add_ps_018:
		; AVX2-SLOW: # %bb.0:
		; AVX2-SLOW-NEXT: vmovddup {{.*#+}} xmm1 = xmm0[0,0]
		; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,1,1,3]
		; AVX2-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
		; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; AVX2-SLOW-NEXT: retq
		;
		; AVX2-FAST-LABEL: add_ps_018:
		; AVX2-FAST: # %bb.0:
		; AVX2-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
		; AVX2-FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]
		; AVX2-FAST-NEXT: retq
%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 undef>		%l = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 undef>
%r = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 undef>		%r = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 undef>
%add = fadd <4 x float> %l, %r		%add = fadd <4 x float> %l, %r
%shuffle2 = shufflevector <4 x float> %add, <4 x float> undef, <4 x i32> <i32 undef, i32 2, i32 undef, i32 undef>		%shuffle2 = shufflevector <4 x float> %add, <4 x float> undef, <4 x i32> <i32 undef, i32 2, i32 undef, i32 undef>
ret <4 x float> %shuffle2		ret <4 x float> %shuffle2
}		}

llvm/trunk/test/CodeGen/X86/haddsub.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse3 \| FileCheck %s --check-prefix=SSE3			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse3 \| FileCheck %s --check-prefixes=SSE3,SSE3-SLOW
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+sse3,fast-hops \| FileCheck %s --check-prefixes=SSE3,SSE3-FAST
				; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX-SLOW
				; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx,fast-hops \| FileCheck %s --check-prefixes=AVX,AVX-FAST

	define <2 x double> @haddpd1(<2 x double> %x, <2 x double> %y) {			define <2 x double> @haddpd1(<2 x double> %x, <2 x double> %y) {
	; SSE3-LABEL: haddpd1:			; SSE3-LABEL: haddpd1:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: haddpd %xmm1, %xmm0			; SSE3-NEXT: haddpd %xmm1, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: haddpd1:			; AVX-LABEL: haddpd1:
	Show All 18 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a = shufflevector <2 x double> %x, <2 x double> %y, <2 x i32> <i32 1, i32 2>			%a = shufflevector <2 x double> %x, <2 x double> %y, <2 x i32> <i32 1, i32 2>
	%b = shufflevector <2 x double> %y, <2 x double> %x, <2 x i32> <i32 2, i32 1>			%b = shufflevector <2 x double> %y, <2 x double> %x, <2 x i32> <i32 2, i32 1>
	%r = fadd <2 x double> %a, %b			%r = fadd <2 x double> %a, %b
	ret <2 x double> %r			ret <2 x double> %r
	}			}

	define <2 x double> @haddpd3(<2 x double> %x) {			define <2 x double> @haddpd3(<2 x double> %x) {
	; SSE3-LABEL: haddpd3:			; SSE3-SLOW-LABEL: haddpd3:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: haddpd %xmm0, %xmm0			; SSE3-SLOW-NEXT: movapd %xmm0, %xmm1
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	;			; SSE3-SLOW-NEXT: addpd %xmm0, %xmm1
	; AVX-LABEL: haddpd3:			; SSE3-SLOW-NEXT: movapd %xmm1, %xmm0
	; AVX: # %bb.0:			; SSE3-SLOW-NEXT: retq
	; AVX-NEXT: vhaddpd %xmm0, %xmm0, %xmm0			;
	; AVX-NEXT: retq			; SSE3-FAST-LABEL: haddpd3:
				; SSE3-FAST: # %bb.0:
				; SSE3-FAST-NEXT: haddpd %xmm0, %xmm0
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: haddpd3:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; AVX-SLOW-NEXT: vaddpd %xmm1, %xmm0, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: haddpd3:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhaddpd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 0, i32 undef>			%a = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 0, i32 undef>
	%b = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 1, i32 undef>			%b = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 1, i32 undef>
	%r = fadd <2 x double> %a, %b			%r = fadd <2 x double> %a, %b
	ret <2 x double> %r			ret <2 x double> %r
	}			}

	define <4 x float> @haddps1(<4 x float> %x, <4 x float> %y) {			define <4 x float> @haddps1(<4 x float> %x, <4 x float> %y) {
	; SSE3-LABEL: haddps1:			; SSE3-LABEL: haddps1:
	Show All 23 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a = shufflevector <4 x float> %x, <4 x float> %y, <4 x i32> <i32 1, i32 2, i32 5, i32 6>			%a = shufflevector <4 x float> %x, <4 x float> %y, <4 x i32> <i32 1, i32 2, i32 5, i32 6>
	%b = shufflevector <4 x float> %y, <4 x float> %x, <4 x i32> <i32 4, i32 7, i32 0, i32 3>			%b = shufflevector <4 x float> %y, <4 x float> %x, <4 x i32> <i32 4, i32 7, i32 0, i32 3>
	%r = fadd <4 x float> %a, %b			%r = fadd <4 x float> %a, %b
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define <4 x float> @haddps3(<4 x float> %x) {			define <4 x float> @haddps3(<4 x float> %x) {
	; SSE3-LABEL: haddps3:			; SSE3-SLOW-LABEL: haddps3:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-SLOW-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[2,3]
	;			; SSE3-SLOW-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; AVX-LABEL: haddps3:			; SSE3-SLOW-NEXT: addps %xmm1, %xmm0
	; AVX: # %bb.0:			; SSE3-SLOW-NEXT: retq
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			;
	; AVX-NEXT: retq			; SSE3-FAST-LABEL: haddps3:
				; SSE3-FAST: # %bb.0:
				; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: haddps3:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]
				; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: haddps3:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 2, i32 4, i32 6>			%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 2, i32 4, i32 6>
	%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 3, i32 5, i32 7>			%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 3, i32 5, i32 7>
	%r = fadd <4 x float> %a, %b			%r = fadd <4 x float> %a, %b
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define <4 x float> @haddps4(<4 x float> %x) {			define <4 x float> @haddps4(<4 x float> %x) {
	; SSE3-LABEL: haddps4:			; SSE3-SLOW-LABEL: haddps4:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-SLOW-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[2,3]
	;			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX-LABEL: haddps4:			; SSE3-SLOW-NEXT: addps %xmm1, %xmm0
	; AVX: # %bb.0:			; SSE3-SLOW-NEXT: retq
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			;
	; AVX-NEXT: retq			; SSE3-FAST-LABEL: haddps4:
				; SSE3-FAST: # %bb.0:
				; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: haddps4:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
				; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: haddps4:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>			%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>
	%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>			%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>
	%r = fadd <4 x float> %a, %b			%r = fadd <4 x float> %a, %b
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define <4 x float> @haddps5(<4 x float> %x) {			define <4 x float> @haddps5(<4 x float> %x) {
	; SSE3-LABEL: haddps5:			; SSE3-SLOW-LABEL: haddps5:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-SLOW-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,3],xmm0[2,3]
	;			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,2,2,3]
	; AVX-LABEL: haddps5:			; SSE3-SLOW-NEXT: addps %xmm1, %xmm0
	; AVX: # %bb.0:			; SSE3-SLOW-NEXT: retq
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			;
	; AVX-NEXT: retq			; SSE3-FAST-LABEL: haddps5:
				; SSE3-FAST: # %bb.0:
				; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: haddps5:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,3,2,3]
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,2,2,3]
				; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: haddps5:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 0, i32 3, i32 undef, i32 undef>			%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 0, i32 3, i32 undef, i32 undef>
	%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 1, i32 2, i32 undef, i32 undef>			%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 1, i32 2, i32 undef, i32 undef>
	%r = fadd <4 x float> %a, %b			%r = fadd <4 x float> %a, %b
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define <4 x float> @haddps6(<4 x float> %x) {			define <4 x float> @haddps6(<4 x float> %x) {
	; SSE3-LABEL: haddps6:			; SSE3-SLOW-LABEL: haddps6:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-SLOW-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: addps %xmm1, %xmm0
	;			; SSE3-SLOW-NEXT: retq
	; AVX-LABEL: haddps6:			;
	; AVX: # %bb.0:			; SSE3-FAST-LABEL: haddps6:
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; SSE3-FAST: # %bb.0:
	; AVX-NEXT: retq			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: haddps6:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
				; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: haddps6:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 0, i32 undef, i32 undef, i32 undef>			%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 0, i32 undef, i32 undef, i32 undef>
	%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%r = fadd <4 x float> %a, %b			%r = fadd <4 x float> %a, %b
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define <4 x float> @haddps7(<4 x float> %x) {			define <4 x float> @haddps7(<4 x float> %x) {
	; SSE3-LABEL: haddps7:			; SSE3-SLOW-LABEL: haddps7:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-SLOW-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	;			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX-LABEL: haddps7:			; SSE3-SLOW-NEXT: addps %xmm1, %xmm0
	; AVX: # %bb.0:			; SSE3-SLOW-NEXT: retq
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0			;
	; AVX-NEXT: retq			; SSE3-FAST-LABEL: haddps7:
				; SSE3-FAST: # %bb.0:
				; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: haddps7:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]
				; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: haddps7:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 3, i32 undef, i32 undef>			%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 3, i32 undef, i32 undef>
	%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 2, i32 undef, i32 undef>			%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 2, i32 undef, i32 undef>
	%r = fadd <4 x float> %a, %b			%r = fadd <4 x float> %a, %b
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define <2 x double> @hsubpd1(<2 x double> %x, <2 x double> %y) {			define <2 x double> @hsubpd1(<2 x double> %x, <2 x double> %y) {
	; SSE3-LABEL: hsubpd1:			; SSE3-LABEL: hsubpd1:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: hsubpd %xmm1, %xmm0			; SSE3-NEXT: hsubpd %xmm1, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: hsubpd1:			; AVX-LABEL: hsubpd1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vhsubpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vhsubpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a = shufflevector <2 x double> %x, <2 x double> %y, <2 x i32> <i32 0, i32 2>			%a = shufflevector <2 x double> %x, <2 x double> %y, <2 x i32> <i32 0, i32 2>
	%b = shufflevector <2 x double> %x, <2 x double> %y, <2 x i32> <i32 1, i32 3>			%b = shufflevector <2 x double> %x, <2 x double> %y, <2 x i32> <i32 1, i32 3>
	%r = fsub <2 x double> %a, %b			%r = fsub <2 x double> %a, %b
	ret <2 x double> %r			ret <2 x double> %r
	}			}

	define <2 x double> @hsubpd2(<2 x double> %x) {			define <2 x double> @hsubpd2(<2 x double> %x) {
	; SSE3-LABEL: hsubpd2:			; SSE3-SLOW-LABEL: hsubpd2:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: hsubpd %xmm0, %xmm0			; SSE3-SLOW-NEXT: movapd %xmm0, %xmm1
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	;			; SSE3-SLOW-NEXT: subpd %xmm1, %xmm0
	; AVX-LABEL: hsubpd2:			; SSE3-SLOW-NEXT: retq
	; AVX: # %bb.0:			;
	; AVX-NEXT: vhsubpd %xmm0, %xmm0, %xmm0			; SSE3-FAST-LABEL: hsubpd2:
	; AVX-NEXT: retq			; SSE3-FAST: # %bb.0:
				; SSE3-FAST-NEXT: hsubpd %xmm0, %xmm0
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: hsubpd2:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; AVX-SLOW-NEXT: vsubpd %xmm1, %xmm0, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: hsubpd2:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhsubpd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 0, i32 undef>			%a = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 0, i32 undef>
	%b = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 1, i32 undef>			%b = shufflevector <2 x double> %x, <2 x double> undef, <2 x i32> <i32 1, i32 undef>
	%r = fsub <2 x double> %a, %b			%r = fsub <2 x double> %a, %b
	ret <2 x double> %r			ret <2 x double> %r
	}			}

	define <4 x float> @hsubps1(<4 x float> %x, <4 x float> %y) {			define <4 x float> @hsubps1(<4 x float> %x, <4 x float> %y) {
	; SSE3-LABEL: hsubps1:			; SSE3-LABEL: hsubps1:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: hsubps %xmm1, %xmm0			; SSE3-NEXT: hsubps %xmm1, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: hsubps1:			; AVX-LABEL: hsubps1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vhsubps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vhsubps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a = shufflevector <4 x float> %x, <4 x float> %y, <4 x i32> <i32 0, i32 2, i32 4, i32 6>			%a = shufflevector <4 x float> %x, <4 x float> %y, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
	%b = shufflevector <4 x float> %x, <4 x float> %y, <4 x i32> <i32 1, i32 3, i32 5, i32 7>			%b = shufflevector <4 x float> %x, <4 x float> %y, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
	%r = fsub <4 x float> %a, %b			%r = fsub <4 x float> %a, %b
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define <4 x float> @hsubps2(<4 x float> %x) {			define <4 x float> @hsubps2(<4 x float> %x) {
	; SSE3-LABEL: hsubps2:			; SSE3-SLOW-LABEL: hsubps2:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: hsubps %xmm0, %xmm0			; SSE3-SLOW-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[2,3]
	;			; SSE3-SLOW-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; AVX-LABEL: hsubps2:			; SSE3-SLOW-NEXT: subps %xmm0, %xmm1
	; AVX: # %bb.0:			; SSE3-SLOW-NEXT: movaps %xmm1, %xmm0
	; AVX-NEXT: vhsubps %xmm0, %xmm0, %xmm0			; SSE3-SLOW-NEXT: retq
	; AVX-NEXT: retq			;
				; SSE3-FAST-LABEL: hsubps2:
				; SSE3-FAST: # %bb.0:
				; SSE3-FAST-NEXT: hsubps %xmm0, %xmm0
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: hsubps2:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]
				; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX-SLOW-NEXT: vsubps %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: hsubps2:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhsubps %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 2, i32 4, i32 6>			%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 2, i32 4, i32 6>
	%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 3, i32 5, i32 7>			%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 undef, i32 3, i32 5, i32 7>
	%r = fsub <4 x float> %a, %b			%r = fsub <4 x float> %a, %b
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define <4 x float> @hsubps3(<4 x float> %x) {			define <4 x float> @hsubps3(<4 x float> %x) {
	; SSE3-LABEL: hsubps3:			; SSE3-SLOW-LABEL: hsubps3:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: hsubps %xmm0, %xmm0			; SSE3-SLOW-NEXT: movaps %xmm0, %xmm1
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm0[2,3]
	;			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX-LABEL: hsubps3:			; SSE3-SLOW-NEXT: subps %xmm0, %xmm1
	; AVX: # %bb.0:			; SSE3-SLOW-NEXT: movaps %xmm1, %xmm0
	; AVX-NEXT: vhsubps %xmm0, %xmm0, %xmm0			; SSE3-SLOW-NEXT: retq
	; AVX-NEXT: retq			;
				; SSE3-FAST-LABEL: hsubps3:
				; SSE3-FAST: # %bb.0:
				; SSE3-FAST-NEXT: hsubps %xmm0, %xmm0
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: hsubps3:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
				; AVX-SLOW-NEXT: vsubps %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: hsubps3:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhsubps %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>			%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>
	%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>			%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>
	%r = fsub <4 x float> %a, %b			%r = fsub <4 x float> %a, %b
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define <4 x float> @hsubps4(<4 x float> %x) {			define <4 x float> @hsubps4(<4 x float> %x) {
	; SSE3-LABEL: hsubps4:			; SSE3-SLOW-LABEL: hsubps4:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: hsubps %xmm0, %xmm0			; SSE3-SLOW-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: subps %xmm1, %xmm0
	;			; SSE3-SLOW-NEXT: retq
	; AVX-LABEL: hsubps4:			;
	; AVX: # %bb.0:			; SSE3-FAST-LABEL: hsubps4:
	; AVX-NEXT: vhsubps %xmm0, %xmm0, %xmm0			; SSE3-FAST: # %bb.0:
	; AVX-NEXT: retq			; SSE3-FAST-NEXT: hsubps %xmm0, %xmm0
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: hsubps4:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
				; AVX-SLOW-NEXT: vsubps %xmm1, %xmm0, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: hsubps4:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhsubps %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 0, i32 undef, i32 undef, i32 undef>			%a = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 0, i32 undef, i32 undef, i32 undef>
	%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%b = shufflevector <4 x float> %x, <4 x float> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%r = fsub <4 x float> %a, %b			%r = fsub <4 x float> %a, %b
	ret <4 x float> %r			ret <4 x float> %r
	}			}

	define <8 x float> @vhaddps1(<8 x float> %x, <8 x float> %y) {			define <8 x float> @vhaddps1(<8 x float> %x, <8 x float> %y) {
	; SSE3-LABEL: vhaddps1:			; SSE3-LABEL: vhaddps1:
	Show All 25 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a = shufflevector <8 x float> %x, <8 x float> %y, <8 x i32> <i32 1, i32 2, i32 9, i32 10, i32 5, i32 6, i32 13, i32 14>			%a = shufflevector <8 x float> %x, <8 x float> %y, <8 x i32> <i32 1, i32 2, i32 9, i32 10, i32 5, i32 6, i32 13, i32 14>
	%b = shufflevector <8 x float> %y, <8 x float> %x, <8 x i32> <i32 8, i32 11, i32 0, i32 3, i32 12, i32 15, i32 4, i32 7>			%b = shufflevector <8 x float> %y, <8 x float> %x, <8 x i32> <i32 8, i32 11, i32 0, i32 3, i32 12, i32 15, i32 4, i32 7>
	%r = fadd <8 x float> %a, %b			%r = fadd <8 x float> %a, %b
	ret <8 x float> %r			ret <8 x float> %r
	}			}

	define <8 x float> @vhaddps3(<8 x float> %x) {			define <8 x float> @vhaddps3(<8 x float> %x) {
	; SSE3-LABEL: vhaddps3:			; SSE3-SLOW-LABEL: vhaddps3:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: haddps %xmm0, %xmm0			; SSE3-SLOW-NEXT: movaps %xmm1, %xmm2
	; SSE3-NEXT: haddps %xmm1, %xmm1			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm1[2,3]
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: movaps %xmm0, %xmm3
	;			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,2],xmm0[2,3]
	; AVX-LABEL: vhaddps3:			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,3,2,3]
	; AVX: # %bb.0:			; SSE3-SLOW-NEXT: addps %xmm2, %xmm1
	; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX-NEXT: retq			; SSE3-SLOW-NEXT: addps %xmm3, %xmm0
				; SSE3-SLOW-NEXT: retq
				;
				; SSE3-FAST-LABEL: vhaddps3:
				; SSE3-FAST: # %bb.0:
				; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
				; SSE3-FAST-NEXT: haddps %xmm1, %xmm1
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: vhaddps3:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
				; AVX-SLOW-NEXT: vaddps %ymm0, %ymm1, %ymm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: vhaddps3:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhaddps %ymm0, %ymm0, %ymm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 undef, i32 2, i32 8, i32 10, i32 4, i32 6, i32 undef, i32 14>			%a = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 undef, i32 2, i32 8, i32 10, i32 4, i32 6, i32 undef, i32 14>
	%b = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 9, i32 undef, i32 5, i32 7, i32 13, i32 15>			%b = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 9, i32 undef, i32 5, i32 7, i32 13, i32 15>
	%r = fadd <8 x float> %a, %b			%r = fadd <8 x float> %a, %b
	ret <8 x float> %r			ret <8 x float> %r
	}			}

	define <8 x float> @vhsubps1(<8 x float> %x, <8 x float> %y) {			define <8 x float> @vhsubps1(<8 x float> %x, <8 x float> %y) {
	; SSE3-LABEL: vhsubps1:			; SSE3-LABEL: vhsubps1:
	; SSE3: # %bb.0:			; SSE3: # %bb.0:
	; SSE3-NEXT: hsubps %xmm2, %xmm0			; SSE3-NEXT: hsubps %xmm2, %xmm0
	; SSE3-NEXT: hsubps %xmm3, %xmm1			; SSE3-NEXT: hsubps %xmm3, %xmm1
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; AVX-LABEL: vhsubps1:			; AVX-LABEL: vhsubps1:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vhsubps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vhsubps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a = shufflevector <8 x float> %x, <8 x float> %y, <8 x i32> <i32 0, i32 2, i32 8, i32 10, i32 4, i32 6, i32 12, i32 14>			%a = shufflevector <8 x float> %x, <8 x float> %y, <8 x i32> <i32 0, i32 2, i32 8, i32 10, i32 4, i32 6, i32 12, i32 14>
	%b = shufflevector <8 x float> %x, <8 x float> %y, <8 x i32> <i32 1, i32 3, i32 9, i32 11, i32 5, i32 7, i32 13, i32 15>			%b = shufflevector <8 x float> %x, <8 x float> %y, <8 x i32> <i32 1, i32 3, i32 9, i32 11, i32 5, i32 7, i32 13, i32 15>
	%r = fsub <8 x float> %a, %b			%r = fsub <8 x float> %a, %b
	ret <8 x float> %r			ret <8 x float> %r
	}			}

	define <8 x float> @vhsubps3(<8 x float> %x) {			define <8 x float> @vhsubps3(<8 x float> %x) {
	; SSE3-LABEL: vhsubps3:			; SSE3-SLOW-LABEL: vhsubps3:
	; SSE3: # %bb.0:			; SSE3-SLOW: # %bb.0:
	; SSE3-NEXT: hsubps %xmm0, %xmm0			; SSE3-SLOW-NEXT: movaps %xmm1, %xmm2
	; SSE3-NEXT: hsubps %xmm1, %xmm1			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm1[2,3]
	; SSE3-NEXT: retq			; SSE3-SLOW-NEXT: movaps %xmm0, %xmm3
	;			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,2],xmm0[2,3]
	; AVX-LABEL: vhsubps3:			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,3,2,3]
	; AVX: # %bb.0:			; SSE3-SLOW-NEXT: subps %xmm1, %xmm2
	; AVX-NEXT: vhsubps %ymm0, %ymm0, %ymm0			; SSE3-SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX-NEXT: retq			; SSE3-SLOW-NEXT: subps %xmm0, %xmm3
				; SSE3-SLOW-NEXT: movaps %xmm3, %xmm0
				; SSE3-SLOW-NEXT: movaps %xmm2, %xmm1
				; SSE3-SLOW-NEXT: retq
				;
				; SSE3-FAST-LABEL: vhsubps3:
				; SSE3-FAST: # %bb.0:
				; SSE3-FAST-NEXT: hsubps %xmm0, %xmm0
				; SSE3-FAST-NEXT: hsubps %xmm1, %xmm1
				; SSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: vhsubps3:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm0[0,2,2,3,4,6,6,7]
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]
				; AVX-SLOW-NEXT: vsubps %ymm0, %ymm1, %ymm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: vhsubps3:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhsubps %ymm0, %ymm0, %ymm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 undef, i32 2, i32 8, i32 10, i32 4, i32 6, i32 undef, i32 14>			%a = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 undef, i32 2, i32 8, i32 10, i32 4, i32 6, i32 undef, i32 14>
	%b = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 9, i32 undef, i32 5, i32 7, i32 13, i32 15>			%b = shufflevector <8 x float> %x, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 9, i32 undef, i32 5, i32 7, i32 13, i32 15>
	%r = fsub <8 x float> %a, %b			%r = fsub <8 x float> %a, %b
	ret <8 x float> %r			ret <8 x float> %r
	}			}

	define <4 x double> @vhaddpd1(<4 x double> %x, <4 x double> %y) {			define <4 x double> @vhaddpd1(<4 x double> %x, <4 x double> %y) {
	; SSE3-LABEL: vhaddpd1:			; SSE3-LABEL: vhaddpd1:
	▲ Show 20 Lines • Show All 53 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/madd.ll

	Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpmulld %xmm1, %xmm2, %xmm1			; AVX-NEXT: vpmulld %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: addq $8, %rcx			; AVX-NEXT: addq $8, %rcx
	; AVX-NEXT: cmpq %rcx, %rax			; AVX-NEXT: cmpq %rcx, %rax
	; AVX-NEXT: jne .LBB0_1			; AVX-NEXT: jne .LBB0_1
	; AVX-NEXT: # %bb.2: # %middle.block			; AVX-NEXT: # %bb.2: # %middle.block
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ %index.next, %vector.body ], [ 0, %entry ]			%index = phi i64 [ %index.next, %vector.body ], [ 0, %entry ]
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: addq $8, %rcx			; AVX1-NEXT: addq $8, %rcx
	; AVX1-NEXT: cmpq %rcx, %rax			; AVX1-NEXT: cmpq %rcx, %rax
	; AVX1-NEXT: jne .LBB1_1			; AVX1-NEXT: jne .LBB1_1
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX256-LABEL: _Z10test_shortPsS_i_256:			; AVX256-LABEL: _Z10test_shortPsS_i_256:
	; AVX256: # %bb.0: # %entry			; AVX256: # %bb.0: # %entry
	; AVX256-NEXT: movl %edx, %eax			; AVX256-NEXT: movl %edx, %eax
	; AVX256-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX256-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX256-NEXT: xorl %ecx, %ecx			; AVX256-NEXT: xorl %ecx, %ecx
	; AVX256-NEXT: .p2align 4, 0x90			; AVX256-NEXT: .p2align 4, 0x90
	; AVX256-NEXT: .LBB1_1: # %vector.body			; AVX256-NEXT: .LBB1_1: # %vector.body
	; AVX256-NEXT: # =>This Inner Loop Header: Depth=1			; AVX256-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX256-NEXT: vmovdqu (%rsi,%rcx,2), %xmm1			; AVX256-NEXT: vmovdqu (%rsi,%rcx,2), %xmm1
	; AVX256-NEXT: vpmaddwd (%rdi,%rcx,2), %xmm1, %xmm1			; AVX256-NEXT: vpmaddwd (%rdi,%rcx,2), %xmm1, %xmm1
	; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX256-NEXT: addq $8, %rcx			; AVX256-NEXT: addq $8, %rcx
	; AVX256-NEXT: cmpq %rcx, %rax			; AVX256-NEXT: cmpq %rcx, %rax
	; AVX256-NEXT: jne .LBB1_1			; AVX256-NEXT: jne .LBB1_1
	; AVX256-NEXT: # %bb.2: # %middle.block			; AVX256-NEXT: # %bb.2: # %middle.block
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: _Z10test_shortPsS_i_512:			; AVX2-LABEL: _Z10test_shortPsS_i_512:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: movl %edx, %eax			; AVX2-NEXT: movl %edx, %eax
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 9 Lines
	; AVX2-NEXT: cmpq %rcx, %rax			; AVX2-NEXT: cmpq %rcx, %rax
	; AVX2-NEXT: jne .LBB2_1			; AVX2-NEXT: jne .LBB2_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: _Z10test_shortPsS_i_512:			; AVX512-LABEL: _Z10test_shortPsS_i_512:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: movl %edx, %eax			; AVX512-NEXT: movl %edx, %eax
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 142 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpaddd %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpaddd %xmm0, %xmm8, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm8, %xmm0
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: _Z10test_shortPsS_i_1024:			; AVX2-LABEL: _Z10test_shortPsS_i_1024:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: movl %edx, %eax			; AVX2-NEXT: movl %edx, %eax
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 15 Lines
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: _Z10test_shortPsS_i_1024:			; AVX512F-LABEL: _Z10test_shortPsS_i_1024:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: movl %edx, %eax			; AVX512F-NEXT: movl %edx, %eax
	; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 134 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpmulld %xmm1, %xmm2, %xmm1			; AVX-NEXT: vpmulld %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: addq $16, %rcx			; AVX-NEXT: addq $16, %rcx
	; AVX-NEXT: cmpq %rcx, %rax			; AVX-NEXT: cmpq %rcx, %rax
	; AVX-NEXT: jne .LBB4_1			; AVX-NEXT: jne .LBB4_1
	; AVX-NEXT: # %bb.2: # %middle.block			; AVX-NEXT: # %bb.2: # %middle.block
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ %index.next, %vector.body ], [ 0, %entry ]			%index = phi i64 [ %index.next, %vector.body ], [ 0, %entry ]
	▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: addq $16, %rcx			; AVX1-NEXT: addq $16, %rcx
	; AVX1-NEXT: cmpq %rcx, %rax			; AVX1-NEXT: cmpq %rcx, %rax
	; AVX1-NEXT: jne .LBB5_1			; AVX1-NEXT: jne .LBB5_1
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX256-LABEL: _Z9test_charPcS_i_256:			; AVX256-LABEL: _Z9test_charPcS_i_256:
	; AVX256: # %bb.0: # %entry			; AVX256: # %bb.0: # %entry
	; AVX256-NEXT: movl %edx, %eax			; AVX256-NEXT: movl %edx, %eax
	; AVX256-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX256-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX256-NEXT: xorl %ecx, %ecx			; AVX256-NEXT: xorl %ecx, %ecx
	; AVX256-NEXT: .p2align 4, 0x90			; AVX256-NEXT: .p2align 4, 0x90
	; AVX256-NEXT: .LBB5_1: # %vector.body			; AVX256-NEXT: .LBB5_1: # %vector.body
	; AVX256-NEXT: # =>This Inner Loop Header: Depth=1			; AVX256-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX256-NEXT: vpmovsxbw (%rdi,%rcx), %xmm1			; AVX256-NEXT: vpmovsxbw (%rdi,%rcx), %xmm1
	; AVX256-NEXT: vpmovsxbw (%rsi,%rcx), %xmm2			; AVX256-NEXT: vpmovsxbw (%rsi,%rcx), %xmm2
	; AVX256-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1			; AVX256-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1
	; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX256-NEXT: addq $16, %rcx			; AVX256-NEXT: addq $16, %rcx
	; AVX256-NEXT: cmpq %rcx, %rax			; AVX256-NEXT: cmpq %rcx, %rax
	; AVX256-NEXT: jne .LBB5_1			; AVX256-NEXT: jne .LBB5_1
	; AVX256-NEXT: # %bb.2: # %middle.block			; AVX256-NEXT: # %bb.2: # %middle.block
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: _Z9test_charPcS_i_512:			; AVX2-LABEL: _Z9test_charPcS_i_512:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: movl %edx, %eax			; AVX2-NEXT: movl %edx, %eax
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 10 Lines
	; AVX2-NEXT: cmpq %rcx, %rax			; AVX2-NEXT: cmpq %rcx, %rax
	; AVX2-NEXT: jne .LBB6_1			; AVX2-NEXT: jne .LBB6_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: _Z9test_charPcS_i_512:			; AVX512-LABEL: _Z9test_charPcS_i_512:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: movl %edx, %eax			; AVX512-NEXT: movl %edx, %eax
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 159 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpaddd %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm5, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: _Z9test_charPcS_i_1024:			; AVX2-LABEL: _Z9test_charPcS_i_1024:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: movl %edx, %eax			; AVX2-NEXT: movl %edx, %eax
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 17 Lines
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: _Z9test_charPcS_i_1024:			; AVX512F-LABEL: _Z9test_charPcS_i_1024:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: movl %edx, %eax			; AVX512F-NEXT: movl %edx, %eax
	; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 132 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpmulld %xmm1, %xmm2, %xmm1			; AVX-NEXT: vpmulld %xmm1, %xmm2, %xmm1
	; AVX-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: addq $16, %rcx			; AVX-NEXT: addq $16, %rcx
	; AVX-NEXT: cmpq %rcx, %rax			; AVX-NEXT: cmpq %rcx, %rax
	; AVX-NEXT: jne .LBB8_1			; AVX-NEXT: jne .LBB8_1
	; AVX-NEXT: # %bb.2: # %middle.block			; AVX-NEXT: # %bb.2: # %middle.block
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovd %xmm0, %eax			; AVX-NEXT: vmovd %xmm0, %eax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ %index.next, %vector.body ], [ 0, %entry ]			%index = phi i64 [ %index.next, %vector.body ], [ 0, %entry ]
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: addq $16, %rcx			; AVX1-NEXT: addq $16, %rcx
	; AVX1-NEXT: cmpq %rcx, %rax			; AVX1-NEXT: cmpq %rcx, %rax
	; AVX1-NEXT: jne .LBB9_1			; AVX1-NEXT: jne .LBB9_1
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX256-LABEL: test_unsigned_short_256:			; AVX256-LABEL: test_unsigned_short_256:
	; AVX256: # %bb.0: # %entry			; AVX256: # %bb.0: # %entry
	; AVX256-NEXT: movl %edx, %eax			; AVX256-NEXT: movl %edx, %eax
	; AVX256-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX256-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX256-NEXT: xorl %ecx, %ecx			; AVX256-NEXT: xorl %ecx, %ecx
	; AVX256-NEXT: .p2align 4, 0x90			; AVX256-NEXT: .p2align 4, 0x90
	; AVX256-NEXT: .LBB9_1: # %vector.body			; AVX256-NEXT: .LBB9_1: # %vector.body
	; AVX256-NEXT: # =>This Inner Loop Header: Depth=1			; AVX256-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; AVX256-NEXT: vpmulld %ymm1, %ymm2, %ymm1			; AVX256-NEXT: vpmulld %ymm1, %ymm2, %ymm1
	; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX256-NEXT: addq $16, %rcx			; AVX256-NEXT: addq $16, %rcx
	; AVX256-NEXT: cmpq %rcx, %rax			; AVX256-NEXT: cmpq %rcx, %rax
	; AVX256-NEXT: jne .LBB9_1			; AVX256-NEXT: jne .LBB9_1
	; AVX256-NEXT: # %bb.2: # %middle.block			; AVX256-NEXT: # %bb.2: # %middle.block
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_unsigned_short_512:			; AVX2-LABEL: test_unsigned_short_512:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: movl %edx, %eax			; AVX2-NEXT: movl %edx, %eax
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 14 Lines
	; AVX2-NEXT: cmpq %rcx, %rax			; AVX2-NEXT: cmpq %rcx, %rax
	; AVX2-NEXT: jne .LBB10_1			; AVX2-NEXT: jne .LBB10_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_unsigned_short_512:			; AVX512-LABEL: test_unsigned_short_512:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: movl %edx, %eax			; AVX512-NEXT: movl %edx, %eax
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 191 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm4, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm0, %xmm9, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm9, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm8, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm8, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_unsigned_short_1024:			; AVX2-LABEL: test_unsigned_short_1024:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: movl %edx, %eax			; AVX2-NEXT: movl %edx, %eax
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 26 Lines
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_unsigned_short_1024:			; AVX512-LABEL: test_unsigned_short_1024:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: movl %edx, %eax			; AVX512-NEXT: movl %edx, %eax
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 933 Lines • ▼ Show 20 Lines
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqu (%rdi), %xmm0			; AVX1-NEXT: vmovdqu (%rdi), %xmm0
	; AVX1-NEXT: vmovdqu (%rdx), %xmm1			; AVX1-NEXT: vmovdqu (%rdx), %xmm1
	; AVX1-NEXT: vpmaddwd (%rsi), %xmm0, %xmm0			; AVX1-NEXT: vpmaddwd (%rsi), %xmm0, %xmm0
	; AVX1-NEXT: vpmaddwd (%rcx), %xmm1, %xmm1			; AVX1-NEXT: vpmaddwd (%rcx), %xmm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX256-LABEL: madd_double_reduction:			; AVX256-LABEL: madd_double_reduction:
	; AVX256: # %bb.0:			; AVX256: # %bb.0:
	; AVX256-NEXT: vmovdqu (%rdi), %xmm0			; AVX256-NEXT: vmovdqu (%rdi), %xmm0
	; AVX256-NEXT: vmovdqu (%rdx), %xmm1			; AVX256-NEXT: vmovdqu (%rdx), %xmm1
	; AVX256-NEXT: vpmaddwd (%rsi), %xmm0, %xmm0			; AVX256-NEXT: vpmaddwd (%rsi), %xmm0, %xmm0
	; AVX256-NEXT: vpmaddwd (%rcx), %xmm1, %xmm1			; AVX256-NEXT: vpmaddwd (%rcx), %xmm1, %xmm1
	; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	%tmp = load <8 x i16>, <8 x i16>* %arg, align 1			%tmp = load <8 x i16>, <8 x i16>* %arg, align 1
	%tmp6 = load <8 x i16>, <8 x i16>* %arg1, align 1			%tmp6 = load <8 x i16>, <8 x i16>* %arg1, align 1
	%tmp7 = sext <8 x i16> %tmp to <8 x i32>			%tmp7 = sext <8 x i16> %tmp to <8 x i32>
	%tmp17 = sext <8 x i16> %tmp6 to <8 x i32>			%tmp17 = sext <8 x i16> %tmp6 to <8 x i32>
	%tmp19 = mul nsw <8 x i32> %tmp7, %tmp17			%tmp19 = mul nsw <8 x i32> %tmp7, %tmp17
	Show All 15 Lines

llvm/trunk/test/CodeGen/X86/phaddsub.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3 \| FileCheck %s --check-prefix=SSSE3			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3 \| FileCheck %s --check-prefixes=SSSE3,SSSE3-SLOW
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3,fast-hops \| FileCheck %s --check-prefixes=SSSE3,SSSE3-FAST
				; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX-SLOW
				; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx,fast-hops \| FileCheck %s --check-prefixes=AVX,AVX-FAST

	define <8 x i16> @phaddw1(<8 x i16> %x, <8 x i16> %y) {			define <8 x i16> @phaddw1(<8 x i16> %x, <8 x i16> %y) {
	; SSSE3-LABEL: phaddw1:			; SSSE3-LABEL: phaddw1:
	; SSSE3: # %bb.0:			; SSSE3: # %bb.0:
	; SSSE3-NEXT: phaddw %xmm1, %xmm0			; SSSE3-NEXT: phaddw %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; AVX-LABEL: phaddw1:			; AVX-LABEL: phaddw1:
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 1, i32 2, i32 5, i32 6>			%a = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 1, i32 2, i32 5, i32 6>
	%b = shufflevector <4 x i32> %y, <4 x i32> %x, <4 x i32> <i32 4, i32 7, i32 0, i32 3>			%b = shufflevector <4 x i32> %y, <4 x i32> %x, <4 x i32> <i32 4, i32 7, i32 0, i32 3>
	%r = add <4 x i32> %a, %b			%r = add <4 x i32> %a, %b
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <4 x i32> @phaddd3(<4 x i32> %x) {			define <4 x i32> @phaddd3(<4 x i32> %x) {
	; SSSE3-LABEL: phaddd3:			; SSSE3-SLOW-LABEL: phaddd3:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,2,3,3]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	;			; SSSE3-SLOW-NEXT: paddd %xmm1, %xmm0
	; AVX-LABEL: phaddd3:			; SSSE3-SLOW-NEXT: retq
	; AVX: # %bb.0:			;
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; SSSE3-FAST-LABEL: phaddd3:
	; AVX-NEXT: retq			; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddd3:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,2,3,3]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
				; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddd3:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 2, i32 4, i32 6>			%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 2, i32 4, i32 6>
	%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 3, i32 5, i32 7>			%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 3, i32 5, i32 7>
	%r = add <4 x i32> %a, %b			%r = add <4 x i32> %a, %b
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <4 x i32> @phaddd4(<4 x i32> %x) {			define <4 x i32> @phaddd4(<4 x i32> %x) {
	; SSSE3-LABEL: phaddd4:			; SSSE3-SLOW-LABEL: phaddd4:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	;			; SSSE3-SLOW-NEXT: paddd %xmm1, %xmm0
	; AVX-LABEL: phaddd4:			; SSSE3-SLOW-NEXT: retq
	; AVX: # %bb.0:			;
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; SSSE3-FAST-LABEL: phaddd4:
	; AVX-NEXT: retq			; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddd4:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
				; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddd4:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>			%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>
	%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>			%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>
	%r = add <4 x i32> %a, %b			%r = add <4 x i32> %a, %b
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <4 x i32> @phaddd5(<4 x i32> %x) {			define <4 x i32> @phaddd5(<4 x i32> %x) {
	; SSSE3-LABEL: phaddd5:			; SSSE3-SLOW-LABEL: phaddd5:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,3,2,3]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,2,2,3]
	;			; SSSE3-SLOW-NEXT: paddd %xmm1, %xmm0
	; AVX-LABEL: phaddd5:			; SSSE3-SLOW-NEXT: retq
	; AVX: # %bb.0:			;
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; SSSE3-FAST-LABEL: phaddd5:
	; AVX-NEXT: retq			; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddd5:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,3,2,3]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,2,2,3]
				; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddd5:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 0, i32 3, i32 undef, i32 undef>			%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 0, i32 3, i32 undef, i32 undef>
	%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 1, i32 2, i32 undef, i32 undef>			%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 1, i32 2, i32 undef, i32 undef>
	%r = add <4 x i32> %a, %b			%r = add <4 x i32> %a, %b
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <4 x i32> @phaddd6(<4 x i32> %x) {			define <4 x i32> @phaddd6(<4 x i32> %x) {
	; SSSE3-LABEL: phaddd6:			; SSSE3-SLOW-LABEL: phaddd6:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: paddd %xmm1, %xmm0
	;			; SSSE3-SLOW-NEXT: retq
	; AVX-LABEL: phaddd6:			;
	; AVX: # %bb.0:			; SSSE3-FAST-LABEL: phaddd6:
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; SSSE3-FAST: # %bb.0:
	; AVX-NEXT: retq			; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddd6:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX-SLOW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddd6:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 0, i32 undef, i32 undef, i32 undef>			%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 0, i32 undef, i32 undef, i32 undef>
	%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%r = add <4 x i32> %a, %b			%r = add <4 x i32> %a, %b
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <4 x i32> @phaddd7(<4 x i32> %x) {			define <4 x i32> @phaddd7(<4 x i32> %x) {
	; SSSE3-LABEL: phaddd7:			; SSSE3-SLOW-LABEL: phaddd7:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
	;			; SSSE3-SLOW-NEXT: paddd %xmm1, %xmm0
	; AVX-LABEL: phaddd7:			; SSSE3-SLOW-NEXT: retq
	; AVX: # %bb.0:			;
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; SSSE3-FAST-LABEL: phaddd7:
	; AVX-NEXT: retq			; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddd7:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
				; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddd7:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 3, i32 undef, i32 undef>			%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 3, i32 undef, i32 undef>
	%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 2, i32 undef, i32 undef>			%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 2, i32 undef, i32 undef>
	%r = add <4 x i32> %a, %b			%r = add <4 x i32> %a, %b
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <8 x i16> @phsubw1(<8 x i16> %x, <8 x i16> %y) {			define <8 x i16> @phsubw1(<8 x i16> %x, <8 x i16> %y) {
	; SSSE3-LABEL: phsubw1:			; SSSE3-LABEL: phsubw1:
	Show All 23 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 0, i32 2, i32 4, i32 6>			%a = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
	%b = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 1, i32 3, i32 5, i32 7>			%b = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
	%r = sub <4 x i32> %a, %b			%r = sub <4 x i32> %a, %b
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <4 x i32> @phsubd2(<4 x i32> %x) {			define <4 x i32> @phsubd2(<4 x i32> %x) {
	; SSSE3-LABEL: phsubd2:			; SSSE3-SLOW-LABEL: phsubd2:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phsubd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,2,3,3]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	;			; SSSE3-SLOW-NEXT: psubd %xmm0, %xmm1
	; AVX-LABEL: phsubd2:			; SSSE3-SLOW-NEXT: movdqa %xmm1, %xmm0
	; AVX: # %bb.0:			; SSSE3-SLOW-NEXT: retq
	; AVX-NEXT: vphsubd %xmm0, %xmm0, %xmm0			;
	; AVX-NEXT: retq			; SSSE3-FAST-LABEL: phsubd2:
				; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phsubd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phsubd2:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,2,3,3]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
				; AVX-SLOW-NEXT: vpsubd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phsubd2:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphsubd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 2, i32 4, i32 6>			%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 2, i32 4, i32 6>
	%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 3, i32 5, i32 7>			%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 3, i32 5, i32 7>
	%r = sub <4 x i32> %a, %b			%r = sub <4 x i32> %a, %b
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <4 x i32> @phsubd3(<4 x i32> %x) {			define <4 x i32> @phsubd3(<4 x i32> %x) {
	; SSSE3-LABEL: phsubd3:			; SSSE3-SLOW-LABEL: phsubd3:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phsubd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	;			; SSSE3-SLOW-NEXT: psubd %xmm0, %xmm1
	; AVX-LABEL: phsubd3:			; SSSE3-SLOW-NEXT: movdqa %xmm1, %xmm0
	; AVX: # %bb.0:			; SSSE3-SLOW-NEXT: retq
	; AVX-NEXT: vphsubd %xmm0, %xmm0, %xmm0			;
	; AVX-NEXT: retq			; SSSE3-FAST-LABEL: phsubd3:
				; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phsubd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phsubd3:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
				; AVX-SLOW-NEXT: vpsubd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phsubd3:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphsubd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>			%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 0, i32 2, i32 undef, i32 undef>
	%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>			%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 1, i32 3, i32 undef, i32 undef>
	%r = sub <4 x i32> %a, %b			%r = sub <4 x i32> %a, %b
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <4 x i32> @phsubd4(<4 x i32> %x) {			define <4 x i32> @phsubd4(<4 x i32> %x) {
	; SSSE3-LABEL: phsubd4:			; SSSE3-SLOW-LABEL: phsubd4:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phsubd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: psubd %xmm1, %xmm0
	;			; SSSE3-SLOW-NEXT: retq
	; AVX-LABEL: phsubd4:			;
	; AVX: # %bb.0:			; SSSE3-FAST-LABEL: phsubd4:
	; AVX-NEXT: vphsubd %xmm0, %xmm0, %xmm0			; SSSE3-FAST: # %bb.0:
	; AVX-NEXT: retq			; SSSE3-FAST-NEXT: phsubd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phsubd4:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX-SLOW-NEXT: vpsubd %xmm1, %xmm0, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phsubd4:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphsubd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 0, i32 undef, i32 undef, i32 undef>			%a = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 0, i32 undef, i32 undef, i32 undef>
	%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%b = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	%r = sub <4 x i32> %a, %b			%r = sub <4 x i32> %a, %b
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <8 x i16> @phsubw1_reverse(<8 x i16> %x, <8 x i16> %y) {			define <8 x i16> @phsubw1_reverse(<8 x i16> %x, <8 x i16> %y) {
	; SSSE3-LABEL: phsubw1_reverse:			; SSSE3-LABEL: phsubw1_reverse:
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 1, i32 3, i32 5, i32 7>			%a = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
	%b = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 0, i32 2, i32 4, i32 6>			%b = shufflevector <4 x i32> %x, <4 x i32> %y, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
	%r = sub <4 x i32> %a, %b			%r = sub <4 x i32> %a, %b
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	define <4 x i32> @phaddd_single_source1(<4 x i32> %x) {			define <4 x i32> @phaddd_single_source1(<4 x i32> %x) {
	; SSSE3-LABEL: phaddd_single_source1:			; SSSE3-SLOW-LABEL: phaddd_single_source1:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,1,0,2]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	;			; SSSE3-SLOW-NEXT: paddd %xmm1, %xmm0
	; AVX-LABEL: phaddd_single_source1:			; SSSE3-SLOW-NEXT: retq
	; AVX: # %bb.0:			;
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; SSSE3-FAST-LABEL: phaddd_single_source1:
	; AVX-NEXT: retq			; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddd_single_source1:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,1,0,2]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
				; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddd_single_source1:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 2>			%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 2>
	%r = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 3>			%r = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 3>
	%add = add <4 x i32> %l, %r			%add = add <4 x i32> %l, %r
	ret <4 x i32> %add			ret <4 x i32> %add
	}			}

	define <4 x i32> @phaddd_single_source2(<4 x i32> %x) {			define <4 x i32> @phaddd_single_source2(<4 x i32> %x) {
	; SSSE3-LABEL: phaddd_single_source2:			; SSSE3-SLOW-LABEL: phaddd_single_source2:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,1,0,2]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,2,2,3]			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: paddd %xmm1, %xmm0
	;			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,2,2,3]
	; AVX-LABEL: phaddd_single_source2:			; SSSE3-SLOW-NEXT: retq
	; AVX: # %bb.0:			;
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; SSSE3-FAST-LABEL: phaddd_single_source2:
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,2,2,3]			; SSSE3-FAST: # %bb.0:
	; AVX-NEXT: retq			; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,2,2,3]
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddd_single_source2:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,1,0,2]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
				; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,2,2,3]
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddd_single_source2:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,2,2,3]
				; AVX-FAST-NEXT: retq
	%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 2>			%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 2>
	%r = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 3>			%r = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 3>
	%add = add <4 x i32> %l, %r			%add = add <4 x i32> %l, %r
	%shuffle2 = shufflevector <4 x i32> %add, <4 x i32> undef, <4 x i32> <i32 3, i32 2, i32 undef, i32 undef>			%shuffle2 = shufflevector <4 x i32> %add, <4 x i32> undef, <4 x i32> <i32 3, i32 2, i32 undef, i32 undef>
	ret <4 x i32> %shuffle2			ret <4 x i32> %shuffle2
	}			}

	define <4 x i32> @phaddd_single_source3(<4 x i32> %x) {			define <4 x i32> @phaddd_single_source3(<4 x i32> %x) {
	; SSSE3-LABEL: phaddd_single_source3:			; SSSE3-SLOW-LABEL: phaddd_single_source3:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,1,0,1]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	;			; SSSE3-SLOW-NEXT: paddd %xmm1, %xmm0
	; AVX-LABEL: phaddd_single_source3:			; SSSE3-SLOW-NEXT: retq
	; AVX: # %bb.0:			;
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; SSSE3-FAST-LABEL: phaddd_single_source3:
	; AVX-NEXT: retq			; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddd_single_source3:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,1,0,1]
				; AVX-SLOW-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
				; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddd_single_source3:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 undef>			%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 undef>
	%r = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 undef>			%r = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 undef>
	%add = add <4 x i32> %l, %r			%add = add <4 x i32> %l, %r
	ret <4 x i32> %add			ret <4 x i32> %add
	}			}

	define <4 x i32> @phaddd_single_source4(<4 x i32> %x) {			define <4 x i32> @phaddd_single_source4(<4 x i32> %x) {
	; SSSE3-LABEL: phaddd_single_source4:			; SSSE3-SLOW-LABEL: phaddd_single_source4:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,1,2,2]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: paddd %xmm1, %xmm0
	;			; SSSE3-SLOW-NEXT: retq
	; AVX-LABEL: phaddd_single_source4:			;
	; AVX: # %bb.0:			; SSSE3-FAST-LABEL: phaddd_single_source4:
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; SSSE3-FAST: # %bb.0:
	; AVX-NEXT: retq			; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddd_single_source4:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,1,2,2]
				; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddd_single_source4:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>			%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>
	%add = add <4 x i32> %l, %x			%add = add <4 x i32> %l, %x
	ret <4 x i32> %add			ret <4 x i32> %add
	}			}

	define <4 x i32> @phaddd_single_source5(<4 x i32> %x) {			define <4 x i32> @phaddd_single_source5(<4 x i32> %x) {
	; SSSE3-LABEL: phaddd_single_source5:			; SSSE3-SLOW-LABEL: phaddd_single_source5:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,1,2,2]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]			; SSSE3-SLOW-NEXT: paddd %xmm0, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm1[3,1,2,3]
	;			; SSSE3-SLOW-NEXT: retq
	; AVX-LABEL: phaddd_single_source5:			;
	; AVX: # %bb.0:			; SSSE3-FAST-LABEL: phaddd_single_source5:
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; SSSE3-FAST: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]			; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
	; AVX-NEXT: retq			; SSSE3-FAST-NEXT: pshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddd_single_source5:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,1,2,2]
				; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddd_single_source5:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,1,2,3]
				; AVX-FAST-NEXT: retq
	%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>			%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>
	%add = add <4 x i32> %l, %x			%add = add <4 x i32> %l, %x
	%shuffle2 = shufflevector <4 x i32> %add, <4 x i32> undef, <4 x i32> <i32 3, i32 undef, i32 undef, i32 undef>			%shuffle2 = shufflevector <4 x i32> %add, <4 x i32> undef, <4 x i32> <i32 3, i32 undef, i32 undef, i32 undef>
	ret <4 x i32> %shuffle2			ret <4 x i32> %shuffle2
	}			}

	define <4 x i32> @phaddd_single_source6(<4 x i32> %x) {			define <4 x i32> @phaddd_single_source6(<4 x i32> %x) {
	; SSSE3-LABEL: phaddd_single_source6:			; SSSE3-SLOW-LABEL: phaddd_single_source6:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddd %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,1,0,1]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,1,3]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: paddd %xmm1, %xmm0
	;			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
	; AVX-LABEL: phaddd_single_source6:			; SSSE3-SLOW-NEXT: retq
	; AVX: # %bb.0:			;
	; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; SSSE3-FAST-LABEL: phaddd_single_source6:
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]			; SSSE3-FAST: # %bb.0:
	; AVX-NEXT: retq			; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
				; SSSE3-FAST-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddd_single_source6:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,1,0,1]
				; AVX-SLOW-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
				; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddd_single_source6:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,2,3,3]
				; AVX-FAST-NEXT: retq
	%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 undef>			%l = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 undef>
	%r = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 undef>			%r = shufflevector <4 x i32> %x, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 1, i32 undef>
	%add = add <4 x i32> %l, %r			%add = add <4 x i32> %l, %r
	%shuffle2 = shufflevector <4 x i32> %add, <4 x i32> undef, <4 x i32> <i32 undef, i32 2, i32 undef, i32 undef>			%shuffle2 = shufflevector <4 x i32> %add, <4 x i32> undef, <4 x i32> <i32 undef, i32 2, i32 undef, i32 undef>
	ret <4 x i32> %shuffle2			ret <4 x i32> %shuffle2
	}			}

	define <8 x i16> @phaddw_single_source1(<8 x i16> %x) {			define <8 x i16> @phaddw_single_source1(<8 x i16> %x) {
	; SSSE3-LABEL: phaddw_single_source1:			; SSSE3-SLOW-LABEL: phaddw_single_source1:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddw %xmm0, %xmm0			; SSSE3-SLOW-NEXT: movdqa %xmm0, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,4,5,6,7,0,1,4,5,8,9,12,13]
	;			; SSSE3-SLOW-NEXT: pshufb {{.*#+}} xmm0 = xmm0[6,7,2,3,4,5,6,7,2,3,6,7,10,11,14,15]
	; AVX-LABEL: phaddw_single_source1:			; SSSE3-SLOW-NEXT: paddw %xmm1, %xmm0
	; AVX: # %bb.0:			; SSSE3-SLOW-NEXT: retq
	; AVX-NEXT: vphaddw %xmm0, %xmm0, %xmm0			;
	; AVX-NEXT: retq			; SSSE3-FAST-LABEL: phaddw_single_source1:
				; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phaddw %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddw_single_source1:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufb {{.*#+}} xmm1 = xmm0[0,1,4,5,4,5,6,7,0,1,4,5,8,9,12,13]
				; AVX-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[6,7,2,3,4,5,6,7,2,3,6,7,10,11,14,15]
				; AVX-SLOW-NEXT: vpaddw %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddw_single_source1:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddw %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%l = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 2, i32 4, i32 6>			%l = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 2, i32 4, i32 6>
	%r = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 1, i32 3, i32 5, i32 7>			%r = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 1, i32 3, i32 5, i32 7>
	%add = add <8 x i16> %l, %r			%add = add <8 x i16> %l, %r
	ret <8 x i16> %add			ret <8 x i16> %add
	}			}

	define <8 x i16> @phaddw_single_source2(<8 x i16> %x) {			define <8 x i16> @phaddw_single_source2(<8 x i16> %x) {
	; SSSE3-LABEL: phaddw_single_source2:			; SSSE3-SLOW-LABEL: phaddw_single_source2:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddw %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshuflw {{.*#+}} xmm1 = xmm0[0,2,2,3,4,5,6,7]
	; SSSE3-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,6,7]			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,1,2,3]			; SSSE3-SLOW-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[1,3,2,3,4,5,6,7]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,3]
	;			; SSSE3-SLOW-NEXT: paddw %xmm1, %xmm0
	; AVX-LABEL: phaddw_single_source2:			; SSSE3-SLOW-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,6,7]
	; AVX: # %bb.0:			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,1,2,3]
	; AVX-NEXT: vphaddw %xmm0, %xmm0, %xmm0			; SSSE3-SLOW-NEXT: retq
	; AVX-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,6,7]			;
	; AVX-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,1,2,3]			; SSSE3-FAST-LABEL: phaddw_single_source2:
	; AVX-NEXT: retq			; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phaddw %xmm0, %xmm0
				; SSSE3-FAST-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,6,7]
				; SSSE3-FAST-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,1,2,3]
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddw_single_source2:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshuflw {{.*#+}} xmm1 = xmm0[0,2,2,3,4,5,6,7]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,3]
				; AVX-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[1,3,2,3,4,5,6,7]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,3]
				; AVX-SLOW-NEXT: vpaddw %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,6,7]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,1,2,3]
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddw_single_source2:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddw %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,4,6,7]
				; AVX-FAST-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,1,2,3]
				; AVX-FAST-NEXT: retq
	%l = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 2, i32 4, i32 6>			%l = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 2, i32 4, i32 6>
	%r = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 1, i32 3, i32 5, i32 7>			%r = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 1, i32 3, i32 5, i32 7>
	%add = add <8 x i16> %l, %r			%add = add <8 x i16> %l, %r
	%shuffle2 = shufflevector <8 x i16> %add, <8 x i16> undef, <8 x i32> <i32 5, i32 4, i32 3, i32 2, i32 undef, i32 undef, i32 undef, i32 undef>			%shuffle2 = shufflevector <8 x i16> %add, <8 x i16> undef, <8 x i32> <i32 5, i32 4, i32 3, i32 2, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <8 x i16> %shuffle2			ret <8 x i16> %shuffle2
	}			}

	define <8 x i16> @phaddw_single_source3(<8 x i16> %x) {			define <8 x i16> @phaddw_single_source3(<8 x i16> %x) {
	; SSSE3-LABEL: phaddw_single_source3:			; SSSE3-SLOW-LABEL: phaddw_single_source3:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddw %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshuflw {{.*#+}} xmm1 = xmm0[0,2,2,3,4,5,6,7]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,1,0,3]
	;			; SSSE3-SLOW-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[1,3,2,3,4,5,6,7]
	; AVX-LABEL: phaddw_single_source3:			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,3]
	; AVX: # %bb.0:			; SSSE3-SLOW-NEXT: paddw %xmm1, %xmm0
	; AVX-NEXT: vphaddw %xmm0, %xmm0, %xmm0			; SSSE3-SLOW-NEXT: retq
	; AVX-NEXT: retq			;
				; SSSE3-FAST-LABEL: phaddw_single_source3:
				; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phaddw %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddw_single_source3:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshuflw {{.*#+}} xmm1 = xmm0[0,2,2,3,4,5,6,7]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,1,0,3]
				; AVX-SLOW-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[1,3,2,3,4,5,6,7]
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,3]
				; AVX-SLOW-NEXT: vpaddw %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddw_single_source3:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddw %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%l = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 2, i32 undef, i32 undef>			%l = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 2, i32 undef, i32 undef>
	%r = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 1, i32 3, i32 undef, i32 undef>			%r = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 1, i32 3, i32 undef, i32 undef>
	%add = add <8 x i16> %l, %r			%add = add <8 x i16> %l, %r
	ret <8 x i16> %add			ret <8 x i16> %add
	}			}

	define <8 x i16> @phaddw_single_source4(<8 x i16> %x) {			define <8 x i16> @phaddw_single_source4(<8 x i16> %x) {
	; SSSE3-LABEL: phaddw_single_source4:			; SSSE3-SLOW-LABEL: phaddw_single_source4:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddw %xmm0, %xmm0			; SSSE3-SLOW-NEXT: movdqa %xmm0, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pslld $16, %xmm1
	;			; SSSE3-SLOW-NEXT: paddw %xmm0, %xmm1
	; AVX-LABEL: phaddw_single_source4:			; SSSE3-SLOW-NEXT: movdqa %xmm1, %xmm0
	; AVX: # %bb.0:			; SSSE3-SLOW-NEXT: retq
	; AVX-NEXT: vphaddw %xmm0, %xmm0, %xmm0			;
	; AVX-NEXT: retq			; SSSE3-FAST-LABEL: phaddw_single_source4:
				; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phaddw %xmm0, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddw_single_source4:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpslld $16, %xmm0, %xmm1
				; AVX-SLOW-NEXT: vpaddw %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddw_single_source4:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddw %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%l = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 6>			%l = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 6>
	%add = add <8 x i16> %l, %x			%add = add <8 x i16> %l, %x
	ret <8 x i16> %add			ret <8 x i16> %add
	}			}

	define <8 x i16> @phaddw_single_source6(<8 x i16> %x) {			define <8 x i16> @phaddw_single_source6(<8 x i16> %x) {
	; SSSE3-LABEL: phaddw_single_source6:			; SSSE3-SLOW-LABEL: phaddw_single_source6:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: phaddw %xmm0, %xmm0			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,1,0,1]
	; SSSE3-NEXT: psrldq {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero			; SSSE3-SLOW-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,3]
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,5,5,6,7]
	;			; SSSE3-SLOW-NEXT: paddw %xmm1, %xmm0
	; AVX-LABEL: phaddw_single_source6:			; SSSE3-SLOW-NEXT: psrldq {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero
	; AVX: # %bb.0:			; SSSE3-SLOW-NEXT: retq
	; AVX-NEXT: vphaddw %xmm0, %xmm0, %xmm0			;
	; AVX-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero			; SSSE3-FAST-LABEL: phaddw_single_source6:
	; AVX-NEXT: retq			; SSSE3-FAST: # %bb.0:
				; SSSE3-FAST-NEXT: phaddw %xmm0, %xmm0
				; SSSE3-FAST-NEXT: psrldq {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero
				; SSSE3-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: phaddw_single_source6:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,1,0,1]
				; AVX-SLOW-NEXT: vpmovzxwq {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero
				; AVX-SLOW-NEXT: vpaddw %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: phaddw_single_source6:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vphaddw %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: vpsrldq {{.*#+}} xmm0 = xmm0[6,7,8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero
				; AVX-FAST-NEXT: retq
	%l = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 undef, i32 undef, i32 undef>			%l = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 0, i32 undef, i32 undef, i32 undef>
	%r = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 1, i32 undef, i32 undef, i32 undef>			%r = shufflevector <8 x i16> %x, <8 x i16> undef, <8 x i32> <i32 undef, i32 undef, i32 undef, i32 undef, i32 1, i32 undef, i32 undef, i32 undef>
	%add = add <8 x i16> %l, %r			%add = add <8 x i16> %l, %r
	%shuffle2 = shufflevector <8 x i16> %add, <8 x i16> undef, <8 x i32> <i32 undef, i32 4, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%shuffle2 = shufflevector <8 x i16> %add, <8 x i16> undef, <8 x i32> <i32 undef, i32 4, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <8 x i16> %shuffle2			ret <8 x i16> %shuffle2
	}			}

llvm/trunk/test/CodeGen/X86/required-vector-width.ll

	Show First 20 Lines • Show All 184 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: # %bb.2: # %middle.block			; CHECK-NEXT: # %bb.2: # %middle.block
	; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; CHECK-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; CHECK-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: addq $4, %rax			; CHECK-NEXT: addq $4, %rax
	; CHECK-NEXT: jne .LBB10_1			; CHECK-NEXT: jne .LBB10_1
	; CHECK-NEXT: # %bb.2: # %middle.block			; CHECK-NEXT: # %bb.2: # %middle.block
	; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	▲ Show 20 Lines • Show All 316 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/sad.ll

	Show First 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: # %bb.2: # %middle.block			; AVX1-NEXT: # %bb.2: # %middle.block
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: sad_16i8:			; AVX2-LABEL: sad_16i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX2-NEXT: movq $-1024, %rax # imm = 0xFC00
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: .p2align 4, 0x90			; AVX2-NEXT: .p2align 4, 0x90
	; AVX2-NEXT: .LBB0_1: # %vector.body			; AVX2-NEXT: .LBB0_1: # %vector.body
	; AVX2-NEXT: # =>This Inner Loop Header: Depth=1			; AVX2-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX2-NEXT: vmovdqu a+1024(%rax), %xmm2			; AVX2-NEXT: vmovdqu a+1024(%rax), %xmm2
	; AVX2-NEXT: vpsadbw b+1024(%rax), %xmm2, %xmm2			; AVX2-NEXT: vpsadbw b+1024(%rax), %xmm2, %xmm2
	; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: addq $4, %rax			; AVX2-NEXT: addq $4, %rax
	; AVX2-NEXT: jne .LBB0_1			; AVX2-NEXT: jne .LBB0_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_16i8:			; AVX512-LABEL: sad_16i8:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512-NEXT: movq $-1024, %rax # imm = 0xFC00
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	}			}

	define i32 @sad_32i8() nounwind {			define i32 @sad_32i8() nounwind {
	; SSE2-LABEL: sad_32i8:			; SSE2-LABEL: sad_32i8:
	; SSE2: # %bb.0: # %entry			; SSE2: # %bb.0: # %entry
	; SSE2-NEXT: pxor %xmm12, %xmm12			; SSE2-NEXT: pxor %xmm12, %xmm12
	; SSE2-NEXT: movq $-1024, %rax # imm = 0xFC00			; SSE2-NEXT: movq $-1024, %rax # imm = 0xFC00
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm6, %xmm6			; SSE2-NEXT: pxor %xmm6, %xmm6
	; SSE2-NEXT: pxor %xmm13, %xmm13			; SSE2-NEXT: pxor %xmm13, %xmm13
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm15, %xmm15			; SSE2-NEXT: pxor %xmm15, %xmm15
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm14, %xmm14			; SSE2-NEXT: pxor %xmm14, %xmm14
	; SSE2-NEXT: .p2align 4, 0x90			; SSE2-NEXT: .p2align 4, 0x90
	; SSE2-NEXT: .LBB1_1: # %vector.body			; SSE2-NEXT: .LBB1_1: # %vector.body
	; SSE2-NEXT: # =>This Inner Loop Header: Depth=1			; SSE2-NEXT: # =>This Inner Loop Header: Depth=1
	; SSE2-NEXT: movdqa a+1040(%rax), %xmm8			; SSE2-NEXT: movdqa a+1040(%rax), %xmm8
	; SSE2-NEXT: movdqa a+1024(%rax), %xmm3			; SSE2-NEXT: movdqa a+1024(%rax), %xmm3
	; SSE2-NEXT: movdqa %xmm3, %xmm4			; SSE2-NEXT: movdqa %xmm3, %xmm4
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm12[0],xmm4[1],xmm12[1],xmm4[2],xmm12[2],xmm4[3],xmm12[3],xmm4[4],xmm12[4],xmm4[5],xmm12[5],xmm4[6],xmm12[6],xmm4[7],xmm12[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm12[0],xmm4[1],xmm12[1],xmm4[2],xmm12[2],xmm4[3],xmm12[3],xmm4[4],xmm12[4],xmm4[5],xmm12[5],xmm4[6],xmm12[6],xmm4[7],xmm12[7]
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psubd %xmm6, %xmm2			; SSE2-NEXT: psubd %xmm6, %xmm2
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm8 = xmm8[4],xmm12[4],xmm8[5],xmm12[5],xmm8[6],xmm12[6],xmm8[7],xmm12[7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm8 = xmm8[4],xmm12[4],xmm8[5],xmm12[5],xmm8[6],xmm12[6],xmm8[7],xmm12[7]
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm9 = xmm9[4],xmm12[4],xmm9[5],xmm12[5],xmm9[6],xmm12[6],xmm9[7],xmm12[7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm9 = xmm9[4],xmm12[4],xmm9[5],xmm12[5],xmm9[6],xmm12[6],xmm9[7],xmm12[7]
	; SSE2-NEXT: psubd %xmm9, %xmm8			; SSE2-NEXT: psubd %xmm9, %xmm8
	; SSE2-NEXT: movdqa %xmm7, %xmm6			; SSE2-NEXT: movdqa %xmm7, %xmm6
	; SSE2-NEXT: psrad $31, %xmm6			; SSE2-NEXT: psrad $31, %xmm6
	; SSE2-NEXT: paddd %xmm6, %xmm7			; SSE2-NEXT: paddd %xmm6, %xmm7
	; SSE2-NEXT: pxor %xmm6, %xmm7			; SSE2-NEXT: pxor %xmm6, %xmm7
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm6 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm6 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm7, %xmm6			; SSE2-NEXT: paddd %xmm7, %xmm6
	; SSE2-NEXT: movdqa %xmm6, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm4, %xmm6			; SSE2-NEXT: movdqa %xmm4, %xmm6
	; SSE2-NEXT: psrad $31, %xmm6			; SSE2-NEXT: psrad $31, %xmm6
	; SSE2-NEXT: paddd %xmm6, %xmm4			; SSE2-NEXT: paddd %xmm6, %xmm4
	; SSE2-NEXT: pxor %xmm6, %xmm4			; SSE2-NEXT: pxor %xmm6, %xmm4
	; SSE2-NEXT: movdqa %xmm10, %xmm6			; SSE2-NEXT: movdqa %xmm10, %xmm6
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm7 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm4, %xmm7			; SSE2-NEXT: paddd %xmm4, %xmm7
	; SSE2-NEXT: movdqa %xmm7, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm1, %xmm4			; SSE2-NEXT: movdqa %xmm1, %xmm4
	; SSE2-NEXT: psrad $31, %xmm4			; SSE2-NEXT: psrad $31, %xmm4
	; SSE2-NEXT: paddd %xmm4, %xmm1			; SSE2-NEXT: paddd %xmm4, %xmm1
	; SSE2-NEXT: pxor %xmm4, %xmm1			; SSE2-NEXT: pxor %xmm4, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm6			; SSE2-NEXT: paddd %xmm1, %xmm6
	; SSE2-NEXT: movdqa %xmm3, %xmm1			; SSE2-NEXT: movdqa %xmm3, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm3			; SSE2-NEXT: paddd %xmm1, %xmm3
	; SSE2-NEXT: pxor %xmm1, %xmm3			; SSE2-NEXT: pxor %xmm1, %xmm3
	; SSE2-NEXT: paddd %xmm3, %xmm13			; SSE2-NEXT: paddd %xmm3, %xmm13
	; SSE2-NEXT: movdqa %xmm5, %xmm1			; SSE2-NEXT: movdqa %xmm5, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm5			; SSE2-NEXT: paddd %xmm1, %xmm5
	; SSE2-NEXT: pxor %xmm1, %xmm5			; SSE2-NEXT: pxor %xmm1, %xmm5
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm5, %xmm1			; SSE2-NEXT: paddd %xmm5, %xmm1
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm0			; SSE2-NEXT: paddd %xmm1, %xmm0
	; SSE2-NEXT: pxor %xmm1, %xmm0			; SSE2-NEXT: pxor %xmm1, %xmm0
	; SSE2-NEXT: paddd %xmm0, %xmm15			; SSE2-NEXT: paddd %xmm0, %xmm15
	; SSE2-NEXT: movdqa %xmm2, %xmm0			; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: paddd %xmm0, %xmm2			; SSE2-NEXT: paddd %xmm0, %xmm2
	; SSE2-NEXT: pxor %xmm0, %xmm2			; SSE2-NEXT: pxor %xmm0, %xmm2
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm2, %xmm0			; SSE2-NEXT: paddd %xmm2, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm8, %xmm0			; SSE2-NEXT: movdqa %xmm8, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: paddd %xmm0, %xmm8			; SSE2-NEXT: paddd %xmm0, %xmm8
	; SSE2-NEXT: pxor %xmm0, %xmm8			; SSE2-NEXT: pxor %xmm0, %xmm8
	; SSE2-NEXT: paddd %xmm8, %xmm14			; SSE2-NEXT: paddd %xmm8, %xmm14
	; SSE2-NEXT: addq $4, %rax			; SSE2-NEXT: addq $4, %rax
	; SSE2-NEXT: jne .LBB1_1			; SSE2-NEXT: jne .LBB1_1
	; SSE2-NEXT: # %bb.2: # %middle.block			; SSE2-NEXT: # %bb.2: # %middle.block
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm15, %xmm0			; SSE2-NEXT: paddd %xmm15, %xmm0
	; SSE2-NEXT: paddd %xmm14, %xmm13			; SSE2-NEXT: paddd %xmm14, %xmm13
	; SSE2-NEXT: paddd %xmm0, %xmm13			; SSE2-NEXT: paddd %xmm0, %xmm13
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; SSE2-NEXT: paddd -{{[0-9]+}}(%rsp), %xmm0 # 16-byte Folded Reload			; SSE2-NEXT: paddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; SSE2-NEXT: paddd -{{[0-9]+}}(%rsp), %xmm6 # 16-byte Folded Reload			; SSE2-NEXT: paddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm6 # 16-byte Folded Reload
	; SSE2-NEXT: paddd %xmm13, %xmm6			; SSE2-NEXT: paddd %xmm13, %xmm6
	; SSE2-NEXT: paddd %xmm0, %xmm6			; SSE2-NEXT: paddd %xmm0, %xmm6
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm6[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm6[2,3,0,1]
	; SSE2-NEXT: paddd %xmm6, %xmm0			; SSE2-NEXT: paddd %xmm6, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; SSE2-NEXT: paddd %xmm0, %xmm1			; SSE2-NEXT: paddd %xmm0, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax			; SSE2-NEXT: movd %xmm1, %eax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	Show All 27 Lines
	; AVX1-NEXT: vpaddd %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vpaddd %xmm6, %xmm5, %xmm5
	; AVX1-NEXT: vpaddd %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpaddd %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: sad_32i8:			; AVX2-LABEL: sad_32i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX2-NEXT: movq $-1024, %rax # imm = 0xFC00
	Show All 9 Lines
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_32i8:			; AVX512-LABEL: sad_32i8:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512-NEXT: movq $-1024, %rax # imm = 0xFC00
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines

	define i32 @sad_avx64i8() nounwind {			define i32 @sad_avx64i8() nounwind {
	; SSE2-LABEL: sad_avx64i8:			; SSE2-LABEL: sad_avx64i8:
	; SSE2: # %bb.0: # %entry			; SSE2: # %bb.0: # %entry
	; SSE2-NEXT: subq $200, %rsp			; SSE2-NEXT: subq $200, %rsp
	; SSE2-NEXT: pxor %xmm14, %xmm14			; SSE2-NEXT: pxor %xmm14, %xmm14
	; SSE2-NEXT: movq $-1024, %rax # imm = 0xFC00			; SSE2-NEXT: movq $-1024, %rax # imm = 0xFC00
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: pxor %xmm0, %xmm0			; SSE2-NEXT: pxor %xmm0, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: .p2align 4, 0x90			; SSE2-NEXT: .p2align 4, 0x90
	; SSE2-NEXT: .LBB2_1: # %vector.body			; SSE2-NEXT: .LBB2_1: # %vector.body
	; SSE2-NEXT: # =>This Inner Loop Header: Depth=1			; SSE2-NEXT: # =>This Inner Loop Header: Depth=1
	; SSE2-NEXT: movaps a+1040(%rax), %xmm0			; SSE2-NEXT: movaps a+1040(%rax), %xmm0
	; SSE2-NEXT: movaps %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa a+1024(%rax), %xmm12			; SSE2-NEXT: movdqa a+1024(%rax), %xmm12
	; SSE2-NEXT: movdqa a+1056(%rax), %xmm15			; SSE2-NEXT: movdqa a+1056(%rax), %xmm15
	; SSE2-NEXT: movdqa a+1072(%rax), %xmm4			; SSE2-NEXT: movdqa a+1072(%rax), %xmm4
	; SSE2-NEXT: movdqa %xmm4, %xmm6			; SSE2-NEXT: movdqa %xmm4, %xmm6
	; SSE2-NEXT: punpckhbw {{.*#+}} xmm6 = xmm6[8],xmm14[8],xmm6[9],xmm14[9],xmm6[10],xmm14[10],xmm6[11],xmm14[11],xmm6[12],xmm14[12],xmm6[13],xmm14[13],xmm6[14],xmm14[14],xmm6[15],xmm14[15]			; SSE2-NEXT: punpckhbw {{.*#+}} xmm6 = xmm6[8],xmm14[8],xmm6[9],xmm14[9],xmm6[10],xmm14[10],xmm6[11],xmm14[11],xmm6[12],xmm14[12],xmm6[13],xmm14[13],xmm6[14],xmm14[14],xmm6[15],xmm14[15]
	; SSE2-NEXT: movdqa %xmm6, %xmm1			; SSE2-NEXT: movdqa %xmm6, %xmm1
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm1 = xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm14[0],xmm6[1],xmm14[1],xmm6[2],xmm14[2],xmm6[3],xmm14[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm14[0],xmm6[1],xmm14[1],xmm6[2],xmm14[2],xmm6[3],xmm14[3]
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psubd %xmm7, %xmm8			; SSE2-NEXT: psubd %xmm7, %xmm8
	; SSE2-NEXT: movdqa b+1024(%rax), %xmm7			; SSE2-NEXT: movdqa b+1024(%rax), %xmm7
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1],xmm3[2],xmm14[2],xmm3[3],xmm14[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1],xmm3[2],xmm14[2],xmm3[3],xmm14[3]
	; SSE2-NEXT: psubd %xmm3, %xmm11			; SSE2-NEXT: psubd %xmm3, %xmm11
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm14[0],xmm0[1],xmm14[1],xmm0[2],xmm14[2],xmm0[3],xmm14[3],xmm0[4],xmm14[4],xmm0[5],xmm14[5],xmm0[6],xmm14[6],xmm0[7],xmm14[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm14[0],xmm0[1],xmm14[1],xmm0[2],xmm14[2],xmm0[3],xmm14[3],xmm0[4],xmm14[4],xmm0[5],xmm14[5],xmm0[6],xmm14[6],xmm0[7],xmm14[7]
	; SSE2-NEXT: movdqa %xmm0, %xmm3			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm3 = xmm3[4],xmm14[4],xmm3[5],xmm14[5],xmm3[6],xmm14[6],xmm3[7],xmm14[7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm3 = xmm3[4],xmm14[4],xmm3[5],xmm14[5],xmm3[6],xmm14[6],xmm3[7],xmm14[7]
	; SSE2-NEXT: psubd %xmm3, %xmm2			; SSE2-NEXT: psubd %xmm3, %xmm2
	; SSE2-NEXT: movdqa %xmm2, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm14[0],xmm0[1],xmm14[1],xmm0[2],xmm14[2],xmm0[3],xmm14[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm14[0],xmm0[1],xmm14[1],xmm0[2],xmm14[2],xmm0[3],xmm14[3]
	; SSE2-NEXT: psubd %xmm0, %xmm15			; SSE2-NEXT: psubd %xmm0, %xmm15
	; SSE2-NEXT: movdqa %xmm7, %xmm0			; SSE2-NEXT: movdqa %xmm7, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm14[0],xmm0[1],xmm14[1],xmm0[2],xmm14[2],xmm0[3],xmm14[3],xmm0[4],xmm14[4],xmm0[5],xmm14[5],xmm0[6],xmm14[6],xmm0[7],xmm14[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm14[0],xmm0[1],xmm14[1],xmm0[2],xmm14[2],xmm0[3],xmm14[3],xmm0[4],xmm14[4],xmm0[5],xmm14[5],xmm0[6],xmm14[6],xmm0[7],xmm14[7]
	; SSE2-NEXT: movdqa %xmm0, %xmm3			; SSE2-NEXT: movdqa %xmm0, %xmm3
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1],xmm3[2],xmm14[2],xmm3[3],xmm14[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1],xmm3[2],xmm14[2],xmm3[3],xmm14[3]
	; SSE2-NEXT: psubd %xmm3, %xmm9			; SSE2-NEXT: psubd %xmm3, %xmm9
	; SSE2-NEXT: movdqa %xmm9, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm9, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm2 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
	; SSE2-NEXT: movdqa %xmm2, %xmm9			; SSE2-NEXT: movdqa %xmm2, %xmm9
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm9 = xmm9[0],xmm14[0],xmm9[1],xmm14[1],xmm9[2],xmm14[2],xmm9[3],xmm14[3],xmm9[4],xmm14[4],xmm9[5],xmm14[5],xmm9[6],xmm14[6],xmm9[7],xmm14[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm9 = xmm9[0],xmm14[0],xmm9[1],xmm14[1],xmm9[2],xmm14[2],xmm9[3],xmm14[3],xmm9[4],xmm14[4],xmm9[5],xmm14[5],xmm9[6],xmm14[6],xmm9[7],xmm14[7]
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm14[4],xmm0[5],xmm14[5],xmm0[6],xmm14[6],xmm0[7],xmm14[7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm0 = xmm0[4],xmm14[4],xmm0[5],xmm14[5],xmm0[6],xmm14[6],xmm0[7],xmm14[7]
	; SSE2-NEXT: psubd %xmm0, %xmm10			; SSE2-NEXT: psubd %xmm0, %xmm10
	; SSE2-NEXT: punpckhbw {{.*#+}} xmm7 = xmm7[8],xmm14[8],xmm7[9],xmm14[9],xmm7[10],xmm14[10],xmm7[11],xmm14[11],xmm7[12],xmm14[12],xmm7[13],xmm14[13],xmm7[14],xmm14[14],xmm7[15],xmm14[15]			; SSE2-NEXT: punpckhbw {{.*#+}} xmm7 = xmm7[8],xmm14[8],xmm7[9],xmm14[9],xmm7[10],xmm14[10],xmm7[11],xmm14[11],xmm7[12],xmm14[12],xmm7[13],xmm14[13],xmm7[14],xmm14[14],xmm7[15],xmm14[15]
	; SSE2-NEXT: movdqa %xmm7, %xmm0			; SSE2-NEXT: movdqa %xmm7, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm14[0],xmm0[1],xmm14[1],xmm0[2],xmm14[2],xmm0[3],xmm14[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm14[0],xmm0[1],xmm14[1],xmm0[2],xmm14[2],xmm0[3],xmm14[3]
	; SSE2-NEXT: psubd %xmm0, %xmm13			; SSE2-NEXT: psubd %xmm0, %xmm13
	; SSE2-NEXT: movdqa %xmm13, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm13, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm9, %xmm0			; SSE2-NEXT: movdqa %xmm9, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm14[0],xmm0[1],xmm14[1],xmm0[2],xmm14[2],xmm0[3],xmm14[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm14[0],xmm0[1],xmm14[1],xmm0[2],xmm14[2],xmm0[3],xmm14[3]
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm7 = xmm7[4],xmm14[4],xmm7[5],xmm14[5],xmm7[6],xmm14[6],xmm7[7],xmm14[7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm7 = xmm7[4],xmm14[4],xmm7[5],xmm14[5],xmm7[6],xmm14[6],xmm7[7],xmm14[7]
	; SSE2-NEXT: psubd %xmm7, %xmm12			; SSE2-NEXT: psubd %xmm7, %xmm12
	; SSE2-NEXT: movdqa b+1040(%rax), %xmm13			; SSE2-NEXT: movdqa b+1040(%rax), %xmm13
	; SSE2-NEXT: movdqa %xmm13, %xmm3			; SSE2-NEXT: movdqa %xmm13, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1],xmm3[2],xmm14[2],xmm3[3],xmm14[3],xmm3[4],xmm14[4],xmm3[5],xmm14[5],xmm3[6],xmm14[6],xmm3[7],xmm14[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm14[0],xmm3[1],xmm14[1],xmm3[2],xmm14[2],xmm3[3],xmm14[3],xmm3[4],xmm14[4],xmm3[5],xmm14[5],xmm3[6],xmm14[6],xmm3[7],xmm14[7]
	; SSE2-NEXT: movdqa %xmm3, %xmm7			; SSE2-NEXT: movdqa %xmm3, %xmm7
	Show All 12 Lines
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm2 = xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm2 = xmm2[4],xmm14[4],xmm2[5],xmm14[5],xmm2[6],xmm14[6],xmm2[7],xmm14[7]
	; SSE2-NEXT: punpckhwd {{.*#+}} xmm13 = xmm13[4],xmm14[4],xmm13[5],xmm14[5],xmm13[6],xmm14[6],xmm13[7],xmm14[7]			; SSE2-NEXT: punpckhwd {{.*#+}} xmm13 = xmm13[4],xmm14[4],xmm13[5],xmm14[5],xmm13[6],xmm14[6],xmm13[7],xmm14[7]
	; SSE2-NEXT: psubd %xmm13, %xmm2			; SSE2-NEXT: psubd %xmm13, %xmm2
	; SSE2-NEXT: movdqa %xmm2, %xmm13			; SSE2-NEXT: movdqa %xmm2, %xmm13
	; SSE2-NEXT: movdqa %xmm1, %xmm3			; SSE2-NEXT: movdqa %xmm1, %xmm3
	; SSE2-NEXT: psrad $31, %xmm3			; SSE2-NEXT: psrad $31, %xmm3
	; SSE2-NEXT: paddd %xmm3, %xmm1			; SSE2-NEXT: paddd %xmm3, %xmm1
	; SSE2-NEXT: pxor %xmm3, %xmm1			; SSE2-NEXT: pxor %xmm3, %xmm1
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm3 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm1, %xmm3			; SSE2-NEXT: paddd %xmm1, %xmm3
	; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm6, %xmm1			; SSE2-NEXT: movdqa %xmm6, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm6			; SSE2-NEXT: paddd %xmm1, %xmm6
	; SSE2-NEXT: pxor %xmm1, %xmm6			; SSE2-NEXT: pxor %xmm1, %xmm6
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm6, %xmm1			; SSE2-NEXT: paddd %xmm6, %xmm1
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm5, %xmm1			; SSE2-NEXT: movdqa %xmm5, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm5			; SSE2-NEXT: paddd %xmm1, %xmm5
	; SSE2-NEXT: pxor %xmm1, %xmm5			; SSE2-NEXT: pxor %xmm1, %xmm5
	; SSE2-NEXT: movdqa (%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa (%rsp), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm5, %xmm1			; SSE2-NEXT: paddd %xmm5, %xmm1
	; SSE2-NEXT: movdqa %xmm1, (%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, (%rsp) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm4, %xmm1			; SSE2-NEXT: movdqa %xmm4, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm4			; SSE2-NEXT: paddd %xmm1, %xmm4
	; SSE2-NEXT: pxor %xmm1, %xmm4			; SSE2-NEXT: pxor %xmm1, %xmm4
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm4, %xmm1			; SSE2-NEXT: paddd %xmm4, %xmm1
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm8, %xmm1			; SSE2-NEXT: movdqa %xmm8, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm8			; SSE2-NEXT: paddd %xmm1, %xmm8
	; SSE2-NEXT: pxor %xmm1, %xmm8			; SSE2-NEXT: pxor %xmm1, %xmm8
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm8, %xmm1			; SSE2-NEXT: paddd %xmm8, %xmm1
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm11, %xmm1			; SSE2-NEXT: movdqa %xmm11, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm11			; SSE2-NEXT: paddd %xmm1, %xmm11
	; SSE2-NEXT: pxor %xmm1, %xmm11			; SSE2-NEXT: pxor %xmm1, %xmm11
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm11, %xmm1			; SSE2-NEXT: paddd %xmm11, %xmm1
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm2 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
	; SSE2-NEXT: movdqa %xmm2, %xmm1			; SSE2-NEXT: movdqa %xmm2, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm2			; SSE2-NEXT: paddd %xmm1, %xmm2
	; SSE2-NEXT: pxor %xmm1, %xmm2			; SSE2-NEXT: pxor %xmm1, %xmm2
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm2, %xmm1			; SSE2-NEXT: paddd %xmm2, %xmm1
	; SSE2-NEXT: movdqa %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm15, %xmm1			; SSE2-NEXT: movdqa %xmm15, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm15			; SSE2-NEXT: paddd %xmm1, %xmm15
	; SSE2-NEXT: pxor %xmm1, %xmm15			; SSE2-NEXT: pxor %xmm1, %xmm15
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm15, %xmm1			; SSE2-NEXT: paddd %xmm15, %xmm1
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm2 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
	; SSE2-NEXT: movdqa %xmm2, %xmm1			; SSE2-NEXT: movdqa %xmm2, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm2			; SSE2-NEXT: paddd %xmm1, %xmm2
	; SSE2-NEXT: pxor %xmm1, %xmm2			; SSE2-NEXT: pxor %xmm1, %xmm2
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm2, %xmm1			; SSE2-NEXT: paddd %xmm2, %xmm1
	; SSE2-NEXT: movdqa %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm10, %xmm1			; SSE2-NEXT: movdqa %xmm10, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm10			; SSE2-NEXT: paddd %xmm1, %xmm10
	; SSE2-NEXT: pxor %xmm1, %xmm10			; SSE2-NEXT: pxor %xmm1, %xmm10
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm10, %xmm1			; SSE2-NEXT: paddd %xmm10, %xmm1
	; SSE2-NEXT: movdqa %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm2 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
	; SSE2-NEXT: movdqa %xmm2, %xmm1			; SSE2-NEXT: movdqa %xmm2, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm2			; SSE2-NEXT: paddd %xmm1, %xmm2
	; SSE2-NEXT: pxor %xmm1, %xmm2			; SSE2-NEXT: pxor %xmm1, %xmm2
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm2, %xmm1			; SSE2-NEXT: paddd %xmm2, %xmm1
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm12, %xmm1			; SSE2-NEXT: movdqa %xmm12, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm12			; SSE2-NEXT: paddd %xmm1, %xmm12
	; SSE2-NEXT: pxor %xmm1, %xmm12			; SSE2-NEXT: pxor %xmm1, %xmm12
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm12, %xmm1			; SSE2-NEXT: paddd %xmm12, %xmm1
	; SSE2-NEXT: movdqa %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: paddd %xmm1, %xmm0			; SSE2-NEXT: paddd %xmm1, %xmm0
	; SSE2-NEXT: pxor %xmm1, %xmm0			; SSE2-NEXT: pxor %xmm1, %xmm0
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm0, %xmm1			; SSE2-NEXT: paddd %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm1, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm9, %xmm0			; SSE2-NEXT: movdqa %xmm9, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: paddd %xmm0, %xmm9			; SSE2-NEXT: paddd %xmm0, %xmm9
	; SSE2-NEXT: pxor %xmm0, %xmm9			; SSE2-NEXT: pxor %xmm0, %xmm9
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm9, %xmm0			; SSE2-NEXT: paddd %xmm9, %xmm0
	; SSE2-NEXT: movdqa %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm7, %xmm0			; SSE2-NEXT: movdqa %xmm7, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: paddd %xmm0, %xmm7			; SSE2-NEXT: paddd %xmm0, %xmm7
	; SSE2-NEXT: pxor %xmm0, %xmm7			; SSE2-NEXT: pxor %xmm0, %xmm7
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm7, %xmm0			; SSE2-NEXT: paddd %xmm7, %xmm0
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: movdqa %xmm13, %xmm1			; SSE2-NEXT: movdqa %xmm13, %xmm1
	; SSE2-NEXT: movdqa %xmm13, %xmm0			; SSE2-NEXT: movdqa %xmm13, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: paddd %xmm0, %xmm1			; SSE2-NEXT: paddd %xmm0, %xmm1
	; SSE2-NEXT: pxor %xmm0, %xmm1			; SSE2-NEXT: pxor %xmm0, %xmm1
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; SSE2-NEXT: paddd %xmm1, %xmm0			; SSE2-NEXT: paddd %xmm1, %xmm0
	; SSE2-NEXT: movdqa %xmm0, {{[0-9]+}}(%rsp) # 16-byte Spill			; SSE2-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE2-NEXT: addq $4, %rax			; SSE2-NEXT: addq $4, %rax
	; SSE2-NEXT: jne .LBB2_1			; SSE2-NEXT: jne .LBB2_1
	; SSE2-NEXT: # %bb.2: # %middle.block			; SSE2-NEXT: # %bb.2: # %middle.block
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; SSE2-NEXT: paddd -{{[0-9]+}}(%rsp), %xmm0 # 16-byte Folded Reload			; SSE2-NEXT: paddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; SSE2-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Folded Reload			; SSE2-NEXT: paddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; SSE2-NEXT: paddd %xmm0, %xmm1			; SSE2-NEXT: paddd %xmm0, %xmm1
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm0 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; SSE2-NEXT: paddd -{{[0-9]+}}(%rsp), %xmm0 # 16-byte Folded Reload			; SSE2-NEXT: paddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm3 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Reload
	; SSE2-NEXT: paddd -{{[0-9]+}}(%rsp), %xmm3 # 16-byte Folded Reload			; SSE2-NEXT: paddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload
	; SSE2-NEXT: paddd %xmm1, %xmm3			; SSE2-NEXT: paddd %xmm1, %xmm3
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Folded Reload			; SSE2-NEXT: paddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm4 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm4 # 16-byte Reload
	; SSE2-NEXT: paddd -{{[0-9]+}}(%rsp), %xmm4 # 16-byte Folded Reload			; SSE2-NEXT: paddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm4 # 16-byte Folded Reload
	; SSE2-NEXT: paddd %xmm1, %xmm4			; SSE2-NEXT: paddd %xmm1, %xmm4
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm2 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
	; SSE2-NEXT: paddd {{[0-9]+}}(%rsp), %xmm2 # 16-byte Folded Reload			; SSE2-NEXT: paddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload
	; SSE2-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm1 # 16-byte Reload			; SSE2-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; SSE2-NEXT: paddd (%rsp), %xmm1 # 16-byte Folded Reload			; SSE2-NEXT: paddd (%rsp), %xmm1 # 16-byte Folded Reload
	; SSE2-NEXT: paddd %xmm4, %xmm1			; SSE2-NEXT: paddd %xmm4, %xmm1
	; SSE2-NEXT: paddd %xmm2, %xmm1			; SSE2-NEXT: paddd %xmm2, %xmm1
	; SSE2-NEXT: paddd %xmm3, %xmm1			; SSE2-NEXT: paddd %xmm3, %xmm1
	; SSE2-NEXT: paddd %xmm0, %xmm1			; SSE2-NEXT: paddd %xmm0, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE2-NEXT: paddd %xmm1, %xmm0			; SSE2-NEXT: paddd %xmm1, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	Show All 25 Lines
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %ymm7, %ymm11			; AVX1-NEXT: vmovdqa %ymm7, %ymm11
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm7, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm7, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa %xmm0, (%rsp) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, (%rsp) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpsubd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vmovdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpsubd %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vmovdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpsubd %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vmovdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm0, %xmm4, %xmm0			; AVX1-NEXT: vpsubd %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vmovdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm0, %xmm5, %xmm0			; AVX1-NEXT: vpsubd %xmm0, %xmm5, %xmm0
	; AVX1-NEXT: vmovdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm0, %xmm6, %xmm0			; AVX1-NEXT: vpsubd %xmm0, %xmm6, %xmm0
	; AVX1-NEXT: vmovdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqa %xmm0, -{{[0-9]+}}(%rsp) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm6, %xmm5, %xmm4			; AVX1-NEXT: vpsubd %xmm6, %xmm5, %xmm4
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpsubd %xmm6, %xmm5, %xmm3			; AVX1-NEXT: vpsubd %xmm6, %xmm5, %xmm3
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero
	Show All 26 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm14, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm14, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpabsd %xmm3, %xmm2			; AVX1-NEXT: vpabsd %xmm3, %xmm2
	; AVX1-NEXT: vpaddd %xmm14, %xmm2, %xmm2			; AVX1-NEXT: vpaddd %xmm14, %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm14			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm14
	; AVX1-NEXT: vpabsd %xmm4, %xmm1			; AVX1-NEXT: vpabsd %xmm4, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm13, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm13, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpabsd -{{[0-9]+}}(%rsp), %xmm0 # 16-byte Folded Reload			; AVX1-NEXT: vpabsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; AVX1-NEXT: vpaddd %xmm13, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm13, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm13			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm13
	; AVX1-NEXT: vpabsd -{{[0-9]+}}(%rsp), %xmm0 # 16-byte Folded Reload			; AVX1-NEXT: vpabsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; AVX1-NEXT: vextractf128 $1, %ymm8, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm8, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpabsd -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Folded Reload			; AVX1-NEXT: vpabsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; AVX1-NEXT: vpaddd %xmm8, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm8, %xmm1, %xmm1
	; AVX1-NEXT: vpabsd -{{[0-9]+}}(%rsp), %xmm2 # 16-byte Folded Reload			; AVX1-NEXT: vpabsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm8			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm8
	; AVX1-NEXT: vextractf128 $1, %ymm9, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm9, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpabsd -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Folded Reload			; AVX1-NEXT: vpabsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; AVX1-NEXT: vpaddd %xmm9, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm9, %xmm1, %xmm1
	; AVX1-NEXT: vpabsd -{{[0-9]+}}(%rsp), %xmm2 # 16-byte Folded Reload			; AVX1-NEXT: vpabsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm9			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm9
	; AVX1-NEXT: vextractf128 $1, %ymm10, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm10, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpabsd -{{[0-9]+}}(%rsp), %xmm1 # 16-byte Folded Reload			; AVX1-NEXT: vpabsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; AVX1-NEXT: vpaddd %xmm10, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm10, %xmm1, %xmm1
	; AVX1-NEXT: vpabsd -{{[0-9]+}}(%rsp), %xmm2 # 16-byte Folded Reload			; AVX1-NEXT: vpabsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm10			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm10
	; AVX1-NEXT: vextractf128 $1, %ymm12, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm12, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpabsd (%rsp), %xmm1 # 16-byte Folded Reload			; AVX1-NEXT: vpabsd (%rsp), %xmm1 # 16-byte Folded Reload
	; AVX1-NEXT: vpaddd %xmm12, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm12, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm12			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm12
	; AVX1-NEXT: addq $4, %rax			; AVX1-NEXT: addq $4, %rax
	; AVX1-NEXT: jne .LBB2_1			; AVX1-NEXT: jne .LBB2_1
	Show All 18 Lines
	; AVX1-NEXT: vpaddd %xmm2, %xmm8, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm8, %xmm2
	; AVX1-NEXT: vpaddd %xmm1, %xmm9, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm9, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm15, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm15, %xmm1
	; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm14, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm14, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: addq $24, %rsp			; AVX1-NEXT: addq $24, %rsp
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: sad_avx64i8:			; AVX2-LABEL: sad_avx64i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 11 Lines
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm8 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm8 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm9 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm9 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm10 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm10 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm11 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm11 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm12 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm12 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm13 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm13 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm14 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm14 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vmovdqu %ymm15, -{{[0-9]+}}(%rsp) # 32-byte Spill			; AVX2-NEXT: vmovdqu %ymm15, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpsubd %ymm15, %ymm8, %ymm8			; AVX2-NEXT: vpsubd %ymm15, %ymm8, %ymm8
	; AVX2-NEXT: vmovdqu %ymm8, -{{[0-9]+}}(%rsp) # 32-byte Spill			; AVX2-NEXT: vmovdqu %ymm8, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpsubd %ymm15, %ymm9, %ymm9			; AVX2-NEXT: vpsubd %ymm15, %ymm9, %ymm9
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpsubd %ymm15, %ymm10, %ymm10			; AVX2-NEXT: vpsubd %ymm15, %ymm10, %ymm10
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpsubd %ymm15, %ymm11, %ymm11			; AVX2-NEXT: vpsubd %ymm15, %ymm11, %ymm11
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpsubd %ymm15, %ymm12, %ymm12			; AVX2-NEXT: vpsubd %ymm15, %ymm12, %ymm12
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpsubd %ymm15, %ymm13, %ymm13			; AVX2-NEXT: vpsubd %ymm15, %ymm13, %ymm13
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpsubd %ymm15, %ymm14, %ymm14			; AVX2-NEXT: vpsubd %ymm15, %ymm14, %ymm14
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm15 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vmovdqu -{{[0-9]+}}(%rsp), %ymm8 # 32-byte Reload			; AVX2-NEXT: vmovdqu {{[-0-9]+}}(%r{{[sb]}}p), %ymm8 # 32-byte Reload
	; AVX2-NEXT: vpsubd %ymm15, %ymm8, %ymm15			; AVX2-NEXT: vpsubd %ymm15, %ymm8, %ymm15
	; AVX2-NEXT: vpabsd -{{[0-9]+}}(%rsp), %ymm8 # 32-byte Folded Reload			; AVX2-NEXT: vpabsd {{[-0-9]+}}(%r{{[sb]}}p), %ymm8 # 32-byte Folded Reload
	; AVX2-NEXT: vpaddd %ymm7, %ymm8, %ymm7			; AVX2-NEXT: vpaddd %ymm7, %ymm8, %ymm7
	; AVX2-NEXT: vpabsd %ymm9, %ymm8			; AVX2-NEXT: vpabsd %ymm9, %ymm8
	; AVX2-NEXT: vpaddd %ymm5, %ymm8, %ymm5			; AVX2-NEXT: vpaddd %ymm5, %ymm8, %ymm5
	; AVX2-NEXT: vpabsd %ymm10, %ymm8			; AVX2-NEXT: vpabsd %ymm10, %ymm8
	; AVX2-NEXT: vpaddd %ymm6, %ymm8, %ymm6			; AVX2-NEXT: vpaddd %ymm6, %ymm8, %ymm6
	; AVX2-NEXT: vpabsd %ymm11, %ymm8			; AVX2-NEXT: vpabsd %ymm11, %ymm8
	; AVX2-NEXT: vpaddd %ymm3, %ymm8, %ymm3			; AVX2-NEXT: vpaddd %ymm3, %ymm8, %ymm3
	; AVX2-NEXT: vpabsd %ymm12, %ymm8			; AVX2-NEXT: vpabsd %ymm12, %ymm8
	Show All 13 Lines
	; AVX2-NEXT: vpaddd %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpaddd %ymm5, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm5, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: sad_avx64i8:			; AVX512F-LABEL: sad_avx64i8:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512F-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512F-NEXT: movq $-1024, %rax # imm = 0xFC00
	▲ Show 20 Lines • Show All 478 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovdqu (%rdx), %xmm1			; AVX1-NEXT: vmovdqu (%rdx), %xmm1
	; AVX1-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX1-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX1-NEXT: movl $1, %eax			; AVX1-NEXT: movl $1, %eax
	; AVX1-NEXT: vmovd %eax, %xmm2			; AVX1-NEXT: vmovd %eax, %xmm2
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: sad_unroll_nonzero_initial:			; AVX2-LABEL: sad_unroll_nonzero_initial:
	; AVX2: # %bb.0: # %bb			; AVX2: # %bb.0: # %bb
	; AVX2-NEXT: vmovdqu (%rdi), %xmm0			; AVX2-NEXT: vmovdqu (%rdi), %xmm0
	; AVX2-NEXT: vpsadbw (%rsi), %xmm0, %xmm0			; AVX2-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
	; AVX2-NEXT: movl $1, %eax			; AVX2-NEXT: movl $1, %eax
	; AVX2-NEXT: vmovd %eax, %xmm1			; AVX2-NEXT: vmovd %eax, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu (%rdx), %xmm1			; AVX2-NEXT: vmovdqu (%rdx), %xmm1
	; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_unroll_nonzero_initial:			; AVX512-LABEL: sad_unroll_nonzero_initial:
	; AVX512: # %bb.0: # %bb			; AVX512: # %bb.0: # %bb
	; AVX512-NEXT: vmovdqu (%rdi), %xmm0			; AVX512-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512-NEXT: vpsadbw (%rsi), %xmm0, %xmm0			; AVX512-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; AVX1: # %bb.0: # %bb			; AVX1: # %bb.0: # %bb
	; AVX1-NEXT: vmovdqu (%rdi), %xmm0			; AVX1-NEXT: vmovdqu (%rdi), %xmm0
	; AVX1-NEXT: vmovdqu (%rdx), %xmm1			; AVX1-NEXT: vmovdqu (%rdx), %xmm1
	; AVX1-NEXT: vpsadbw (%rsi), %xmm0, %xmm0			; AVX1-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
	; AVX1-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX1-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: sad_double_reduction:			; AVX2-LABEL: sad_double_reduction:
	; AVX2: # %bb.0: # %bb			; AVX2: # %bb.0: # %bb
	; AVX2-NEXT: vmovdqu (%rdi), %xmm0			; AVX2-NEXT: vmovdqu (%rdi), %xmm0
	; AVX2-NEXT: vmovdqu (%rdx), %xmm1			; AVX2-NEXT: vmovdqu (%rdx), %xmm1
	; AVX2-NEXT: vpsadbw (%rsi), %xmm0, %xmm0			; AVX2-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
	; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_double_reduction:			; AVX512-LABEL: sad_double_reduction:
	; AVX512: # %bb.0: # %bb			; AVX512: # %bb.0: # %bb
	; AVX512-NEXT: vmovdqu (%rdi), %xmm0			; AVX512-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512-NEXT: vmovdqu (%rdx), %xmm1			; AVX512-NEXT: vmovdqu (%rdx), %xmm1
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-add.ll

Show First 20 Lines • Show All 189 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
ret i64 %1		ret i64 %1
}		}

;		;
; vXi32		; vXi32
;		;

define i32 @test_v4i32(<4 x i32> %a0) {		define i32 @test_v4i32(<4 x i32> %a0) {
; SSE2-LABEL: test_v4i32:		; SSE-LABEL: test_v4i32:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SSE2-NEXT: paddd %xmm0, %xmm1		; SSE-NEXT: paddd %xmm0, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
; SSE2-NEXT: paddd %xmm1, %xmm0		; SSE-NEXT: paddd %xmm1, %xmm0
; SSE2-NEXT: movd %xmm0, %eax		; SSE-NEXT: movd %xmm0, %eax
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v4i32:
; SSE41: # %bb.0:
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SSE41-NEXT: paddd %xmm0, %xmm1
; SSE41-NEXT: phaddd %xmm1, %xmm1
; SSE41-NEXT: movd %xmm1, %eax
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v4i32:		; AVX-LABEL: test_v4i32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX-NEXT: vphaddd %xmm0, %xmm0, %xmm0		; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
		; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX-NEXT: vmovd %xmm0, %eax		; AVX-NEXT: vmovd %xmm0, %eax
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v4i32:		; AVX512-LABEL: test_v4i32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vphaddd %xmm0, %xmm0, %xmm0		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
		; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vmovd %xmm0, %eax		; AVX512-NEXT: vmovd %xmm0, %eax
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v4i32(<4 x i32> %a0)		%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v4i32(<4 x i32> %a0)
ret i32 %1		ret i32 %1
}		}

define i32 @test_v8i32(<8 x i32> %a0) {		define i32 @test_v8i32(<8 x i32> %a0) {
; SSE2-LABEL: test_v8i32:		; SSE-LABEL: test_v8i32:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: paddd %xmm1, %xmm0		; SSE-NEXT: paddd %xmm1, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SSE2-NEXT: paddd %xmm0, %xmm1		; SSE-NEXT: paddd %xmm0, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
; SSE2-NEXT: paddd %xmm1, %xmm0		; SSE-NEXT: paddd %xmm1, %xmm0
; SSE2-NEXT: movd %xmm0, %eax		; SSE-NEXT: movd %xmm0, %eax
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v8i32:
; SSE41: # %bb.0:
; SSE41-NEXT: paddd %xmm1, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SSE41-NEXT: paddd %xmm0, %xmm1
; SSE41-NEXT: phaddd %xmm1, %xmm1
; SSE41-NEXT: movd %xmm1, %eax
; SSE41-NEXT: retq
;		;
; AVX1-LABEL: test_v8i32:		; AVX1-LABEL: test_v8i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %eax		; AVX1-NEXT: vmovd %xmm0, %eax
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: test_v8i32:		; AVX2-LABEL: test_v8i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
		; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vmovd %xmm0, %eax		; AVX2-NEXT: vmovd %xmm0, %eax
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: test_v8i32:		; AVX512-LABEL: test_v8i32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vphaddd %ymm0, %ymm0, %ymm0		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
		; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vmovd %xmm0, %eax		; AVX512-NEXT: vmovd %xmm0, %eax
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32> %a0)		%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32> %a0)
ret i32 %1		ret i32 %1
}		}

define i32 @test_v16i32(<16 x i32> %a0) {		define i32 @test_v16i32(<16 x i32> %a0) {
; SSE2-LABEL: test_v16i32:		; SSE-LABEL: test_v16i32:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: paddd %xmm3, %xmm1		; SSE-NEXT: paddd %xmm3, %xmm1
; SSE2-NEXT: paddd %xmm2, %xmm1		; SSE-NEXT: paddd %xmm2, %xmm1
; SSE2-NEXT: paddd %xmm0, %xmm1		; SSE-NEXT: paddd %xmm0, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
; SSE2-NEXT: paddd %xmm1, %xmm0		; SSE-NEXT: paddd %xmm1, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; SSE2-NEXT: paddd %xmm0, %xmm1		; SSE-NEXT: paddd %xmm0, %xmm1
; SSE2-NEXT: movd %xmm1, %eax		; SSE-NEXT: movd %xmm1, %eax
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v16i32:
; SSE41: # %bb.0:
; SSE41-NEXT: paddd %xmm3, %xmm1
; SSE41-NEXT: paddd %xmm2, %xmm1
; SSE41-NEXT: paddd %xmm0, %xmm1
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
; SSE41-NEXT: paddd %xmm1, %xmm0
; SSE41-NEXT: phaddd %xmm0, %xmm0
; SSE41-NEXT: movd %xmm0, %eax
; SSE41-NEXT: retq
;		;
; AVX1-LABEL: test_v16i32:		; AVX1-LABEL: test_v16i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %eax		; AVX1-NEXT: vmovd %xmm0, %eax
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: test_v16i32:		; AVX2-LABEL: test_v16i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
		; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vmovd %xmm0, %eax		; AVX2-NEXT: vmovd %xmm0, %eax
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: test_v16i32:		; AVX512-LABEL: test_v16i32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1		; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vmovd %xmm0, %eax		; AVX512-NEXT: vmovd %xmm0, %eax
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v16i32(<16 x i32> %a0)		%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v16i32(<16 x i32> %a0)
ret i32 %1		ret i32 %1
}		}

define i32 @test_v32i32(<32 x i32> %a0) {		define i32 @test_v32i32(<32 x i32> %a0) {
; SSE2-LABEL: test_v32i32:		; SSE-LABEL: test_v32i32:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: paddd %xmm6, %xmm2		; SSE-NEXT: paddd %xmm6, %xmm2
; SSE2-NEXT: paddd %xmm7, %xmm3		; SSE-NEXT: paddd %xmm7, %xmm3
; SSE2-NEXT: paddd %xmm5, %xmm3		; SSE-NEXT: paddd %xmm5, %xmm3
; SSE2-NEXT: paddd %xmm1, %xmm3		; SSE-NEXT: paddd %xmm1, %xmm3
; SSE2-NEXT: paddd %xmm4, %xmm2		; SSE-NEXT: paddd %xmm4, %xmm2
; SSE2-NEXT: paddd %xmm3, %xmm2		; SSE-NEXT: paddd %xmm3, %xmm2
; SSE2-NEXT: paddd %xmm0, %xmm2		; SSE-NEXT: paddd %xmm0, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
; SSE2-NEXT: paddd %xmm2, %xmm0		; SSE-NEXT: paddd %xmm2, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; SSE2-NEXT: paddd %xmm0, %xmm1		; SSE-NEXT: paddd %xmm0, %xmm1
; SSE2-NEXT: movd %xmm1, %eax		; SSE-NEXT: movd %xmm1, %eax
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v32i32:
; SSE41: # %bb.0:
; SSE41-NEXT: paddd %xmm6, %xmm2
; SSE41-NEXT: paddd %xmm7, %xmm3
; SSE41-NEXT: paddd %xmm5, %xmm3
; SSE41-NEXT: paddd %xmm1, %xmm3
; SSE41-NEXT: paddd %xmm4, %xmm2
; SSE41-NEXT: paddd %xmm3, %xmm2
; SSE41-NEXT: paddd %xmm0, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
; SSE41-NEXT: paddd %xmm2, %xmm0
; SSE41-NEXT: phaddd %xmm0, %xmm0
; SSE41-NEXT: movd %xmm0, %eax
; SSE41-NEXT: retq
;		;
; AVX1-LABEL: test_v32i32:		; AVX1-LABEL: test_v32i32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm4		; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm4
; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3
; AVX1-NEXT: vpaddd %xmm1, %xmm3, %xmm1		; AVX1-NEXT: vpaddd %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX1-NEXT: vpaddd %xmm1, %xmm3, %xmm1		; AVX1-NEXT: vpaddd %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vpaddd %xmm4, %xmm2, %xmm2		; AVX1-NEXT: vpaddd %xmm4, %xmm2, %xmm2
; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1		; AVX1-NEXT: vpaddd %xmm1, %xmm2, %xmm1
; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vphaddd %xmm0, %xmm0, %xmm0		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %eax		; AVX1-NEXT: vmovd %xmm0, %eax
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: test_v32i32:		; AVX2-LABEL: test_v32i32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1		; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1
; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1		; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1
; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vphaddd %ymm0, %ymm0, %ymm0		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
		; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vmovd %xmm0, %eax		; AVX2-NEXT: vmovd %xmm0, %eax
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: test_v32i32:		; AVX512-LABEL: test_v32i32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1		; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
Show All 11 Lines	; AVX512-NEXT: retq
ret i32 %1		ret i32 %1
}		}

;		;
; vXi16		; vXi16
;		;

define i16 @test_v8i16(<8 x i16> %a0) {		define i16 @test_v8i16(<8 x i16> %a0) {
; SSE2-LABEL: test_v8i16:		; SSE-LABEL: test_v8i16:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SSE2-NEXT: paddw %xmm0, %xmm1		; SSE-NEXT: paddw %xmm0, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
; SSE2-NEXT: paddw %xmm1, %xmm0		; SSE-NEXT: paddw %xmm1, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrld $16, %xmm1		; SSE-NEXT: psrld $16, %xmm1
; SSE2-NEXT: paddw %xmm0, %xmm1		; SSE-NEXT: paddw %xmm0, %xmm1
; SSE2-NEXT: movd %xmm1, %eax		; SSE-NEXT: movd %xmm1, %eax
; SSE2-NEXT: # kill: def $ax killed $ax killed $eax		; SSE-NEXT: # kill: def $ax killed $ax killed $eax
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v8i16:
; SSE41: # %bb.0:
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SSE41-NEXT: paddw %xmm0, %xmm1
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
; SSE41-NEXT: paddw %xmm1, %xmm0
; SSE41-NEXT: phaddw %xmm0, %xmm0
; SSE41-NEXT: movd %xmm0, %eax
; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v8i16:		; AVX-LABEL: test_v8i16:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX-NEXT: vphaddw %xmm0, %xmm0, %xmm0		; AVX-NEXT: vpsrld $16, %xmm0, %xmm1
		; AVX-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX-NEXT: vmovd %xmm0, %eax		; AVX-NEXT: vmovd %xmm0, %eax
; AVX-NEXT: # kill: def $ax killed $ax killed $eax		; AVX-NEXT: # kill: def $ax killed $ax killed $eax
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v8i16:		; AVX512-LABEL: test_v8i16:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vphaddw %xmm0, %xmm0, %xmm0		; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
		; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vmovd %xmm0, %eax		; AVX512-NEXT: vmovd %xmm0, %eax
; AVX512-NEXT: # kill: def $ax killed $ax killed $eax		; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v8i16(<8 x i16> %a0)		%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v8i16(<8 x i16> %a0)
ret i16 %1		ret i16 %1
}		}

define i16 @test_v16i16(<16 x i16> %a0) {		define i16 @test_v16i16(<16 x i16> %a0) {
; SSE2-LABEL: test_v16i16:		; SSE-LABEL: test_v16i16:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: paddw %xmm1, %xmm0		; SSE-NEXT: paddw %xmm1, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SSE2-NEXT: paddw %xmm0, %xmm1		; SSE-NEXT: paddw %xmm0, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
; SSE2-NEXT: paddw %xmm1, %xmm0		; SSE-NEXT: paddw %xmm1, %xmm0
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrld $16, %xmm1		; SSE-NEXT: psrld $16, %xmm1
; SSE2-NEXT: paddw %xmm0, %xmm1		; SSE-NEXT: paddw %xmm0, %xmm1
; SSE2-NEXT: movd %xmm1, %eax		; SSE-NEXT: movd %xmm1, %eax
; SSE2-NEXT: # kill: def $ax killed $ax killed $eax		; SSE-NEXT: # kill: def $ax killed $ax killed $eax
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v16i16:
; SSE41: # %bb.0:
; SSE41-NEXT: paddw %xmm1, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SSE41-NEXT: paddw %xmm0, %xmm1
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
; SSE41-NEXT: paddw %xmm1, %xmm0
; SSE41-NEXT: phaddw %xmm0, %xmm0
; SSE41-NEXT: movd %xmm0, %eax
; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
; SSE41-NEXT: retq
;		;
; AVX1-LABEL: test_v16i16:		; AVX1-LABEL: test_v16i16:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vphaddw %xmm0, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %eax		; AVX1-NEXT: vmovd %xmm0, %eax
; AVX1-NEXT: # kill: def $ax killed $ax killed $eax		; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: test_v16i16:		; AVX2-LABEL: test_v16i16:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vphaddw %ymm0, %ymm0, %ymm0		; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vmovd %xmm0, %eax		; AVX2-NEXT: vmovd %xmm0, %eax
; AVX2-NEXT: # kill: def $ax killed $ax killed $eax		; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: test_v16i16:		; AVX512-LABEL: test_v16i16:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vphaddw %ymm0, %ymm0, %ymm0		; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
		; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vmovd %xmm0, %eax		; AVX512-NEXT: vmovd %xmm0, %eax
; AVX512-NEXT: # kill: def $ax killed $ax killed $eax		; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16> %a0)		%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16> %a0)
ret i16 %1		ret i16 %1
}		}

define i16 @test_v32i16(<32 x i16> %a0) {		define i16 @test_v32i16(<32 x i16> %a0) {
; SSE2-LABEL: test_v32i16:		; SSE-LABEL: test_v32i16:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: paddw %xmm3, %xmm1		; SSE-NEXT: paddw %xmm3, %xmm1
; SSE2-NEXT: paddw %xmm2, %xmm1		; SSE-NEXT: paddw %xmm2, %xmm1
; SSE2-NEXT: paddw %xmm0, %xmm1		; SSE-NEXT: paddw %xmm0, %xmm1
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
; SSE2-NEXT: paddw %xmm1, %xmm0		; SSE-NEXT: paddw %xmm1, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; SSE2-NEXT: paddw %xmm0, %xmm1		; SSE-NEXT: paddw %xmm0, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm0		; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE2-NEXT: psrld $16, %xmm0		; SSE-NEXT: psrld $16, %xmm0
; SSE2-NEXT: paddw %xmm1, %xmm0		; SSE-NEXT: paddw %xmm1, %xmm0
; SSE2-NEXT: movd %xmm0, %eax		; SSE-NEXT: movd %xmm0, %eax
; SSE2-NEXT: # kill: def $ax killed $ax killed $eax		; SSE-NEXT: # kill: def $ax killed $ax killed $eax
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v32i16:
; SSE41: # %bb.0:
; SSE41-NEXT: paddw %xmm3, %xmm1
; SSE41-NEXT: paddw %xmm2, %xmm1
; SSE41-NEXT: paddw %xmm0, %xmm1
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
; SSE41-NEXT: paddw %xmm1, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; SSE41-NEXT: paddw %xmm0, %xmm1
; SSE41-NEXT: phaddw %xmm1, %xmm1
; SSE41-NEXT: movd %xmm1, %eax
; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
; SSE41-NEXT: retq
;		;
; AVX1-LABEL: test_v32i16:		; AVX1-LABEL: test_v32i16:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2		; AVX1-NEXT: vpaddw %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vpaddw %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpaddw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vphaddw %xmm0, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %eax		; AVX1-NEXT: vmovd %xmm0, %eax
; AVX1-NEXT: # kill: def $ax killed $ax killed $eax		; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: test_v32i16:		; AVX2-LABEL: test_v32i16:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vphaddw %ymm0, %ymm0, %ymm0		; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vmovd %xmm0, %eax		; AVX2-NEXT: vmovd %xmm0, %eax
; AVX2-NEXT: # kill: def $ax killed $ax killed $eax		; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: test_v32i16:		; AVX512-LABEL: test_v32i16:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1		; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
Show All 10 Lines
; AVX512-NEXT: # kill: def $ax killed $ax killed $eax		; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v32i16(<32 x i16> %a0)		%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v32i16(<32 x i16> %a0)
ret i16 %1		ret i16 %1
}		}

define i16 @test_v64i16(<64 x i16> %a0) {		define i16 @test_v64i16(<64 x i16> %a0) {
; SSE2-LABEL: test_v64i16:		; SSE-LABEL: test_v64i16:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: paddw %xmm6, %xmm2		; SSE-NEXT: paddw %xmm6, %xmm2
; SSE2-NEXT: paddw %xmm7, %xmm3		; SSE-NEXT: paddw %xmm7, %xmm3
; SSE2-NEXT: paddw %xmm5, %xmm3		; SSE-NEXT: paddw %xmm5, %xmm3
; SSE2-NEXT: paddw %xmm1, %xmm3		; SSE-NEXT: paddw %xmm1, %xmm3
; SSE2-NEXT: paddw %xmm4, %xmm2		; SSE-NEXT: paddw %xmm4, %xmm2
; SSE2-NEXT: paddw %xmm3, %xmm2		; SSE-NEXT: paddw %xmm3, %xmm2
; SSE2-NEXT: paddw %xmm0, %xmm2		; SSE-NEXT: paddw %xmm0, %xmm2
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]		; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
; SSE2-NEXT: paddw %xmm2, %xmm0		; SSE-NEXT: paddw %xmm2, %xmm0
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; SSE2-NEXT: paddw %xmm0, %xmm1		; SSE-NEXT: paddw %xmm0, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm0		; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE2-NEXT: psrld $16, %xmm0		; SSE-NEXT: psrld $16, %xmm0
; SSE2-NEXT: paddw %xmm1, %xmm0		; SSE-NEXT: paddw %xmm1, %xmm0
; SSE2-NEXT: movd %xmm0, %eax		; SSE-NEXT: movd %xmm0, %eax
; SSE2-NEXT: # kill: def $ax killed $ax killed $eax		; SSE-NEXT: # kill: def $ax killed $ax killed $eax
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v64i16:
; SSE41: # %bb.0:
; SSE41-NEXT: paddw %xmm6, %xmm2
; SSE41-NEXT: paddw %xmm7, %xmm3
; SSE41-NEXT: paddw %xmm5, %xmm3
; SSE41-NEXT: paddw %xmm1, %xmm3
; SSE41-NEXT: paddw %xmm4, %xmm2
; SSE41-NEXT: paddw %xmm3, %xmm2
; SSE41-NEXT: paddw %xmm0, %xmm2
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[2,3,0,1]
; SSE41-NEXT: paddw %xmm2, %xmm0
; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; SSE41-NEXT: paddw %xmm0, %xmm1
; SSE41-NEXT: phaddw %xmm1, %xmm1
; SSE41-NEXT: movd %xmm1, %eax
; SSE41-NEXT: # kill: def $ax killed $ax killed $eax
; SSE41-NEXT: retq
;		;
; AVX1-LABEL: test_v64i16:		; AVX1-LABEL: test_v64i16:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpaddw %xmm3, %xmm1, %xmm4		; AVX1-NEXT: vpaddw %xmm3, %xmm1, %xmm4
; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
; AVX1-NEXT: vpaddw %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vpaddw %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3
; AVX1-NEXT: vpaddw %xmm1, %xmm3, %xmm1		; AVX1-NEXT: vpaddw %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX1-NEXT: vpaddw %xmm1, %xmm3, %xmm1		; AVX1-NEXT: vpaddw %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vpaddw %xmm4, %xmm2, %xmm2		; AVX1-NEXT: vpaddw %xmm4, %xmm2, %xmm2
; AVX1-NEXT: vpaddw %xmm1, %xmm2, %xmm1		; AVX1-NEXT: vpaddw %xmm1, %xmm2, %xmm1
; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vphaddw %xmm0, %xmm0, %xmm0		; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
		; AVX1-NEXT: vpaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %eax		; AVX1-NEXT: vmovd %xmm0, %eax
; AVX1-NEXT: # kill: def $ax killed $ax killed $eax		; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: test_v64i16:		; AVX2-LABEL: test_v64i16:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpaddw %ymm3, %ymm1, %ymm1		; AVX2-NEXT: vpaddw %ymm3, %ymm1, %ymm1
; AVX2-NEXT: vpaddw %ymm1, %ymm2, %ymm1		; AVX2-NEXT: vpaddw %ymm1, %ymm2, %ymm1
; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1		; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vphaddw %ymm0, %ymm0, %ymm0		; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
		; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vmovd %xmm0, %eax		; AVX2-NEXT: vmovd %xmm0, %eax
; AVX2-NEXT: # kill: def $ax killed $ax killed $eax		; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: test_v64i16:		; AVX512-LABEL: test_v64i16:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
▲ Show 20 Lines • Show All 409 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-fadd-fast.ll

Show All 14 Lines
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
; SSE2-NEXT: addps %xmm1, %xmm0		; SSE2-NEXT: addps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_v2f32:		; SSE41-LABEL: test_v2f32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movaps %xmm1, %xmm0		; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
; SSE41-NEXT: haddps %xmm1, %xmm0		; SSE41-NEXT: addps %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v2f32:		; AVX-LABEL: test_v2f32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vhaddps %xmm1, %xmm1, %xmm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
		; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v2f32:		; AVX512-LABEL: test_v2f32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vhaddps %xmm1, %xmm1, %xmm0		; AVX512-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
		; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)		%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float %a0, <2 x float> %a1)
ret float %1		ret float %1
}		}

define float @test_v4f32(float %a0, <4 x float> %a1) {		define float @test_v4f32(float %a0, <4 x float> %a1) {
; SSE2-LABEL: test_v4f32:		; SSE2-LABEL: test_v4f32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movaps %xmm1, %xmm2		; SSE2-NEXT: movaps %xmm1, %xmm2
; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]		; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
; SSE2-NEXT: addps %xmm1, %xmm2		; SSE2-NEXT: addps %xmm1, %xmm2
; SSE2-NEXT: movaps %xmm2, %xmm0		; SSE2-NEXT: movaps %xmm2, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]
; SSE2-NEXT: addps %xmm2, %xmm0		; SSE2-NEXT: addps %xmm2, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_v4f32:		; SSE41-LABEL: test_v4f32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movaps %xmm1, %xmm0		; SSE41-NEXT: movaps %xmm1, %xmm2
; SSE41-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]		; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
; SSE41-NEXT: addps %xmm1, %xmm0		; SSE41-NEXT: addps %xmm1, %xmm2
; SSE41-NEXT: haddps %xmm0, %xmm0		; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
		; SSE41-NEXT: addps %xmm2, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v4f32:		; AVX-LABEL: test_v4f32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]		; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0		; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v4f32:		; AVX512-LABEL: test_v4f32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]		; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0		; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0
; AVX512-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)		%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float %a0, <4 x float> %a1)
ret float %1		ret float %1
}		}

define float @test_v8f32(float %a0, <8 x float> %a1) {		define float @test_v8f32(float %a0, <8 x float> %a1) {
; SSE2-LABEL: test_v8f32:		; SSE2-LABEL: test_v8f32:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: addps %xmm2, %xmm1		; SSE2-NEXT: addps %xmm2, %xmm1
; SSE2-NEXT: movaps %xmm1, %xmm2		; SSE2-NEXT: movaps %xmm1, %xmm2
; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]		; SSE2-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
; SSE2-NEXT: addps %xmm1, %xmm2		; SSE2-NEXT: addps %xmm1, %xmm2
; SSE2-NEXT: movaps %xmm2, %xmm0		; SSE2-NEXT: movaps %xmm2, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm2[2,3]
; SSE2-NEXT: addps %xmm2, %xmm0		; SSE2-NEXT: addps %xmm2, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_v8f32:		; SSE41-LABEL: test_v8f32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: addps %xmm2, %xmm1		; SSE41-NEXT: addps %xmm2, %xmm1
; SSE41-NEXT: movaps %xmm1, %xmm0		; SSE41-NEXT: movaps %xmm1, %xmm2
; SSE41-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]		; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
; SSE41-NEXT: addps %xmm1, %xmm0		; SSE41-NEXT: addps %xmm1, %xmm2
; SSE41-NEXT: haddps %xmm0, %xmm0		; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
		; SSE41-NEXT: addps %xmm2, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v8f32:		; AVX-LABEL: test_v8f32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
; AVX-NEXT: vaddps %ymm0, %ymm1, %ymm0		; AVX-NEXT: vaddps %ymm0, %ymm1, %ymm0
; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v8f32:		; AVX512-LABEL: test_v8f32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
; AVX512-NEXT: vaddps %ymm0, %ymm1, %ymm0		; AVX512-NEXT: vaddps %ymm0, %ymm1, %ymm0
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vhaddps %ymm0, %ymm0, %ymm0		; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)		%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)
ret float %1		ret float %1
}		}

define float @test_v16f32(float %a0, <16 x float> %a1) {		define float @test_v16f32(float %a0, <16 x float> %a1) {
Show All 10 Lines
; SSE2-NEXT: addps %xmm2, %xmm0		; SSE2-NEXT: addps %xmm2, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_v16f32:		; SSE41-LABEL: test_v16f32:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: addps %xmm4, %xmm2		; SSE41-NEXT: addps %xmm4, %xmm2
; SSE41-NEXT: addps %xmm3, %xmm1		; SSE41-NEXT: addps %xmm3, %xmm1
; SSE41-NEXT: addps %xmm2, %xmm1		; SSE41-NEXT: addps %xmm2, %xmm1
; SSE41-NEXT: movaps %xmm1, %xmm0		; SSE41-NEXT: movaps %xmm1, %xmm2
; SSE41-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]		; SSE41-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm1[1]
; SSE41-NEXT: addps %xmm1, %xmm0		; SSE41-NEXT: addps %xmm1, %xmm2
; SSE41-NEXT: haddps %xmm0, %xmm0		; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
		; SSE41-NEXT: addps %xmm2, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v16f32:		; AVX-LABEL: test_v16f32:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm0		; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm0
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v16f32:		; AVX512-LABEL: test_v16f32:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; AVX512-NEXT: vaddps %zmm0, %zmm1, %zmm0		; AVX512-NEXT: vaddps %zmm0, %zmm1, %zmm0
Show All 20 Lines
; SSE2-NEXT: movaps %xmm0, %xmm1		; SSE2-NEXT: movaps %xmm0, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
; SSE2-NEXT: addps %xmm0, %xmm1		; SSE2-NEXT: addps %xmm0, %xmm1
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_v2f32_zero:		; SSE41-LABEL: test_v2f32_zero:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: haddps %xmm0, %xmm0		; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; SSE41-NEXT: addps %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v2f32_zero:		; AVX-LABEL: test_v2f32_zero:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v2f32_zero:		; AVX512-LABEL: test_v2f32_zero:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)		%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float 0.0, <2 x float> %a0)
ret float %1		ret float %1
}		}

define float @test_v4f32_zero(<4 x float> %a0) {		define float @test_v4f32_zero(<4 x float> %a0) {
; SSE2-LABEL: test_v4f32_zero:		; SSE2-LABEL: test_v4f32_zero:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movaps %xmm0, %xmm1		; SSE2-NEXT: movaps %xmm0, %xmm1
; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE2-NEXT: addps %xmm0, %xmm1		; SSE2-NEXT: addps %xmm0, %xmm1
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
; SSE2-NEXT: addps %xmm1, %xmm0		; SSE2-NEXT: addps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_v4f32_zero:		; SSE41-LABEL: test_v4f32_zero:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movaps %xmm0, %xmm1		; SSE41-NEXT: movaps %xmm0, %xmm1
; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE41-NEXT: addps %xmm0, %xmm1		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: haddps %xmm1, %xmm1		; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: movaps %xmm1, %xmm0		; SSE41-NEXT: movaps %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v4f32_zero:		; AVX-LABEL: test_v4f32_zero:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0		; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v4f32_zero:		; AVX512-LABEL: test_v4f32_zero:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)		%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float 0.0, <4 x float> %a0)
ret float %1		ret float %1
}		}

define float @test_v8f32_zero(<8 x float> %a0) {		define float @test_v8f32_zero(<8 x float> %a0) {
; SSE2-LABEL: test_v8f32_zero:		; SSE2-LABEL: test_v8f32_zero:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: addps %xmm1, %xmm0		; SSE2-NEXT: addps %xmm1, %xmm0
; SSE2-NEXT: movaps %xmm0, %xmm1		; SSE2-NEXT: movaps %xmm0, %xmm1
; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE2-NEXT: addps %xmm0, %xmm1		; SSE2-NEXT: addps %xmm0, %xmm1
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
; SSE2-NEXT: addps %xmm1, %xmm0		; SSE2-NEXT: addps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_v8f32_zero:		; SSE41-LABEL: test_v8f32_zero:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: addps %xmm1, %xmm0		; SSE41-NEXT: addps %xmm1, %xmm0
; SSE41-NEXT: movaps %xmm0, %xmm1		; SSE41-NEXT: movaps %xmm0, %xmm1
; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE41-NEXT: addps %xmm0, %xmm1		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: haddps %xmm1, %xmm1		; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: movaps %xmm1, %xmm0		; SSE41-NEXT: movaps %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v8f32_zero:		; AVX-LABEL: test_v8f32_zero:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v8f32_zero:		; AVX512-LABEL: test_v8f32_zero:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vhaddps %ymm0, %ymm0, %ymm0		; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)		%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)
ret float %1		ret float %1
}		}

define float @test_v16f32_zero(<16 x float> %a0) {		define float @test_v16f32_zero(<16 x float> %a0) {
Show All 13 Lines
; SSE41-LABEL: test_v16f32_zero:		; SSE41-LABEL: test_v16f32_zero:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: addps %xmm3, %xmm1		; SSE41-NEXT: addps %xmm3, %xmm1
; SSE41-NEXT: addps %xmm2, %xmm0		; SSE41-NEXT: addps %xmm2, %xmm0
; SSE41-NEXT: addps %xmm1, %xmm0		; SSE41-NEXT: addps %xmm1, %xmm0
; SSE41-NEXT: movaps %xmm0, %xmm1		; SSE41-NEXT: movaps %xmm0, %xmm1
; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE41-NEXT: addps %xmm0, %xmm1		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: haddps %xmm1, %xmm1		; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: movaps %xmm1, %xmm0		; SSE41-NEXT: movaps %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v16f32_zero:		; AVX-LABEL: test_v16f32_zero:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v16f32_zero:		; AVX512-LABEL: test_v16f32_zero:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
Show All 20 Lines
; SSE2-NEXT: movaps %xmm0, %xmm1		; SSE2-NEXT: movaps %xmm0, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[2,3]
; SSE2-NEXT: addps %xmm0, %xmm1		; SSE2-NEXT: addps %xmm0, %xmm1
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_v2f32_undef:		; SSE41-LABEL: test_v2f32_undef:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: haddps %xmm0, %xmm0		; SSE41-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; SSE41-NEXT: addps %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v2f32_undef:		; AVX-LABEL: test_v2f32_undef:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v2f32_undef:		; AVX512-LABEL: test_v2f32_undef:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)		%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float undef, <2 x float> %a0)
ret float %1		ret float %1
}		}

define float @test_v4f32_undef(<4 x float> %a0) {		define float @test_v4f32_undef(<4 x float> %a0) {
; SSE2-LABEL: test_v4f32_undef:		; SSE2-LABEL: test_v4f32_undef:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movaps %xmm0, %xmm1		; SSE2-NEXT: movaps %xmm0, %xmm1
; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE2-NEXT: addps %xmm0, %xmm1		; SSE2-NEXT: addps %xmm0, %xmm1
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
; SSE2-NEXT: addps %xmm1, %xmm0		; SSE2-NEXT: addps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_v4f32_undef:		; SSE41-LABEL: test_v4f32_undef:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movaps %xmm0, %xmm1		; SSE41-NEXT: movaps %xmm0, %xmm1
; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE41-NEXT: addps %xmm0, %xmm1		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: haddps %xmm1, %xmm1		; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: movaps %xmm1, %xmm0		; SSE41-NEXT: movaps %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v4f32_undef:		; AVX-LABEL: test_v4f32_undef:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0		; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v4f32_undef:		; AVX512-LABEL: test_v4f32_undef:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX512-NEXT: vhaddps %xmm0, %xmm0, %xmm0		; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)		%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float undef, <4 x float> %a0)
ret float %1		ret float %1
}		}

define float @test_v8f32_undef(<8 x float> %a0) {		define float @test_v8f32_undef(<8 x float> %a0) {
; SSE2-LABEL: test_v8f32_undef:		; SSE2-LABEL: test_v8f32_undef:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: addps %xmm1, %xmm0		; SSE2-NEXT: addps %xmm1, %xmm0
; SSE2-NEXT: movaps %xmm0, %xmm1		; SSE2-NEXT: movaps %xmm0, %xmm1
; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE2-NEXT: addps %xmm0, %xmm1		; SSE2-NEXT: addps %xmm0, %xmm1
; SSE2-NEXT: movaps %xmm1, %xmm0		; SSE2-NEXT: movaps %xmm1, %xmm0
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1],xmm1[2,3]
; SSE2-NEXT: addps %xmm1, %xmm0		; SSE2-NEXT: addps %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: test_v8f32_undef:		; SSE41-LABEL: test_v8f32_undef:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: addps %xmm1, %xmm0		; SSE41-NEXT: addps %xmm1, %xmm0
; SSE41-NEXT: movaps %xmm0, %xmm1		; SSE41-NEXT: movaps %xmm0, %xmm1
; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE41-NEXT: addps %xmm0, %xmm1		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: haddps %xmm1, %xmm1		; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: movaps %xmm1, %xmm0		; SSE41-NEXT: movaps %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v8f32_undef:		; AVX-LABEL: test_v8f32_undef:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v8f32_undef:		; AVX512-LABEL: test_v8f32_undef:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vhaddps %ymm0, %ymm0, %ymm0		; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)		%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)
ret float %1		ret float %1
}		}

define float @test_v16f32_undef(<16 x float> %a0) {		define float @test_v16f32_undef(<16 x float> %a0) {
Show All 13 Lines
; SSE41-LABEL: test_v16f32_undef:		; SSE41-LABEL: test_v16f32_undef:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: addps %xmm3, %xmm1		; SSE41-NEXT: addps %xmm3, %xmm1
; SSE41-NEXT: addps %xmm2, %xmm0		; SSE41-NEXT: addps %xmm2, %xmm0
; SSE41-NEXT: addps %xmm1, %xmm0		; SSE41-NEXT: addps %xmm1, %xmm0
; SSE41-NEXT: movaps %xmm0, %xmm1		; SSE41-NEXT: movaps %xmm0, %xmm1
; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE41-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE41-NEXT: addps %xmm0, %xmm1		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: haddps %xmm1, %xmm1		; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
		; SSE41-NEXT: addps %xmm0, %xmm1
; SSE41-NEXT: movaps %xmm1, %xmm0		; SSE41-NEXT: movaps %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v16f32_undef:		; AVX-LABEL: test_v16f32_undef:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddps %ymm0, %ymm0, %ymm0		; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
		; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v16f32_undef:		; AVX512-LABEL: test_v16f32_undef:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
Show All 10 Lines	; AVX512-NEXT: retq
ret float %1		ret float %1
}		}

;		;
; vXf64 (accum)		; vXf64 (accum)
;		;

define double @test_v2f64(double %a0, <2 x double> %a1) {		define double @test_v2f64(double %a0, <2 x double> %a1) {
; SSE2-LABEL: test_v2f64:		; SSE-LABEL: test_v2f64:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
; SSE2-NEXT: addpd %xmm1, %xmm0		; SSE-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v2f64:
; SSE41: # %bb.0:
; SSE41-NEXT: movapd %xmm1, %xmm0
; SSE41-NEXT: haddpd %xmm1, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v2f64:		; AVX-LABEL: test_v2f64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vhaddpd %xmm1, %xmm1, %xmm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
		; AVX-NEXT: vaddpd %xmm0, %xmm1, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v2f64:		; AVX512-LABEL: test_v2f64:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vhaddpd %xmm1, %xmm1, %xmm0		; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
		; AVX512-NEXT: vaddpd %xmm0, %xmm1, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)		%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double %a0, <2 x double> %a1)
ret double %1		ret double %1
}		}

define double @test_v4f64(double %a0, <4 x double> %a1) {		define double @test_v4f64(double %a0, <4 x double> %a1) {
; SSE2-LABEL: test_v4f64:		; SSE-LABEL: test_v4f64:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: addpd %xmm2, %xmm1		; SSE-NEXT: addpd %xmm2, %xmm1
; SSE2-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
; SSE2-NEXT: addpd %xmm1, %xmm0		; SSE-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v4f64:
; SSE41: # %bb.0:
; SSE41-NEXT: movapd %xmm1, %xmm0
; SSE41-NEXT: addpd %xmm2, %xmm0
; SSE41-NEXT: haddpd %xmm0, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v4f64:		; AVX-LABEL: test_v4f64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0		; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0
; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v4f64:		; AVX512-LABEL: test_v4f64:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0		; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
; AVX512-NEXT: vaddpd %ymm0, %ymm1, %ymm0		; AVX512-NEXT: vaddpd %ymm0, %ymm1, %ymm0
; AVX512-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)		%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)
ret double %1		ret double %1
}		}

define double @test_v8f64(double %a0, <8 x double> %a1) {		define double @test_v8f64(double %a0, <8 x double> %a1) {
; SSE2-LABEL: test_v8f64:		; SSE-LABEL: test_v8f64:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: addpd %xmm4, %xmm2		; SSE-NEXT: addpd %xmm4, %xmm2
; SSE2-NEXT: addpd %xmm3, %xmm1		; SSE-NEXT: addpd %xmm3, %xmm1
; SSE2-NEXT: addpd %xmm2, %xmm1		; SSE-NEXT: addpd %xmm2, %xmm1
; SSE2-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
; SSE2-NEXT: addpd %xmm1, %xmm0		; SSE-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v8f64:
; SSE41: # %bb.0:
; SSE41-NEXT: movapd %xmm1, %xmm0
; SSE41-NEXT: addpd %xmm4, %xmm2
; SSE41-NEXT: addpd %xmm3, %xmm0
; SSE41-NEXT: addpd %xmm2, %xmm0
; SSE41-NEXT: haddpd %xmm0, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v8f64:		; AVX-LABEL: test_v8f64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm0		; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm0
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v8f64:		; AVX512-LABEL: test_v8f64:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0		; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0		; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0
; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)		%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)
ret double %1		ret double %1
}		}

define double @test_v16f64(double %a0, <16 x double> %a1) {		define double @test_v16f64(double %a0, <16 x double> %a1) {
; SSE2-LABEL: test_v16f64:		; SSE-LABEL: test_v16f64:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: addpd %xmm6, %xmm2		; SSE-NEXT: addpd %xmm6, %xmm2
; SSE2-NEXT: addpd %xmm7, %xmm3		; SSE-NEXT: addpd %xmm7, %xmm3
; SSE2-NEXT: addpd %xmm5, %xmm1		; SSE-NEXT: addpd %xmm5, %xmm1
; SSE2-NEXT: addpd %xmm3, %xmm1		; SSE-NEXT: addpd %xmm3, %xmm1
; SSE2-NEXT: addpd {{[0-9]+}}(%rsp), %xmm4		; SSE-NEXT: addpd {{[0-9]+}}(%rsp), %xmm4
; SSE2-NEXT: addpd %xmm2, %xmm4		; SSE-NEXT: addpd %xmm2, %xmm4
; SSE2-NEXT: addpd %xmm1, %xmm4		; SSE-NEXT: addpd %xmm1, %xmm4
; SSE2-NEXT: movapd %xmm4, %xmm0		; SSE-NEXT: movapd %xmm4, %xmm0
; SSE2-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm4[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm4[1]
; SSE2-NEXT: addpd %xmm4, %xmm0		; SSE-NEXT: addpd %xmm4, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v16f64:
; SSE41: # %bb.0:
; SSE41-NEXT: movapd %xmm4, %xmm0
; SSE41-NEXT: addpd %xmm6, %xmm2
; SSE41-NEXT: addpd %xmm7, %xmm3
; SSE41-NEXT: addpd %xmm5, %xmm1
; SSE41-NEXT: addpd %xmm3, %xmm1
; SSE41-NEXT: addpd {{[0-9]+}}(%rsp), %xmm0
; SSE41-NEXT: addpd %xmm2, %xmm0
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: haddpd %xmm0, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v16f64:		; AVX-LABEL: test_v16f64:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vaddpd %ymm4, %ymm2, %ymm0		; AVX-NEXT: vaddpd %ymm4, %ymm2, %ymm0
; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1		; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0		; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v16f64:		; AVX512-LABEL: test_v16f64:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0		; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0
; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
Show All 9 Lines	; AVX512-NEXT: retq
ret double %1		ret double %1
}		}

;		;
; vXf64 (zero)		; vXf64 (zero)
;		;

define double @test_v2f64_zero(<2 x double> %a0) {		define double @test_v2f64_zero(<2 x double> %a0) {
; SSE2-LABEL: test_v2f64_zero:		; SSE-LABEL: test_v2f64_zero:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movapd %xmm0, %xmm1		; SSE-NEXT: movapd %xmm0, %xmm1
; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE2-NEXT: addpd %xmm0, %xmm1		; SSE-NEXT: addpd %xmm0, %xmm1
; SSE2-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v2f64_zero:
; SSE41: # %bb.0:
; SSE41-NEXT: haddpd %xmm0, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v2f64_zero:		; AVX-LABEL: test_v2f64_zero:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vhaddpd %xmm0, %xmm0, %xmm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v2f64_zero:		; AVX512-LABEL: test_v2f64_zero:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vhaddpd %xmm0, %xmm0, %xmm0		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)		%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double 0.0, <2 x double> %a0)
ret double %1		ret double %1
}		}

define double @test_v4f64_zero(<4 x double> %a0) {		define double @test_v4f64_zero(<4 x double> %a0) {
; SSE2-LABEL: test_v4f64_zero:		; SSE-LABEL: test_v4f64_zero:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: addpd %xmm1, %xmm0		; SSE-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: movapd %xmm0, %xmm1		; SSE-NEXT: movapd %xmm0, %xmm1
; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE2-NEXT: addpd %xmm0, %xmm1		; SSE-NEXT: addpd %xmm0, %xmm1
; SSE2-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v4f64_zero:
; SSE41: # %bb.0:
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: haddpd %xmm0, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v4f64_zero:		; AVX-LABEL: test_v4f64_zero:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v4f64_zero:		; AVX512-LABEL: test_v4f64_zero:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)		%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)
ret double %1		ret double %1
}		}

define double @test_v8f64_zero(<8 x double> %a0) {		define double @test_v8f64_zero(<8 x double> %a0) {
; SSE2-LABEL: test_v8f64_zero:		; SSE-LABEL: test_v8f64_zero:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: addpd %xmm3, %xmm1		; SSE-NEXT: addpd %xmm3, %xmm1
; SSE2-NEXT: addpd %xmm2, %xmm0		; SSE-NEXT: addpd %xmm2, %xmm0
; SSE2-NEXT: addpd %xmm1, %xmm0		; SSE-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: movapd %xmm0, %xmm1		; SSE-NEXT: movapd %xmm0, %xmm1
; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE2-NEXT: addpd %xmm0, %xmm1		; SSE-NEXT: addpd %xmm0, %xmm1
; SSE2-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v8f64_zero:
; SSE41: # %bb.0:
; SSE41-NEXT: addpd %xmm3, %xmm1
; SSE41-NEXT: addpd %xmm2, %xmm0
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: haddpd %xmm0, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v8f64_zero:		; AVX-LABEL: test_v8f64_zero:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v8f64_zero:		; AVX512-LABEL: test_v8f64_zero:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)		%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)
ret double %1		ret double %1
}		}

define double @test_v16f64_zero(<16 x double> %a0) {		define double @test_v16f64_zero(<16 x double> %a0) {
; SSE2-LABEL: test_v16f64_zero:		; SSE-LABEL: test_v16f64_zero:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: addpd %xmm6, %xmm2		; SSE-NEXT: addpd %xmm6, %xmm2
; SSE2-NEXT: addpd %xmm4, %xmm0		; SSE-NEXT: addpd %xmm4, %xmm0
; SSE2-NEXT: addpd %xmm2, %xmm0		; SSE-NEXT: addpd %xmm2, %xmm0
; SSE2-NEXT: addpd %xmm7, %xmm3		; SSE-NEXT: addpd %xmm7, %xmm3
; SSE2-NEXT: addpd %xmm5, %xmm1		; SSE-NEXT: addpd %xmm5, %xmm1
; SSE2-NEXT: addpd %xmm3, %xmm1		; SSE-NEXT: addpd %xmm3, %xmm1
; SSE2-NEXT: addpd %xmm0, %xmm1		; SSE-NEXT: addpd %xmm0, %xmm1
; SSE2-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
; SSE2-NEXT: addpd %xmm1, %xmm0		; SSE-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v16f64_zero:
; SSE41: # %bb.0:
; SSE41-NEXT: addpd %xmm6, %xmm2
; SSE41-NEXT: addpd %xmm4, %xmm0
; SSE41-NEXT: addpd %xmm2, %xmm0
; SSE41-NEXT: addpd %xmm7, %xmm3
; SSE41-NEXT: addpd %xmm5, %xmm1
; SSE41-NEXT: addpd %xmm3, %xmm1
; SSE41-NEXT: addpd %xmm0, %xmm1
; SSE41-NEXT: haddpd %xmm1, %xmm1
; SSE41-NEXT: movapd %xmm1, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v16f64_zero:		; AVX-LABEL: test_v16f64_zero:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1		; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v16f64_zero:		; AVX512-LABEL: test_v16f64_zero:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
Show All 9 Lines	; AVX512-NEXT: retq
ret double %1		ret double %1
}		}

;		;
; vXf64 (undef)		; vXf64 (undef)
;		;

define double @test_v2f64_undef(<2 x double> %a0) {		define double @test_v2f64_undef(<2 x double> %a0) {
; SSE2-LABEL: test_v2f64_undef:		; SSE-LABEL: test_v2f64_undef:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: movapd %xmm0, %xmm1		; SSE-NEXT: movapd %xmm0, %xmm1
; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE2-NEXT: addpd %xmm0, %xmm1		; SSE-NEXT: addpd %xmm0, %xmm1
; SSE2-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v2f64_undef:
; SSE41: # %bb.0:
; SSE41-NEXT: haddpd %xmm0, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v2f64_undef:		; AVX-LABEL: test_v2f64_undef:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vhaddpd %xmm0, %xmm0, %xmm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v2f64_undef:		; AVX512-LABEL: test_v2f64_undef:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vhaddpd %xmm0, %xmm0, %xmm0		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)		%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double undef, <2 x double> %a0)
ret double %1		ret double %1
}		}

define double @test_v4f64_undef(<4 x double> %a0) {		define double @test_v4f64_undef(<4 x double> %a0) {
; SSE2-LABEL: test_v4f64_undef:		; SSE-LABEL: test_v4f64_undef:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: addpd %xmm1, %xmm0		; SSE-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: movapd %xmm0, %xmm1		; SSE-NEXT: movapd %xmm0, %xmm1
; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE2-NEXT: addpd %xmm0, %xmm1		; SSE-NEXT: addpd %xmm0, %xmm1
; SSE2-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v4f64_undef:
; SSE41: # %bb.0:
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: haddpd %xmm0, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v4f64_undef:		; AVX-LABEL: test_v4f64_undef:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v4f64_undef:		; AVX512-LABEL: test_v4f64_undef:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX512-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)		%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)
ret double %1		ret double %1
}		}

define double @test_v8f64_undef(<8 x double> %a0) {		define double @test_v8f64_undef(<8 x double> %a0) {
; SSE2-LABEL: test_v8f64_undef:		; SSE-LABEL: test_v8f64_undef:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: addpd %xmm3, %xmm1		; SSE-NEXT: addpd %xmm3, %xmm1
; SSE2-NEXT: addpd %xmm2, %xmm0		; SSE-NEXT: addpd %xmm2, %xmm0
; SSE2-NEXT: addpd %xmm1, %xmm0		; SSE-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: movapd %xmm0, %xmm1		; SSE-NEXT: movapd %xmm0, %xmm1
; SSE2-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
; SSE2-NEXT: addpd %xmm0, %xmm1		; SSE-NEXT: addpd %xmm0, %xmm1
; SSE2-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v8f64_undef:
; SSE41: # %bb.0:
; SSE41-NEXT: addpd %xmm3, %xmm1
; SSE41-NEXT: addpd %xmm2, %xmm0
; SSE41-NEXT: addpd %xmm1, %xmm0
; SSE41-NEXT: haddpd %xmm0, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v8f64_undef:		; AVX-LABEL: test_v8f64_undef:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v8f64_undef:		; AVX512-LABEL: test_v8f64_undef:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)		%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)
ret double %1		ret double %1
}		}

define double @test_v16f64_undef(<16 x double> %a0) {		define double @test_v16f64_undef(<16 x double> %a0) {
; SSE2-LABEL: test_v16f64_undef:		; SSE-LABEL: test_v16f64_undef:
; SSE2: # %bb.0:		; SSE: # %bb.0:
; SSE2-NEXT: addpd %xmm6, %xmm2		; SSE-NEXT: addpd %xmm6, %xmm2
; SSE2-NEXT: addpd %xmm4, %xmm0		; SSE-NEXT: addpd %xmm4, %xmm0
; SSE2-NEXT: addpd %xmm2, %xmm0		; SSE-NEXT: addpd %xmm2, %xmm0
; SSE2-NEXT: addpd %xmm7, %xmm3		; SSE-NEXT: addpd %xmm7, %xmm3
; SSE2-NEXT: addpd %xmm5, %xmm1		; SSE-NEXT: addpd %xmm5, %xmm1
; SSE2-NEXT: addpd %xmm3, %xmm1		; SSE-NEXT: addpd %xmm3, %xmm1
; SSE2-NEXT: addpd %xmm0, %xmm1		; SSE-NEXT: addpd %xmm0, %xmm1
; SSE2-NEXT: movapd %xmm1, %xmm0		; SSE-NEXT: movapd %xmm1, %xmm0
; SSE2-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]		; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
; SSE2-NEXT: addpd %xmm1, %xmm0		; SSE-NEXT: addpd %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE-NEXT: retq
;
; SSE41-LABEL: test_v16f64_undef:
; SSE41: # %bb.0:
; SSE41-NEXT: addpd %xmm6, %xmm2
; SSE41-NEXT: addpd %xmm4, %xmm0
; SSE41-NEXT: addpd %xmm2, %xmm0
; SSE41-NEXT: addpd %xmm7, %xmm3
; SSE41-NEXT: addpd %xmm5, %xmm1
; SSE41-NEXT: addpd %xmm3, %xmm1
; SSE41-NEXT: addpd %xmm0, %xmm1
; SSE41-NEXT: haddpd %xmm1, %xmm1
; SSE41-NEXT: movapd %xmm1, %xmm0
; SSE41-NEXT: retq
;		;
; AVX-LABEL: test_v16f64_undef:		; AVX-LABEL: test_v16f64_undef:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1		; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: vhaddpd %ymm0, %ymm0, %ymm0		; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
		; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX-NEXT: vzeroupper		; AVX-NEXT: vzeroupper
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; AVX512-LABEL: test_v16f64_undef:		; AVX512-LABEL: test_v16f64_undef:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
Show All 21 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-combining.ll

	Show First 20 Lines • Show All 2,694 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm0			; AVX-NEXT: vpinsrd $0, %edi, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a0 = insertelement <4 x i32> undef, i32 %f, i32 0			%a0 = insertelement <4 x i32> undef, i32 %f, i32 0
	%ret = shufflevector <4 x i32> %a0, <4 x i32> <i32 undef, i32 4, i32 5, i32 30>, <4 x i32> <i32 0, i32 5, i32 6, i32 7>			%ret = shufflevector <4 x i32> %a0, <4 x i32> <i32 undef, i32 4, i32 5, i32 30>, <4 x i32> <i32 0, i32 5, i32 6, i32 7>
	ret <4 x i32> %ret			ret <4 x i32> %ret
	}			}

	define <4 x float> @PR22377(<4 x float> %a, <4 x float> %b) {			define <4 x float> @PR22377(<4 x float> %a, <4 x float> %b) {
	; SSE2-LABEL: PR22377:			; SSE-LABEL: PR22377:
	; SSE2: # %bb.0: # %entry			; SSE: # %bb.0: # %entry
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,3],xmm0[1,3]			; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,3],xmm0[1,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2,0,2]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2,0,2]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE-NEXT: addps %xmm0, %xmm1
	; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: retq			; SSE-NEXT: retq
	;
	; SSSE3-LABEL: PR22377:
	; SSSE3: # %bb.0: # %entry
	; SSSE3-NEXT: movaps %xmm0, %xmm1
	; SSSE3-NEXT: haddps %xmm0, %xmm1
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,1]
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; SSSE3-NEXT: retq
	;
	; SSE41-LABEL: PR22377:
	; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: movaps %xmm0, %xmm1
	; SSE41-NEXT: haddps %xmm0, %xmm1
	; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,1]
	; SSE41-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: PR22377:			; AVX-LABEL: PR22377:
	; AVX: # %bb.0: # %entry			; AVX: # %bb.0: # %entry
	; AVX-NEXT: vhaddps %xmm0, %xmm0, %xmm1			; AVX-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,3,1,3]
	; AVX-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,1]			; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,0,2]
	; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,1,3]			; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm1
				; AVX-NEXT: vunpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	entry:			entry:
	%s1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 1, i32 3, i32 1, i32 3>			%s1 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 1, i32 3, i32 1, i32 3>
	%s2 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 0, i32 2, i32 0, i32 2>			%s2 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 0, i32 2, i32 0, i32 2>
	%r2 = fadd <4 x float> %s1, %s2			%r2 = fadd <4 x float> %s1, %s2
	%s3 = shufflevector <4 x float> %s2, <4 x float> %r2, <4 x i32> <i32 0, i32 4, i32 1, i32 5>			%s3 = shufflevector <4 x float> %s2, <4 x float> %r2, <4 x i32> <i32 0, i32 4, i32 1, i32 5>
	ret <4 x float> %s3			ret <4 x float> %s3
	}			}
	▲ Show 20 Lines • Show All 100 Lines • Show Last 20 Lines