Diff 281145

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 44,365 Lines • ▼ Show 20 Lines
/// and		/// and
/// B = < float b0, float b1, float b2, float b3 >		/// B = < float b0, float b1, float b2, float b3 >
/// then the result of doing a horizontal operation on A and B is		/// then the result of doing a horizontal operation on A and B is
/// A horizontal-op B = < a0 op a1, a2 op a3, b0 op b1, b2 op b3 >.		/// A horizontal-op B = < a0 op a1, a2 op a3, b0 op b1, b2 op b3 >.
/// In short, LHS and RHS are inspected to see if LHS op RHS is of the form		/// In short, LHS and RHS are inspected to see if LHS op RHS is of the form
/// A horizontal-op B, for some already available A and B, and if so then LHS is		/// A horizontal-op B, for some already available A and B, and if so then LHS is
/// set to A, RHS to B, and the routine returns 'true'.		/// set to A, RHS to B, and the routine returns 'true'.
static bool isHorizontalBinOp(SDValue &LHS, SDValue &RHS, SelectionDAG &DAG,		static bool isHorizontalBinOp(SDValue &LHS, SDValue &RHS, SelectionDAG &DAG,
const X86Subtarget &Subtarget,		const X86Subtarget &Subtarget, bool IsCommutative,
bool IsCommutative) {		SmallVectorImpl<int> &PostShuffleMask) {
// If either operand is undef, bail out. The binop should be simplified.		// If either operand is undef, bail out. The binop should be simplified.
if (LHS.isUndef() \|\| RHS.isUndef())		if (LHS.isUndef() \|\| RHS.isUndef())
return false;		return false;

// Look for the following pattern:		// Look for the following pattern:
// A = < float a0, float a1, float a2, float a3 >		// A = < float a0, float a1, float a2, float a3 >
// B = < float b0, float b1, float b2, float b3 >		// B = < float b0, float b1, float b2, float b3 >
// and		// and
▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines	static bool isHorizontalBinOp(SDValue &LHS, SDValue &RHS, SelectionDAG &DAG,
}		}

if (RMask.empty()) {		if (RMask.empty()) {
C = RHS;		C = RHS;
for (unsigned i = 0; i != NumElts; ++i)		for (unsigned i = 0; i != NumElts; ++i)
RMask.push_back(i);		RMask.push_back(i);
}		}

		// Avoid 128-bit lane crossing if pre-AVX2 and FP (integer will split).
		if (!Subtarget.hasAVX2() && VT.isFloatingPoint() &&
		(isLaneCrossingShuffleMask(128, VT.getScalarSizeInBits(), LMask) \|\|
		spatelUnsubmitted Not Done Reply Inline Actions Reduce negative logic? // Avoid 128-bit lane crossing if this is pre-AVX2 and FP (integer will be split). if (!Subtarget.hasAVX2 && VT.isFloatingPoint() && ...) spatel: Reduce negative logic? // Avoid 128-bit lane crossing if this is pre-AVX2 and FP (integer will…
		isLaneCrossingShuffleMask(128, VT.getScalarSizeInBits(), RMask)))
		return false;

// If A and B occur in reverse order in RHS, then canonicalize by commuting		// If A and B occur in reverse order in RHS, then canonicalize by commuting
// RHS operands and shuffle mask.		// RHS operands and shuffle mask.
if (A != C) {		if (A != C) {
std::swap(C, D);		std::swap(C, D);
ShuffleVectorSDNode::commuteMask(RMask);		ShuffleVectorSDNode::commuteMask(RMask);
}		}
// Check that the shuffles are both shuffling the same vectors.		// Check that the shuffles are both shuffling the same vectors.
if (!(A == C && B == D))		if (!(A == C && B == D))
return false;		return false;

		PostShuffleMask.clear();
		PostShuffleMask.append(NumElts, SM_SentinelUndef);

// LHS and RHS are now:		// LHS and RHS are now:
// LHS = shuffle A, B, LMask		// LHS = shuffle A, B, LMask
// RHS = shuffle A, B, RMask		// RHS = shuffle A, B, RMask
// Check that the masks correspond to performing a horizontal operation.		// Check that the masks correspond to performing a horizontal operation.
// AVX defines horizontal add/sub to operate independently on 128-bit lanes,		// AVX defines horizontal add/sub to operate independently on 128-bit lanes,
// so we just repeat the inner loop if this is a 256-bit op.		// so we just repeat the inner loop if this is a 256-bit op.
unsigned Num128BitChunks = VT.getSizeInBits() / 128;		unsigned Num128BitChunks = VT.getSizeInBits() / 128;
unsigned NumEltsPer128BitChunk = NumElts / Num128BitChunks;		unsigned NumEltsPer128BitChunk = NumElts / Num128BitChunks;
		unsigned NumEltsPer64BitChunk = NumEltsPer128BitChunk / 2;
assert((NumEltsPer128BitChunk % 2 == 0) &&		assert((NumEltsPer128BitChunk % 2 == 0) &&
"Vector type should have an even number of elements in each lane");		"Vector type should have an even number of elements in each lane");
for (unsigned j = 0; j != NumElts; j += NumEltsPer128BitChunk) {		for (unsigned j = 0; j != NumElts; j += NumEltsPer128BitChunk) {
for (unsigned i = 0; i != NumEltsPer128BitChunk; ++i) {		for (unsigned i = 0; i != NumEltsPer128BitChunk; ++i) {
// Ignore undefined components.		// Ignore undefined components.
int LIdx = LMask[i + j], RIdx = RMask[i + j];		int LIdx = LMask[i + j], RIdx = RMask[i + j];
if (LIdx < 0 \|\| RIdx < 0 \|\|		if (LIdx < 0 \|\| RIdx < 0 \|\|
(!A.getNode() && (LIdx < (int)NumElts \|\| RIdx < (int)NumElts)) \|\|		(!A.getNode() && (LIdx < (int)NumElts \|\| RIdx < (int)NumElts)) \|\|
(!B.getNode() && (LIdx >= (int)NumElts \|\| RIdx >= (int)NumElts)))		(!B.getNode() && (LIdx >= (int)NumElts \|\| RIdx >= (int)NumElts)))
continue;		continue;

		// Check that successive odd/even elements are being operated on. If not,
		// this is not a horizontal operation.
		if (!((RIdx & 1) == 1 && (LIdx + 1) == RIdx) &&
		!((LIdx & 1) == 1 && (RIdx + 1) == LIdx && IsCommutative))
		return false;

		// Compute the post-shuffle mask index based on where the element
		// is stored in the HOP result, and where it needs to be moved to.
		int Base = LIdx & ~1u;
		int Index = ((Base % NumEltsPer128BitChunk) / 2) +
		((Base % NumElts) & ~(NumEltsPer128BitChunk - 1));

// The low half of the 128-bit result must choose from A.		// The low half of the 128-bit result must choose from A.
// The high half of the 128-bit result must choose from B,		// The high half of the 128-bit result must choose from B,
// unless B is undef. In that case, we are always choosing from A.		// unless B is undef. In that case, we are always choosing from A.
unsigned NumEltsPer64BitChunk = NumEltsPer128BitChunk / 2;		if ((B && Base >= (int)NumElts) \|\| (!B && i >= NumEltsPer64BitChunk))
unsigned Src = B.getNode() ? i >= NumEltsPer64BitChunk : 0;		Index += NumEltsPer64BitChunk;
		PostShuffleMask[i + j] = Index;
// Check that successive elements are being operated on. If not, this is
// not a horizontal operation.
int Index = 2 * (i % NumEltsPer64BitChunk) + NumElts * Src + j;
if (!(LIdx == Index && RIdx == Index + 1) &&
!(IsCommutative && LIdx == Index + 1 && RIdx == Index))
return false;
}		}
}		}

LHS = A.getNode() ? A : B; // If A is 'UNDEF', use B for it.		LHS = A.getNode() ? A : B; // If A is 'UNDEF', use B for it.
RHS = B.getNode() ? B : A; // If B is 'UNDEF', use A for it.		RHS = B.getNode() ? B : A; // If B is 'UNDEF', use A for it.

if (!shouldUseHorizontalOp(LHS == RHS && NumShuffles < 2, DAG, Subtarget))		bool IsIdentityPostShuffle =
		isSequentialOrUndefInRange(PostShuffleMask, 0, NumElts, 0);
		if (IsIdentityPostShuffle)
		PostShuffleMask.clear();

		// Assume a SingleSource HOP if we only shuffle one input and don't need to
		// shuffle the result.
		if (!shouldUseHorizontalOp(LHS == RHS &&
		(NumShuffles < 2 \|\| !IsIdentityPostShuffle),
		DAG, Subtarget))
return false;		return false;

LHS = DAG.getBitcast(VT, LHS);		LHS = DAG.getBitcast(VT, LHS);
RHS = DAG.getBitcast(VT, RHS);		RHS = DAG.getBitcast(VT, RHS);
return true;		return true;
}		}

/// Do target-specific dag combines on floating-point adds/subs.		/// Do target-specific dag combines on floating-point adds/subs.
static SDValue combineFaddFsub(SDNode *N, SelectionDAG &DAG,		static SDValue combineFaddFsub(SDNode *N, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
SDValue LHS = N->getOperand(0);		SDValue LHS = N->getOperand(0);
SDValue RHS = N->getOperand(1);		SDValue RHS = N->getOperand(1);
bool IsFadd = N->getOpcode() == ISD::FADD;		bool IsFadd = N->getOpcode() == ISD::FADD;
auto HorizOpcode = IsFadd ? X86ISD::FHADD : X86ISD::FHSUB;		auto HorizOpcode = IsFadd ? X86ISD::FHADD : X86ISD::FHSUB;
assert((IsFadd \|\| N->getOpcode() == ISD::FSUB) && "Wrong opcode");		assert((IsFadd \|\| N->getOpcode() == ISD::FSUB) && "Wrong opcode");

// Try to synthesize horizontal add/sub from adds/subs of shuffles.		// Try to synthesize horizontal add/sub from adds/subs of shuffles.
		SmallVector<int, 8> PostShuffleMask;
if (((Subtarget.hasSSE3() && (VT == MVT::v4f32 \|\| VT == MVT::v2f64)) \|\|		if (((Subtarget.hasSSE3() && (VT == MVT::v4f32 \|\| VT == MVT::v2f64)) \|\|
(Subtarget.hasAVX() && (VT == MVT::v8f32 \|\| VT == MVT::v4f64))) &&		(Subtarget.hasAVX() && (VT == MVT::v8f32 \|\| VT == MVT::v4f64))) &&
isHorizontalBinOp(LHS, RHS, DAG, Subtarget, IsFadd))		isHorizontalBinOp(LHS, RHS, DAG, Subtarget, IsFadd, PostShuffleMask)) {
return DAG.getNode(HorizOpcode, SDLoc(N), VT, LHS, RHS);		SDValue HorizBinOp = DAG.getNode(HorizOpcode, SDLoc(N), VT, LHS, RHS);
		if (!PostShuffleMask.empty())
		HorizBinOp = DAG.getVectorShuffle(VT, SDLoc(HorizBinOp), HorizBinOp,
		DAG.getUNDEF(VT), PostShuffleMask);
		return HorizBinOp;
		}

// NOTE: isHorizontalBinOp may have changed LHS/RHS variables.		// NOTE: isHorizontalBinOp may have changed LHS/RHS variables.

return SDValue();		return SDValue();
}		}

/// Attempt to pre-truncate inputs to arithmetic ops if it will simplify		/// Attempt to pre-truncate inputs to arithmetic ops if it will simplify
/// the codegen.		/// the codegen.
▲ Show 20 Lines • Show All 3,085 Lines • ▼ Show 20 Lines
static SDValue combineAddOrSubToHADDorHSUB(SDNode *N, SelectionDAG &DAG,		static SDValue combineAddOrSubToHADDorHSUB(SDNode *N, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
SDValue Op0 = N->getOperand(0);		SDValue Op0 = N->getOperand(0);
SDValue Op1 = N->getOperand(1);		SDValue Op1 = N->getOperand(1);
bool IsAdd = N->getOpcode() == ISD::ADD;		bool IsAdd = N->getOpcode() == ISD::ADD;
assert((IsAdd \|\| N->getOpcode() == ISD::SUB) && "Wrong opcode");		assert((IsAdd \|\| N->getOpcode() == ISD::SUB) && "Wrong opcode");

		SmallVector<int, 8> PostShuffleMask;
if ((VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\| VT == MVT::v16i16 \|\|		if ((VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\| VT == MVT::v16i16 \|\|
VT == MVT::v8i32) &&		VT == MVT::v8i32) &&
Subtarget.hasSSSE3() &&		Subtarget.hasSSSE3() &&
isHorizontalBinOp(Op0, Op1, DAG, Subtarget, IsAdd)) {		isHorizontalBinOp(Op0, Op1, DAG, Subtarget, IsAdd, PostShuffleMask)) {
auto HOpBuilder = [IsAdd](SelectionDAG &DAG, const SDLoc &DL,		auto HOpBuilder = [IsAdd](SelectionDAG &DAG, const SDLoc &DL,
ArrayRef<SDValue> Ops) {		ArrayRef<SDValue> Ops) {
return DAG.getNode(IsAdd ? X86ISD::HADD : X86ISD::HSUB,		return DAG.getNode(IsAdd ? X86ISD::HADD : X86ISD::HSUB, DL,
DL, Ops[0].getValueType(), Ops);		Ops[0].getValueType(), Ops);
};		};
return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, {Op0, Op1},		SDValue HorizBinOp =
HOpBuilder);		SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, {Op0, Op1}, HOpBuilder);
		if (!PostShuffleMask.empty())
		HorizBinOp = DAG.getVectorShuffle(VT, SDLoc(HorizBinOp), HorizBinOp,
		DAG.getUNDEF(VT), PostShuffleMask);
		return HorizBinOp;
}		}

return SDValue();		return SDValue();
}		}

static SDValue combineAdd(SDNode *N, SelectionDAG &DAG,		static SDValue combineAdd(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
▲ Show 20 Lines • Show All 2,591 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/haddsub-3.ll

	Show All 11 Lines
	; SSE2-NEXT: movaps %xmm0, %xmm1			; SSE2-NEXT: movaps %xmm0, %xmm1
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[3,3]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[3,3]
	; SSE2-NEXT: addps %xmm0, %xmm1			; SSE2-NEXT: addps %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE2-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE2-NEXT: addss %xmm1, %xmm0			; SSE2-NEXT: addss %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: pr26491:			; SSSE3-SLOW-LABEL: pr26491:
	; SSSE3: # %bb.0:			; SSSE3-SLOW: # %bb.0:
	; SSSE3-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSSE3-SLOW-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSSE3-NEXT: addps %xmm0, %xmm1			; SSSE3-SLOW-NEXT: addps %xmm0, %xmm1
	; SSSE3-NEXT: movaps %xmm1, %xmm0			; SSSE3-SLOW-NEXT: movaps %xmm1, %xmm0
	; SSSE3-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSSE3-SLOW-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSSE3-NEXT: addss %xmm1, %xmm0			; SSSE3-SLOW-NEXT: addss %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-SLOW-NEXT: retq
	;			;
	; AVX-LABEL: pr26491:			; SSSE3-FAST-LABEL: pr26491:
	; AVX: # %bb.0:			; SSSE3-FAST: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0			; SSSE3-FAST-NEXT: movaps %xmm0, %xmm1
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; SSSE3-FAST-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1],xmm0[2,3]
	; AVX-NEXT: vaddss %xmm0, %xmm1, %xmm0			; SSSE3-FAST-NEXT: addss %xmm0, %xmm1
	; AVX-NEXT: retq			; SSSE3-FAST-NEXT: movaps %xmm1, %xmm0
				; SSSE3-FAST-NEXT: retq
				;
				; AVX1-SLOW-LABEL: pr26491:
				; AVX1-SLOW: # %bb.0:
				; AVX1-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
				; AVX1-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
				; AVX1-SLOW-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; AVX1-SLOW-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; AVX1-SLOW-NEXT: retq
				;
				; AVX1-FAST-LABEL: pr26491:
				; AVX1-FAST: # %bb.0:
				; AVX1-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
				; AVX1-FAST-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[3,1,2,3]
				; AVX1-FAST-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; AVX1-FAST-NEXT: retq
				;
				; AVX2-LABEL: pr26491:
				; AVX2: # %bb.0:
				; AVX2-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
				; AVX2-NEXT: vaddps %xmm0, %xmm1, %xmm0
				; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; AVX2-NEXT: vaddss %xmm0, %xmm1, %xmm0
				; AVX2-NEXT: retq
	%1 = shufflevector <4 x float> %a0, <4 x float> undef, <4 x i32> <i32 1, i32 1, i32 3, i32 3>			%1 = shufflevector <4 x float> %a0, <4 x float> undef, <4 x i32> <i32 1, i32 1, i32 3, i32 3>
	%2 = fadd <4 x float> %1, %a0			%2 = fadd <4 x float> %1, %a0
	%3 = extractelement <4 x float> %2, i32 2			%3 = extractelement <4 x float> %2, i32 2
	%4 = extractelement <4 x float> %2, i32 0			%4 = extractelement <4 x float> %2, i32 0
	%5 = fadd float %3, %4			%5 = fadd float %3, %4
	ret float %5			ret float %5
	}			}

	▲ Show 20 Lines • Show All 93 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/haddsub-4.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3 \| FileCheck %s --check-prefixes=SSE,SSSE3,SSSE3-SLOW		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3 \| FileCheck %s --check-prefixes=SSE,SSSE3,SSSE3-SLOW
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3,fast-hops \| FileCheck %s --check-prefixes=SSE,SSSE3,SSSE3-FAST		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+ssse3,fast-hops \| FileCheck %s --check-prefixes=SSE,SSSE3,SSSE3-FAST
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX-SLOW,AVX1,AVX1-SLOW		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX-SLOW,AVX1,AVX1-SLOW
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx,fast-hops \| FileCheck %s --check-prefixes=AVX,AVX-FAST,AVX1,AVX1-FAST		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx,fast-hops \| FileCheck %s --check-prefixes=AVX,AVX-FAST,AVX1,AVX1-FAST
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX-SLOW,AVX2,AVX2-SLOW		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX,AVX-SLOW,AVX2,AVX2-SLOW
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2,fast-hops \| FileCheck %s --check-prefixes=AVX,AVX-FAST,AVX2,AVX2-FAST		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+avx2,fast-hops \| FileCheck %s --check-prefixes=AVX,AVX-FAST,AVX2,AVX2-FAST

define <8 x i16> @hadd_reverse_v8i16(<8 x i16> %a0, <8 x i16> %a1) nounwind {		define <8 x i16> @hadd_reverse_v8i16(<8 x i16> %a0, <8 x i16> %a1) nounwind {
; SSE-LABEL: hadd_reverse_v8i16:		; SSE-LABEL: hadd_reverse_v8i16:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [14,15,10,11,6,7,2,3,14,15,10,11,12,13,14,15]		; SSE-NEXT: phaddw %xmm1, %xmm0
; SSE-NEXT: movdqa %xmm1, %xmm3		; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]
; SSE-NEXT: pshufb %xmm2, %xmm3		; SSE-NEXT: pshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]
; SSE-NEXT: movdqa %xmm0, %xmm4
; SSE-NEXT: pshufb %xmm2, %xmm4
; SSE-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm3[0]
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [12,13,8,9,4,5,0,1,8,9,12,13,12,13,14,15]
; SSE-NEXT: pshufb %xmm2, %xmm1
; SSE-NEXT: pshufb %xmm2, %xmm0
; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: paddw %xmm4, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: hadd_reverse_v8i16:		; AVX-LABEL: hadd_reverse_v8i16:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [14,15,10,11,6,7,2,3,14,15,10,11,12,13,14,15]		; AVX-NEXT: vphaddw %xmm1, %xmm0, %xmm0
; AVX-NEXT: vpshufb %xmm2, %xmm1, %xmm3		; AVX-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]
; AVX-NEXT: vpshufb %xmm2, %xmm0, %xmm2		; AVX-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]
; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [12,13,8,9,4,5,0,1,8,9,12,13,12,13,14,15]
; AVX-NEXT: vpshufb %xmm3, %xmm1, %xmm1
; AVX-NEXT: vpshufb %xmm3, %xmm0, %xmm0
; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX-NEXT: vpaddw %xmm0, %xmm2, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%lhs = shufflevector <8 x i16> %a0, <8 x i16> %a1, <8 x i32> <i32 7, i32 5, i32 3, i32 1, i32 15, i32 13, i32 11, i32 9>		%lhs = shufflevector <8 x i16> %a0, <8 x i16> %a1, <8 x i32> <i32 7, i32 5, i32 3, i32 1, i32 15, i32 13, i32 11, i32 9>
%rhs = shufflevector <8 x i16> %a0, <8 x i16> %a1, <8 x i32> <i32 6, i32 4, i32 2, i32 0, i32 14, i32 12, i32 10, i32 8>		%rhs = shufflevector <8 x i16> %a0, <8 x i16> %a1, <8 x i32> <i32 6, i32 4, i32 2, i32 0, i32 14, i32 12, i32 10, i32 8>
%add = add <8 x i16> %lhs, %rhs		%add = add <8 x i16> %lhs, %rhs
ret <8 x i16> %add		ret <8 x i16> %add
}		}

define <8 x i16> @hadd_reverse2_v8i16(<8 x i16> %a0, <8 x i16> %a1) nounwind {		define <8 x i16> @hadd_reverse2_v8i16(<8 x i16> %a0, <8 x i16> %a1) nounwind {
Show All 18 Lines	; AVX-NEXT: retq
%rhs = shufflevector <8 x i16> %shuf0, <8 x i16> %shuf1, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>		%rhs = shufflevector <8 x i16> %shuf0, <8 x i16> %shuf1, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
%add = add <8 x i16> %lhs, %rhs		%add = add <8 x i16> %lhs, %rhs
ret <8 x i16> %add		ret <8 x i16> %add
}		}

define <16 x i16> @hadd_reverse_v16i16(<16 x i16> %a0, <16 x i16> %a1) nounwind {		define <16 x i16> @hadd_reverse_v16i16(<16 x i16> %a0, <16 x i16> %a1) nounwind {
; SSE-LABEL: hadd_reverse_v16i16:		; SSE-LABEL: hadd_reverse_v16i16:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movdqa %xmm0, %xmm4		; SSE-NEXT: phaddw %xmm3, %xmm1
; SSE-NEXT: movdqa {{.*#+}} xmm0 = [14,15,10,11,6,7,2,3,14,15,10,11,12,13,14,15]		; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[3,2,1,0,4,5,6,7]
; SSE-NEXT: movdqa %xmm2, %xmm5		; SSE-NEXT: pshufhw {{.*#+}} xmm3 = xmm1[0,1,2,3,7,6,5,4]
; SSE-NEXT: pshufb %xmm0, %xmm5		; SSE-NEXT: phaddw %xmm2, %xmm0
; SSE-NEXT: movdqa %xmm4, %xmm6		; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]
; SSE-NEXT: pshufb %xmm0, %xmm6		; SSE-NEXT: pshufhw {{.*#+}} xmm1 = xmm0[0,1,2,3,7,6,5,4]
; SSE-NEXT: punpcklqdq {{.*#+}} xmm6 = xmm6[0],xmm5[0]		; SSE-NEXT: movdqa %xmm3, %xmm0
; SSE-NEXT: movdqa %xmm3, %xmm5
; SSE-NEXT: pshufb %xmm0, %xmm5
; SSE-NEXT: movdqa %xmm1, %xmm7
; SSE-NEXT: pshufb %xmm0, %xmm7
; SSE-NEXT: punpcklqdq {{.*#+}} xmm7 = xmm7[0],xmm5[0]
; SSE-NEXT: movdqa {{.*#+}} xmm0 = [12,13,8,9,4,5,0,1,8,9,12,13,12,13,14,15]
; SSE-NEXT: pshufb %xmm0, %xmm2
; SSE-NEXT: pshufb %xmm0, %xmm4
; SSE-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm2[0]
; SSE-NEXT: paddw %xmm6, %xmm4
; SSE-NEXT: pshufb %xmm0, %xmm3
; SSE-NEXT: pshufb %xmm0, %xmm1
; SSE-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm3[0]
; SSE-NEXT: paddw %xmm7, %xmm1
; SSE-NEXT: movdqa %xmm1, %xmm0
; SSE-NEXT: movdqa %xmm4, %xmm1
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: hadd_reverse_v16i16:		; AVX1-LABEL: hadd_reverse_v16i16:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [14,15,10,11,6,7,2,3,14,15,10,11,12,13,14,15]		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
; AVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm4		; AVX1-NEXT: vphaddw %xmm2, %xmm3, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5		; AVX1-NEXT: vpshuflw {{.*#+}} xmm2 = xmm2[3,2,1,0,4,5,6,7]
; AVX1-NEXT: vpshufb %xmm3, %xmm5, %xmm6		; AVX1-NEXT: vpshufhw {{.*#+}} xmm2 = xmm2[0,1,2,3,7,6,5,4]
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm4 = xmm6[0],xmm4[0]		; AVX1-NEXT: vphaddw %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm6		; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[3,2,1,0,4,5,6,7]
; AVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm3		; AVX1-NEXT: vpshufhw {{.*#+}} xmm0 = xmm0[0,1,2,3,7,6,5,4]
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm6[0]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [12,13,8,9,4,5,0,1,8,9,12,13,12,13,14,15]
; AVX1-NEXT: vpshufb %xmm6, %xmm2, %xmm2
; AVX1-NEXT: vpshufb %xmm6, %xmm5, %xmm5
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm5[0],xmm2[0]
; AVX1-NEXT: vpaddw %xmm2, %xmm4, %xmm2
; AVX1-NEXT: vpshufb %xmm6, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm6, %xmm0, %xmm0
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX1-NEXT: vpaddw %xmm0, %xmm3, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: hadd_reverse_v16i16:		; AVX2-LABEL: hadd_reverse_v16i16:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpshuflw {{.*#+}} ymm2 = ymm1[3,1,2,3,4,5,6,7,11,9,10,11,12,13,14,15]		; AVX2-NEXT: vphaddw %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpshufhw {{.*#+}} ymm2 = ymm2[0,1,2,3,7,5,6,7,8,9,10,11,15,13,14,15]		; AVX2-NEXT: vpshuflw {{.*#+}} ymm0 = ymm0[3,2,1,0,4,5,6,7,11,10,9,8,12,13,14,15]
; AVX2-NEXT: vpshuflw {{.*#+}} ymm3 = ymm0[3,1,2,3,4,5,6,7,11,9,10,11,12,13,14,15]		; AVX2-NEXT: vpshufhw {{.*#+}} ymm0 = ymm0[0,1,2,3,7,6,5,4,8,9,10,11,15,14,13,12]
; AVX2-NEXT: vpshufhw {{.*#+}} ymm3 = ymm3[0,1,2,3,7,5,6,7,8,9,10,11,15,13,14,15]
; AVX2-NEXT: vshufps {{.*#+}} ymm2 = ymm3[2,0],ymm2[2,0],ymm3[6,4],ymm2[6,4]
; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[2,3,0,1]
; AVX2-NEXT: vpshufb {{.*#+}} ymm1 = ymm1[u,u,u,u,u,u,u,u,12,13,8,9,4,5,0,1,u,u,u,u,u,u,u,u,28,29,24,25,20,21,16,17]
; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[12,13,8,9,4,5,0,1,u,u,u,u,u,u,u,u,28,29,24,25,20,21,16,17,u,u,u,u,u,u,u,u]
; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3],ymm0[4,5],ymm1[6,7]
; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]		; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[2,3,0,1]
; AVX2-NEXT: vpaddw %ymm0, %ymm2, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%lhs = shufflevector <16 x i16> %a0, <16 x i16> %a1, <16 x i32> <i32 15, i32 13, i32 11, i32 9, i32 31, i32 29, i32 27, i32 25, i32 7, i32 5, i32 3, i32 1, i32 23, i32 21, i32 19, i32 17>		%lhs = shufflevector <16 x i16> %a0, <16 x i16> %a1, <16 x i32> <i32 15, i32 13, i32 11, i32 9, i32 31, i32 29, i32 27, i32 25, i32 7, i32 5, i32 3, i32 1, i32 23, i32 21, i32 19, i32 17>
%rhs = shufflevector <16 x i16> %a0, <16 x i16> %a1, <16 x i32> <i32 14, i32 12, i32 10, i32 8, i32 30, i32 28, i32 26, i32 24, i32 6, i32 4, i32 2, i32 0, i32 22, i32 20, i32 18, i32 16>		%rhs = shufflevector <16 x i16> %a0, <16 x i16> %a1, <16 x i32> <i32 14, i32 12, i32 10, i32 8, i32 30, i32 28, i32 26, i32 24, i32 6, i32 4, i32 2, i32 0, i32 22, i32 20, i32 18, i32 16>
%add = add <16 x i16> %lhs, %rhs		%add = add <16 x i16> %lhs, %rhs
ret <16 x i16> %add		ret <16 x i16> %add
}		}

define <16 x i16> @hadd_reverse2_v16i16(<16 x i16> %a0, <16 x i16> %a1) nounwind {		define <16 x i16> @hadd_reverse2_v16i16(<16 x i16> %a0, <16 x i16> %a1) nounwind {
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm3[2,3,0,1]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm3[2,3,0,1]
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3,0,1]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm1 = ymm1[2,3,0,1]
; AVX1-NEXT: vhaddpd %ymm0, %ymm1, %ymm0		; AVX1-NEXT: vhaddpd %ymm0, %ymm1, %ymm0
; AVX1-NEXT: vmovapd %ymm2, %ymm1		; AVX1-NEXT: vmovapd %ymm2, %ymm1
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: hadd_reverse_v8f64:		; AVX2-LABEL: hadd_reverse_v8f64:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermpd {{.*#+}} ymm4 = ymm2[0,3,2,1]		; AVX2-NEXT: vhaddpd %ymm3, %ymm1, %ymm1
; AVX2-NEXT: vpermpd {{.*#+}} ymm5 = ymm0[0,3,2,1]		; AVX2-NEXT: vpermpd {{.*#+}} ymm3 = ymm1[2,3,0,1]
; AVX2-NEXT: vunpckhpd {{.*#+}} ymm4 = ymm5[1],ymm4[1],ymm5[3],ymm4[3]		; AVX2-NEXT: vhaddpd %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpermpd {{.*#+}} ymm5 = ymm3[0,3,2,1]		; AVX2-NEXT: vpermpd {{.*#+}} ymm1 = ymm0[2,3,0,1]
; AVX2-NEXT: vpermpd {{.*#+}} ymm6 = ymm1[0,3,2,1]		; AVX2-NEXT: vmovapd %ymm3, %ymm0
; AVX2-NEXT: vunpckhpd {{.*#+}} ymm5 = ymm6[1],ymm5[1],ymm6[3],ymm5[3]
; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[2,1,0,3]
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[2,1,0,3]
; AVX2-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]
; AVX2-NEXT: vaddpd %ymm0, %ymm4, %ymm2
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm3[2,1,0,3]
; AVX2-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[2,1,0,3]
; AVX2-NEXT: vunpcklpd {{.*#+}} ymm0 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
; AVX2-NEXT: vaddpd %ymm0, %ymm5, %ymm0
; AVX2-NEXT: vmovapd %ymm2, %ymm1
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%lhs = shufflevector <8 x double> %a0, <8 x double> %a1, <8 x i32> <i32 7, i32 15, i32 5, i32 13, i32 3, i32 11, i32 1, i32 9>		%lhs = shufflevector <8 x double> %a0, <8 x double> %a1, <8 x i32> <i32 7, i32 15, i32 5, i32 13, i32 3, i32 11, i32 1, i32 9>
%rhs = shufflevector <8 x double> %a0, <8 x double> %a1, <8 x i32> <i32 6, i32 14, i32 4, i32 12, i32 2, i32 10, i32 0, i32 8>		%rhs = shufflevector <8 x double> %a0, <8 x double> %a1, <8 x i32> <i32 6, i32 14, i32 4, i32 12, i32 2, i32 10, i32 0, i32 8>
%fadd = fadd <8 x double> %lhs, %rhs		%fadd = fadd <8 x double> %lhs, %rhs
ret <8 x double> %fadd		ret <8 x double> %fadd
}		}

define <8 x double> @hadd_reverse2_v8f64(<8 x double> %a0, <8 x double> %a1) nounwind {		define <8 x double> @hadd_reverse2_v8f64(<8 x double> %a0, <8 x double> %a1) nounwind {
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
ret <8 x double> %fadd		ret <8 x double> %fadd
}		}

define <16 x float> @hadd_reverse_v16f32(<16 x float> %a0, <16 x float> %a1) nounwind {		define <16 x float> @hadd_reverse_v16f32(<16 x float> %a0, <16 x float> %a1) nounwind {
; SSE-LABEL: hadd_reverse_v16f32:		; SSE-LABEL: hadd_reverse_v16f32:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movaps %xmm5, %xmm8		; SSE-NEXT: movaps %xmm5, %xmm8
; SSE-NEXT: movaps %xmm1, %xmm5		; SSE-NEXT: movaps %xmm1, %xmm5
; SSE-NEXT: movaps %xmm8, %xmm1		; SSE-NEXT: haddps %xmm2, %xmm3
; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,1],xmm4[3,1]		; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[1,0,3,2]
; SSE-NEXT: movaps %xmm5, %xmm9		; SSE-NEXT: haddps %xmm6, %xmm7
; SSE-NEXT: shufps {{.*#+}} xmm9 = xmm9[3,1],xmm0[3,1]		; SSE-NEXT: shufps {{.*#+}} xmm7 = xmm7[1,0,3,2]
; SSE-NEXT: movaps %xmm7, %xmm10		; SSE-NEXT: haddps %xmm0, %xmm5
; SSE-NEXT: shufps {{.*#+}} xmm10 = xmm10[3,1],xmm6[3,1]		; SSE-NEXT: shufps {{.*#+}} xmm5 = xmm5[1,0,3,2]
; SSE-NEXT: movaps %xmm3, %xmm11		; SSE-NEXT: haddps %xmm4, %xmm8
; SSE-NEXT: shufps {{.*#+}} xmm11 = xmm11[3,1],xmm2[3,1]		; SSE-NEXT: shufps {{.*#+}} xmm8 = xmm8[1,0,3,2]
; SSE-NEXT: shufps {{.*#+}} xmm8 = xmm8[2,0],xmm4[2,0]
; SSE-NEXT: addps %xmm1, %xmm8
; SSE-NEXT: shufps {{.*#+}} xmm5 = xmm5[2,0],xmm0[2,0]
; SSE-NEXT: addps %xmm9, %xmm5
; SSE-NEXT: shufps {{.*#+}} xmm7 = xmm7[2,0],xmm6[2,0]
; SSE-NEXT: addps %xmm10, %xmm7
; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,0],xmm2[2,0]
; SSE-NEXT: addps %xmm11, %xmm3
; SSE-NEXT: movaps %xmm3, %xmm0		; SSE-NEXT: movaps %xmm3, %xmm0
; SSE-NEXT: movaps %xmm7, %xmm1		; SSE-NEXT: movaps %xmm7, %xmm1
; SSE-NEXT: movaps %xmm5, %xmm2		; SSE-NEXT: movaps %xmm5, %xmm2
; SSE-NEXT: movaps %xmm8, %xmm3		; SSE-NEXT: movaps %xmm8, %xmm3
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: hadd_reverse_v16f32:		; AVX1-LABEL: hadd_reverse_v16f32:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm0[2,3],ymm2[2,3]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm0[2,3],ymm2[2,3]
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-NEXT: vshufps {{.*#+}} ymm2 = ymm4[3,1],ymm0[3,1],ymm4[7,5],ymm0[7,5]		; AVX1-NEXT: vhaddps %ymm0, %ymm4, %ymm2
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm1[2,3],ymm3[2,3]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm1[2,3],ymm3[2,3]
; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm3		; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
; AVX1-NEXT: vshufps {{.*#+}} ymm6 = ymm5[3,1],ymm3[3,1],ymm5[7,5],ymm3[7,5]		; AVX1-NEXT: vhaddps %ymm1, %ymm0, %ymm0
; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm4[2,0],ymm0[2,0],ymm4[6,4],ymm0[6,4]		; AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,0,3,2,5,4,7,6]
; AVX1-NEXT: vaddps %ymm0, %ymm2, %ymm1		; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = ymm2[1,0,3,2,5,4,7,6]
; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm5[2,0],ymm3[2,0],ymm5[6,4],ymm3[6,4]
; AVX1-NEXT: vaddps %ymm0, %ymm6, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: hadd_reverse_v16f32:		; AVX2-LABEL: hadd_reverse_v16f32:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vshufps {{.*#+}} ymm4 = ymm0[3,1],ymm2[3,1],ymm0[7,5],ymm2[7,5]		; AVX2-NEXT: vhaddps %ymm3, %ymm1, %ymm1
; AVX2-NEXT: vpermpd {{.*#+}} ymm4 = ymm4[2,0,3,1]		; AVX2-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[1,0,3,2,5,4,7,6]
; AVX2-NEXT: vshufps {{.*#+}} ymm5 = ymm1[3,1],ymm3[3,1],ymm1[7,5],ymm3[7,5]		; AVX2-NEXT: vpermpd {{.*#+}} ymm3 = ymm1[2,0,3,1]
; AVX2-NEXT: vpermpd {{.*#+}} ymm5 = ymm5[2,0,3,1]		; AVX2-NEXT: vhaddps %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[2,0],ymm2[2,0],ymm0[6,4],ymm2[6,4]		; AVX2-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,0,3,2,5,4,7,6]
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[2,0,3,1]		; AVX2-NEXT: vpermpd {{.*#+}} ymm1 = ymm0[2,0,3,1]
; AVX2-NEXT: vaddps %ymm0, %ymm4, %ymm2		; AVX2-NEXT: vmovaps %ymm3, %ymm0
; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm1[2,0],ymm3[2,0],ymm1[6,4],ymm3[6,4]
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[2,0,3,1]
; AVX2-NEXT: vaddps %ymm0, %ymm5, %ymm0
; AVX2-NEXT: vmovaps %ymm2, %ymm1
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%lhs = shufflevector <16 x float> %a0, <16 x float> %a1, <16 x i32> <i32 15, i32 13, i32 11, i32 9, i32 31, i32 29, i32 27, i32 25, i32 7, i32 5, i32 3, i32 1, i32 23, i32 21, i32 19, i32 17>		%lhs = shufflevector <16 x float> %a0, <16 x float> %a1, <16 x i32> <i32 15, i32 13, i32 11, i32 9, i32 31, i32 29, i32 27, i32 25, i32 7, i32 5, i32 3, i32 1, i32 23, i32 21, i32 19, i32 17>
%rhs = shufflevector <16 x float> %a0, <16 x float> %a1, <16 x i32> <i32 14, i32 12, i32 10, i32 8, i32 30, i32 28, i32 26, i32 24, i32 6, i32 4, i32 2, i32 0, i32 22, i32 20, i32 18, i32 16>		%rhs = shufflevector <16 x float> %a0, <16 x float> %a1, <16 x i32> <i32 14, i32 12, i32 10, i32 8, i32 30, i32 28, i32 26, i32 24, i32 6, i32 4, i32 2, i32 0, i32 22, i32 20, i32 18, i32 16>
%fadd = fadd <16 x float> %lhs, %rhs		%fadd = fadd <16 x float> %lhs, %rhs
ret <16 x float> %fadd		ret <16 x float> %fadd
}		}

define <16 x float> @hadd_reverse2_v16f32(<16 x float> %a0, <16 x float> %a1) nounwind {		define <16 x float> @hadd_reverse2_v16f32(<16 x float> %a0, <16 x float> %a1) nounwind {
▲ Show 20 Lines • Show All 56 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/haddsub-shuf.ll

Show First 20 Lines • Show All 873 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
ret <4 x float> %2		ret <4 x float> %2
}		}

declare <4 x float> @llvm.x86.sse3.hadd.ps(<4 x float>, <4 x float>)		declare <4 x float> @llvm.x86.sse3.hadd.ps(<4 x float>, <4 x float>)

define <4 x float> @PR34724_1(<4 x float> %a, <4 x float> %b) {		define <4 x float> @PR34724_1(<4 x float> %a, <4 x float> %b) {
; SSSE3_SLOW-LABEL: PR34724_1:		; SSSE3_SLOW-LABEL: PR34724_1:
; SSSE3_SLOW: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3_SLOW-NEXT: movaps %xmm1, %xmm2
; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm0[3,2]
; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm0[2,3]
; SSSE3_SLOW-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]		; SSSE3_SLOW-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; SSSE3_SLOW-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSSE3_SLOW-NEXT: haddps %xmm1, %xmm0
; SSSE3_SLOW-NEXT: addps %xmm0, %xmm2		; SSSE3_SLOW-NEXT: movsldup {{.*#+}} xmm2 = xmm1[0,0,2,2]
; SSSE3_SLOW-NEXT: movsldup {{.*#+}} xmm0 = xmm1[0,0,2,2]		; SSSE3_SLOW-NEXT: addps %xmm1, %xmm2
; SSSE3_SLOW-NEXT: addps %xmm1, %xmm0		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[3,0],xmm0[2,0]
; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,0],xmm2[1,0]		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm2[2,0]
; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm0[2,0]
; SSSE3_SLOW-NEXT: movaps %xmm2, %xmm0
; SSSE3_SLOW-NEXT: retq		; SSSE3_SLOW-NEXT: retq
;		;
; SSSE3_FAST-LABEL: PR34724_1:		; SSSE3_FAST-LABEL: PR34724_1:
; SSSE3_FAST: # %bb.0:		; SSSE3_FAST: # %bb.0:
; SSSE3_FAST-NEXT: movaps %xmm1, %xmm2
; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm0[3,2]
; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm0[2,3]
; SSSE3_FAST-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]		; SSSE3_FAST-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; SSSE3_FAST-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSSE3_FAST-NEXT: haddps %xmm1, %xmm0
; SSSE3_FAST-NEXT: addps %xmm0, %xmm2
; SSSE3_FAST-NEXT: haddps %xmm1, %xmm1		; SSSE3_FAST-NEXT: haddps %xmm1, %xmm1
; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,0],xmm2[1,0]		; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,0],xmm0[2,0]
; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[2,0]		; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,0],xmm1[2,0]
; SSSE3_FAST-NEXT: movaps %xmm2, %xmm0
; SSSE3_FAST-NEXT: retq		; SSSE3_FAST-NEXT: retq
;		;
; AVX1_SLOW-LABEL: PR34724_1:		; AVX1_SLOW-LABEL: PR34724_1:
; AVX1_SLOW: # %bb.0:		; AVX1_SLOW: # %bb.0:
; AVX1_SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]		; AVX1_SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1_SLOW-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],xmm1[0],zero,zero		; AVX1_SLOW-NEXT: vhaddps %xmm1, %xmm0, %xmm0
; AVX1_SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero
; AVX1_SLOW-NEXT: vaddps %xmm0, %xmm2, %xmm0
; AVX1_SLOW-NEXT: vmovsldup {{.*#+}} xmm2 = xmm1[0,0,2,2]		; AVX1_SLOW-NEXT: vmovsldup {{.*#+}} xmm2 = xmm1[0,0,2,2]
; AVX1_SLOW-NEXT: vaddps %xmm1, %xmm2, %xmm1		; AVX1_SLOW-NEXT: vaddps %xmm1, %xmm2, %xmm1
; AVX1_SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]		; AVX1_SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
; AVX1_SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,1,3]		; AVX1_SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,2,3]
; AVX1_SLOW-NEXT: retq		; AVX1_SLOW-NEXT: retq
;		;
; AVX1_FAST-LABEL: PR34724_1:		; AVX1_FAST-LABEL: PR34724_1:
; AVX1_FAST: # %bb.0:		; AVX1_FAST: # %bb.0:
; AVX1_FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]		; AVX1_FAST-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX1_FAST-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],xmm1[0],zero,zero		; AVX1_FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0
; AVX1_FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero
; AVX1_FAST-NEXT: vaddps %xmm0, %xmm2, %xmm0
; AVX1_FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1		; AVX1_FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
; AVX1_FAST-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]		; AVX1_FAST-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
; AVX1_FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,1,3]		; AVX1_FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,2,3]
; AVX1_FAST-NEXT: retq		; AVX1_FAST-NEXT: retq
;		;
; AVX2_SLOW-LABEL: PR34724_1:		; AVX2_SLOW-LABEL: PR34724_1:
; AVX2_SLOW: # %bb.0:		; AVX2_SLOW: # %bb.0:
; AVX2_SLOW-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]		; AVX2_SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2_SLOW-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],xmm1[0],zero,zero		; AVX2_SLOW-NEXT: vhaddps %xmm1, %xmm0, %xmm0
; AVX2_SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero
; AVX2_SLOW-NEXT: vaddps %xmm0, %xmm2, %xmm0
; AVX2_SLOW-NEXT: vmovsldup {{.*#+}} xmm2 = xmm1[0,0,2,2]		; AVX2_SLOW-NEXT: vmovsldup {{.*#+}} xmm2 = xmm1[0,0,2,2]
; AVX2_SLOW-NEXT: vaddps %xmm1, %xmm2, %xmm1		; AVX2_SLOW-NEXT: vaddps %xmm1, %xmm2, %xmm1
; AVX2_SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]		; AVX2_SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
; AVX2_SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,1,3]		; AVX2_SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,2,3]
; AVX2_SLOW-NEXT: retq		; AVX2_SLOW-NEXT: retq
;		;
; AVX2_FAST-LABEL: PR34724_1:		; AVX2_FAST-LABEL: PR34724_1:
; AVX2_FAST: # %bb.0:		; AVX2_FAST: # %bb.0:
; AVX2_FAST-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]		; AVX2_FAST-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; AVX2_FAST-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],xmm1[0],zero,zero		; AVX2_FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0
; AVX2_FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero
; AVX2_FAST-NEXT: vaddps %xmm0, %xmm2, %xmm0
; AVX2_FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1		; AVX2_FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
; AVX2_FAST-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]		; AVX2_FAST-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
; AVX2_FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,1,3]		; AVX2_FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,2,3]
; AVX2_FAST-NEXT: retq		; AVX2_FAST-NEXT: retq
%t0 = shufflevector <4 x float> %a, <4 x float> %b, <2 x i32> <i32 2, i32 4>		%t0 = shufflevector <4 x float> %a, <4 x float> %b, <2 x i32> <i32 2, i32 4>
%t1 = shufflevector <4 x float> %a, <4 x float> %b, <2 x i32> <i32 3, i32 5>		%t1 = shufflevector <4 x float> %a, <4 x float> %b, <2 x i32> <i32 3, i32 5>
%t2 = fadd <2 x float> %t0, %t1		%t2 = fadd <2 x float> %t0, %t1
%vecinit9 = shufflevector <2 x float> %t2, <2 x float> undef, <4 x i32> <i32 undef, i32 0, i32 1, i32 undef>		%vecinit9 = shufflevector <2 x float> %t2, <2 x float> undef, <4 x i32> <i32 undef, i32 0, i32 1, i32 undef>
%t3 = shufflevector <4 x float> %b, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>		%t3 = shufflevector <4 x float> %b, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>
%t4 = fadd <4 x float> %t3, %b		%t4 = fadd <4 x float> %t3, %b
%vecinit13 = shufflevector <4 x float> %vecinit9, <4 x float> %t4, <4 x i32> <i32 undef, i32 1, i32 2, i32 7>		%vecinit13 = shufflevector <4 x float> %vecinit9, <4 x float> %t4, <4 x i32> <i32 undef, i32 1, i32 2, i32 7>
ret <4 x float> %vecinit13		ret <4 x float> %vecinit13
}		}

define <4 x float> @PR34724_2(<4 x float> %a, <4 x float> %b) {		define <4 x float> @PR34724_2(<4 x float> %a, <4 x float> %b) {
; SSSE3_SLOW-LABEL: PR34724_2:		; SSSE3_SLOW-LABEL: PR34724_2:
; SSSE3_SLOW: # %bb.0:		; SSSE3_SLOW: # %bb.0:
; SSSE3_SLOW-NEXT: movaps %xmm1, %xmm2		; SSSE3_SLOW-NEXT: haddps %xmm1, %xmm0
; SSSE3_SLOW-NEXT: movsldup {{.*#+}} xmm3 = xmm1[0,0,2,2]		; SSSE3_SLOW-NEXT: movsldup {{.*#+}} xmm2 = xmm1[0,0,2,2]
; SSSE3_SLOW-NEXT: addps %xmm1, %xmm3
; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[2,0]
; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]
; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm0[3,0]
; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm0[2,3]
; SSSE3_SLOW-NEXT: addps %xmm1, %xmm2		; SSSE3_SLOW-NEXT: addps %xmm1, %xmm2
; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,0],xmm2[1,0]		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[3,0],xmm0[2,0]
; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm3[2,0]		; SSSE3_SLOW-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,0]
; SSSE3_SLOW-NEXT: movaps %xmm2, %xmm0
; SSSE3_SLOW-NEXT: retq		; SSSE3_SLOW-NEXT: retq
;		;
; SSSE3_FAST-LABEL: PR34724_2:		; SSSE3_FAST-LABEL: PR34724_2:
; SSSE3_FAST: # %bb.0:		; SSSE3_FAST: # %bb.0:
; SSSE3_FAST-NEXT: movaps %xmm1, %xmm3		; SSSE3_FAST-NEXT: haddps %xmm1, %xmm0
; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,0],xmm0[2,0]
; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm3 = xmm3[2,0],xmm0[2,3]
; SSSE3_FAST-NEXT: movaps %xmm1, %xmm2
; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,0],xmm0[3,0]
; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm0[2,3]
; SSSE3_FAST-NEXT: addps %xmm3, %xmm2
; SSSE3_FAST-NEXT: haddps %xmm1, %xmm1		; SSSE3_FAST-NEXT: haddps %xmm1, %xmm1
; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,0],xmm2[1,0]		; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm1 = xmm1[3,0],xmm0[2,0]
; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[2,0]		; SSSE3_FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,0]
; SSSE3_FAST-NEXT: movaps %xmm2, %xmm0
; SSSE3_FAST-NEXT: retq		; SSSE3_FAST-NEXT: retq
;		;
; AVX1_SLOW-LABEL: PR34724_2:		; AVX1_SLOW-LABEL: PR34724_2:
; AVX1_SLOW: # %bb.0:		; AVX1_SLOW: # %bb.0:
; AVX1_SLOW-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0,1],xmm0[2,3]		; AVX1_SLOW-NEXT: vhaddps %xmm1, %xmm0, %xmm0
; AVX1_SLOW-NEXT: vpermilps {{.*#+}} xmm2 = xmm2[2,0,2,3]
; AVX1_SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero
; AVX1_SLOW-NEXT: vaddps %xmm0, %xmm2, %xmm0
; AVX1_SLOW-NEXT: vmovsldup {{.*#+}} xmm2 = xmm1[0,0,2,2]		; AVX1_SLOW-NEXT: vmovsldup {{.*#+}} xmm2 = xmm1[0,0,2,2]
; AVX1_SLOW-NEXT: vaddps %xmm1, %xmm2, %xmm1		; AVX1_SLOW-NEXT: vaddps %xmm1, %xmm2, %xmm1
; AVX1_SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]		; AVX1_SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
; AVX1_SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,1,3]
; AVX1_SLOW-NEXT: retq		; AVX1_SLOW-NEXT: retq
;		;
; AVX1_FAST-LABEL: PR34724_2:		; AVX1_FAST-LABEL: PR34724_2:
; AVX1_FAST: # %bb.0:		; AVX1_FAST: # %bb.0:
; AVX1_FAST-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0,1],xmm0[2,3]		; AVX1_FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0
; AVX1_FAST-NEXT: vpermilps {{.*#+}} xmm2 = xmm2[2,0,2,3]
; AVX1_FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero
; AVX1_FAST-NEXT: vaddps %xmm0, %xmm2, %xmm0
; AVX1_FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1		; AVX1_FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
; AVX1_FAST-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]		; AVX1_FAST-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
; AVX1_FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,1,3]
; AVX1_FAST-NEXT: retq		; AVX1_FAST-NEXT: retq
;		;
; AVX2_SLOW-LABEL: PR34724_2:		; AVX2_SLOW-LABEL: PR34724_2:
; AVX2_SLOW: # %bb.0:		; AVX2_SLOW: # %bb.0:
; AVX2_SLOW-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0,1],xmm0[2,3]		; AVX2_SLOW-NEXT: vhaddps %xmm1, %xmm0, %xmm0
; AVX2_SLOW-NEXT: vpermilps {{.*#+}} xmm2 = xmm2[2,0,2,3]
; AVX2_SLOW-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero
; AVX2_SLOW-NEXT: vaddps %xmm0, %xmm2, %xmm0
; AVX2_SLOW-NEXT: vmovsldup {{.*#+}} xmm2 = xmm1[0,0,2,2]		; AVX2_SLOW-NEXT: vmovsldup {{.*#+}} xmm2 = xmm1[0,0,2,2]
; AVX2_SLOW-NEXT: vaddps %xmm1, %xmm2, %xmm1		; AVX2_SLOW-NEXT: vaddps %xmm1, %xmm2, %xmm1
; AVX2_SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]		; AVX2_SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
; AVX2_SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,1,3]
; AVX2_SLOW-NEXT: retq		; AVX2_SLOW-NEXT: retq
;		;
; AVX2_FAST-LABEL: PR34724_2:		; AVX2_FAST-LABEL: PR34724_2:
; AVX2_FAST: # %bb.0:		; AVX2_FAST: # %bb.0:
; AVX2_FAST-NEXT: vblendps {{.*#+}} xmm2 = xmm1[0,1],xmm0[2,3]		; AVX2_FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0
; AVX2_FAST-NEXT: vpermilps {{.*#+}} xmm2 = xmm2[2,0,2,3]
; AVX2_FAST-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[3],xmm1[1],zero,zero
; AVX2_FAST-NEXT: vaddps %xmm0, %xmm2, %xmm0
; AVX2_FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1		; AVX2_FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm1
; AVX2_FAST-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]		; AVX2_FAST-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[3]
; AVX2_FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,1,3]
; AVX2_FAST-NEXT: retq		; AVX2_FAST-NEXT: retq
%t0 = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 2, i32 4, i32 undef, i32 undef>		%t0 = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 2, i32 4, i32 undef, i32 undef>
%t1 = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 3, i32 5, i32 undef, i32 undef>		%t1 = shufflevector <4 x float> %a, <4 x float> %b, <4 x i32> <i32 3, i32 5, i32 undef, i32 undef>
%t2 = fadd <4 x float> %t0, %t1		%t2 = fadd <4 x float> %t0, %t1
%vecinit9 = shufflevector <4 x float> %t2, <4 x float> undef, <4 x i32> <i32 undef, i32 0, i32 1, i32 undef>		%vecinit9 = shufflevector <4 x float> %t2, <4 x float> undef, <4 x i32> <i32 undef, i32 0, i32 1, i32 undef>
%t3 = shufflevector <4 x float> %b, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>		%t3 = shufflevector <4 x float> %b, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 2>
%t4 = fadd <4 x float> %t3, %b		%t4 = fadd <4 x float> %t3, %b
%vecinit13 = shufflevector <4 x float> %vecinit9, <4 x float> %t4, <4 x i32> <i32 undef, i32 1, i32 2, i32 7>		%vecinit13 = shufflevector <4 x float> %vecinit9, <4 x float> %t4, <4 x i32> <i32 undef, i32 1, i32 2, i32 7>
ret <4 x float> %vecinit13		ret <4 x float> %vecinit13
}		}

llvm/test/CodeGen/X86/haddsub-undef.ll

	Show First 20 Lines • Show All 812 Lines • ▼ Show 20 Lines
	; SSE-FAST-LABEL: PR44694:			; SSE-FAST-LABEL: PR44694:
	; SSE-FAST: # %bb.0:			; SSE-FAST: # %bb.0:
	; SSE-FAST-NEXT: movapd %xmm1, %xmm0			; SSE-FAST-NEXT: movapd %xmm1, %xmm0
	; SSE-FAST-NEXT: haddpd %xmm3, %xmm2			; SSE-FAST-NEXT: haddpd %xmm3, %xmm2
	; SSE-FAST-NEXT: haddpd %xmm1, %xmm0			; SSE-FAST-NEXT: haddpd %xmm1, %xmm0
	; SSE-FAST-NEXT: movapd %xmm2, %xmm1			; SSE-FAST-NEXT: movapd %xmm2, %xmm1
	; SSE-FAST-NEXT: retq			; SSE-FAST-NEXT: retq
	;			;
	; AVX-LABEL: PR44694:			; AVX1-SLOW-LABEL: PR44694:
	; AVX: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]			; AVX1-SLOW-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]
	; AVX-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1			; AVX1-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
	; AVX-NEXT: vhaddpd %ymm0, %ymm1, %ymm0			; AVX1-SLOW-NEXT: vhaddpd %ymm0, %ymm1, %ymm0
	; AVX-NEXT: retq			; AVX1-SLOW-NEXT: retq
				;
				; AVX1-FAST-LABEL: PR44694:
				; AVX1-FAST: # %bb.0:
				; AVX1-FAST-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]
				; AVX1-FAST-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
				; AVX1-FAST-NEXT: vhaddpd %ymm0, %ymm1, %ymm0
				; AVX1-FAST-NEXT: retq
				;
				; AVX512-LABEL: PR44694:
				; AVX512: # %bb.0:
				; AVX512-NEXT: vhaddpd %ymm1, %ymm0, %ymm0
				; AVX512-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
				; AVX512-NEXT: retq
	%3 = shufflevector <4 x double> %0, <4 x double> %1, <4 x i32> <i32 undef, i32 2, i32 4, i32 6>			%3 = shufflevector <4 x double> %0, <4 x double> %1, <4 x i32> <i32 undef, i32 2, i32 4, i32 6>
	%4 = shufflevector <4 x double> %0, <4 x double> %1, <4 x i32> <i32 undef, i32 3, i32 5, i32 7>			%4 = shufflevector <4 x double> %0, <4 x double> %1, <4 x i32> <i32 undef, i32 3, i32 5, i32 7>
	%5 = fadd <4 x double> %3, %4			%5 = fadd <4 x double> %3, %4
	ret <4 x double> %5			ret <4 x double> %5
	}			}

	define <4 x float> @PR45747_1(<4 x float> %a, <4 x float> %b) nounwind {			define <4 x float> @PR45747_1(<4 x float> %a, <4 x float> %b) nounwind {
	; SSE-LABEL: PR45747_1:			; SSE-SLOW-LABEL: PR45747_1:
	; SSE: # %bb.0:			; SSE-SLOW: # %bb.0:
	; SSE-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE-SLOW-NEXT: movshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE-NEXT: addps %xmm0, %xmm1			; SSE-SLOW-NEXT: addps %xmm0, %xmm1
	; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-SLOW-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE-NEXT: movaps %xmm1, %xmm0			; SSE-SLOW-NEXT: movaps %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-SLOW-NEXT: retq
	;			;
	; AVX-LABEL: PR45747_1:			; SSE-FAST-LABEL: PR45747_1:
	; AVX: # %bb.0:			; SSE-FAST: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SSE-FAST-NEXT: haddps %xmm0, %xmm0
	; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0			; SSE-FAST-NEXT: retq
	; AVX-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]			;
	; AVX-NEXT: retq			; AVX-SLOW-LABEL: PR45747_1:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
				; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
				; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,3]
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: PR45747_1:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
				; AVX-FAST-NEXT: retq
	%t0 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 3, i32 undef>			%t0 = shufflevector <4 x float> %a, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 3, i32 undef>
	%t1 = fadd <4 x float> %t0, %a			%t1 = fadd <4 x float> %t0, %a
	%shuffle = shufflevector <4 x float> %t1, <4 x float> undef, <4 x i32> <i32 undef, i32 2, i32 undef, i32 undef>			%shuffle = shufflevector <4 x float> %t1, <4 x float> undef, <4 x i32> <i32 undef, i32 2, i32 undef, i32 undef>
	ret <4 x float> %shuffle			ret <4 x float> %shuffle
	}			}

	define <4 x float> @PR45747_2(<4 x float> %a, <4 x float> %b) nounwind {			define <4 x float> @PR45747_2(<4 x float> %a, <4 x float> %b) nounwind {
	; SSE-LABEL: PR45747_2:			; SSE-SLOW-LABEL: PR45747_2:
	; SSE: # %bb.0:			; SSE-SLOW: # %bb.0:
	; SSE-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE-SLOW-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE-NEXT: addps %xmm1, %xmm0			; SSE-SLOW-NEXT: addps %xmm1, %xmm0
	; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]			; SSE-SLOW-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; SSE-NEXT: retq			; SSE-SLOW-NEXT: retq
	;			;
	; AVX-LABEL: PR45747_2:			; SSE-FAST-LABEL: PR45747_2:
	; AVX: # %bb.0:			; SSE-FAST: # %bb.0:
	; AVX-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE-FAST-NEXT: movaps %xmm1, %xmm0
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; SSE-FAST-NEXT: haddps %xmm1, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; SSE-FAST-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]
	; AVX-NEXT: retq			; SSE-FAST-NEXT: retq
				;
				; AVX-SLOW-LABEL: PR45747_2:
				; AVX-SLOW: # %bb.0:
				; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
				; AVX-SLOW-NEXT: vaddps %xmm1, %xmm0, %xmm0
				; AVX-SLOW-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; AVX-SLOW-NEXT: retq
				;
				; AVX-FAST-LABEL: PR45747_2:
				; AVX-FAST: # %bb.0:
				; AVX-FAST-NEXT: vhaddps %xmm1, %xmm1, %xmm0
				; AVX-FAST-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[3,1,2,3]
				; AVX-FAST-NEXT: retq
	%t0 = shufflevector <4 x float> %b, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 3, i32 undef>			%t0 = shufflevector <4 x float> %b, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 3, i32 undef>
	%t1 = fadd <4 x float> %t0, %b			%t1 = fadd <4 x float> %t0, %b
	%shuffle = shufflevector <4 x float> %t1, <4 x float> undef, <4 x i32> <i32 2, i32 undef, i32 undef, i32 undef>			%shuffle = shufflevector <4 x float> %t1, <4 x float> undef, <4 x i32> <i32 2, i32 undef, i32 undef, i32 undef>
	ret <4 x float> %shuffle			ret <4 x float> %shuffle
	}			}

llvm/test/CodeGen/X86/vector-shuffle-256-v4.ll

	Show First 20 Lines • Show All 1,760 Lines • ▼ Show 20 Lines
	; AVX512VL-FAST: # %bb.0:			; AVX512VL-FAST: # %bb.0:
	; AVX512VL-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,ymm0[16,17,18,19,20,21,22,23],zero,zero,zero,zero,zero,zero,zero,zero			; AVX512VL-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[8,9,10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,ymm0[16,17,18,19,20,21,22,23],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX512VL-FAST-NEXT: retq			; AVX512VL-FAST-NEXT: retq
	%1 = shufflevector <4 x i64> %a, <4 x i64> <i64 0, i64 undef, i64 undef, i64 undef>, <4 x i32> <i32 1, i32 4, i32 2, i32 4>			%1 = shufflevector <4 x i64> %a, <4 x i64> <i64 0, i64 undef, i64 undef, i64 undef>, <4 x i32> <i32 1, i32 4, i32 2, i32 4>
	ret <4 x i64> %1			ret <4 x i64> %1
	}			}

	define <4 x double> @add_v4f64_0246_1357(<4 x double> %a, <4 x double> %b) {			define <4 x double> @add_v4f64_0246_1357(<4 x double> %a, <4 x double> %b) {
	; ALL-LABEL: add_v4f64_0246_1357:			; AVX1-LABEL: add_v4f64_0246_1357:
	; ALL: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; ALL-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; ALL-NEXT: vhaddpd %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vhaddpd %ymm2, %ymm0, %ymm0
	; ALL-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: add_v4f64_0246_1357:
				; AVX2: # %bb.0: # %entry
				; AVX2-NEXT: vhaddpd %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
				; AVX2-NEXT: retq
				;
				; AVX512VL-LABEL: add_v4f64_0246_1357:
				; AVX512VL: # %bb.0: # %entry
				; AVX512VL-NEXT: vhaddpd %ymm1, %ymm0, %ymm0
				; AVX512VL-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
				; AVX512VL-NEXT: retq
	entry:			entry:
	%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 0, i32 2, i32 4, i32 6>			%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
	%shuffle1 = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 3, i32 5, i32 7>			%shuffle1 = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
	%add = fadd <4 x double> %shuffle, %shuffle1			%add = fadd <4 x double> %shuffle, %shuffle1
	ret <4 x double> %add			ret <4 x double> %add
	}			}

	define <4 x double> @add_v4f64_4602_5713(<4 x double> %a, <4 x double> %b) {			define <4 x double> @add_v4f64_4602_5713(<4 x double> %a, <4 x double> %b) {
	; ALL-LABEL: add_v4f64_4602_5713:			; AVX1-LABEL: add_v4f64_4602_5713:
	; ALL: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; ALL-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3],ymm0[2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3],ymm0[2,3]
	; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; ALL-NEXT: vhaddpd %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vhaddpd %ymm2, %ymm0, %ymm0
	; ALL-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: add_v4f64_4602_5713:
				; AVX2: # %bb.0: # %entry
				; AVX2-NEXT: vhaddpd %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[1,3,0,2]
				; AVX2-NEXT: retq
				;
				; AVX512VL-LABEL: add_v4f64_4602_5713:
				; AVX512VL: # %bb.0: # %entry
				; AVX512VL-NEXT: vhaddpd %ymm1, %ymm0, %ymm0
				; AVX512VL-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[1,3,0,2]
				; AVX512VL-NEXT: retq
	entry:			entry:
	%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 4, i32 6, i32 0, i32 2>			%shuffle = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 4, i32 6, i32 0, i32 2>
	%shuffle1 = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 5, i32 7, i32 1, i32 3>			%shuffle1 = shufflevector <4 x double> %a, <4 x double> %b, <4 x i32> <i32 5, i32 7, i32 1, i32 3>
	%add = fadd <4 x double> %shuffle, %shuffle1			%add = fadd <4 x double> %shuffle, %shuffle1
	ret <4 x double> %add			ret <4 x double> %add
	}			}

	define <4 x i64> @add_v4i64_0246_1357(<4 x i64> %a, <4 x i64> %b) {			define <4 x i64> @add_v4i64_0246_1357(<4 x i64> %a, <4 x i64> %b) {
	▲ Show 20 Lines • Show All 217 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-shuffle-256-v8.ll

	Show First 20 Lines • Show All 3,033 Lines • ▼ Show 20 Lines
	define <8 x float> @add_v8f32_02468ACE_13579BDF(<8 x float> %a, <8 x float> %b) {			define <8 x float> @add_v8f32_02468ACE_13579BDF(<8 x float> %a, <8 x float> %b) {
	; AVX1-LABEL: add_v8f32_02468ACE_13579BDF:			; AVX1-LABEL: add_v8f32_02468ACE_13579BDF:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vhaddps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vhaddps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: add_v8f32_02468ACE_13579BDF:			; AVX2OR512VL-LABEL: add_v8f32_02468ACE_13579BDF:
	; AVX2: # %bb.0: # %entry			; AVX2OR512VL: # %bb.0: # %entry
	; AVX2-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]			; AVX2OR512VL-NEXT: vhaddps %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]			; AVX2OR512VL-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]			; AVX2OR512VL-NEXT: retq
	; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vaddps %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: retq
	;
	; AVX512VL-SLOW-LABEL: add_v8f32_02468ACE_13579BDF:
	; AVX512VL-SLOW: # %bb.0: # %entry
	; AVX512VL-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]
	; AVX512VL-SLOW-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX512VL-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]
	; AVX512VL-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX512VL-SLOW-NEXT: vaddps %ymm0, %ymm2, %ymm0
	; AVX512VL-SLOW-NEXT: retq
	;
	; AVX512VL-FAST-LABEL: add_v8f32_02468ACE_13579BDF:
	; AVX512VL-FAST: # %bb.0: # %entry
	; AVX512VL-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,8,10,12,14]
	; AVX512VL-FAST-NEXT: vpermi2ps %ymm1, %ymm0, %ymm2
	; AVX512VL-FAST-NEXT: vmovaps {{.*#+}} ymm3 = [1,3,5,7,9,11,13,15]
	; AVX512VL-FAST-NEXT: vpermi2ps %ymm1, %ymm0, %ymm3
	; AVX512VL-FAST-NEXT: vaddps %ymm3, %ymm2, %ymm0
	; AVX512VL-FAST-NEXT: retq
	entry:			entry:
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
	%shuffle1 = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>			%shuffle1 = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
	%add = fadd <8 x float> %shuffle, %shuffle1			%add = fadd <8 x float> %shuffle, %shuffle1
	ret <8 x float> %add			ret <8 x float> %add
	}			}

	define <8 x float> @add_v8f32_8ACE0246_9BDF1357(<8 x float> %a, <8 x float> %b) {			define <8 x float> @add_v8f32_8ACE0246_9BDF1357(<8 x float> %a, <8 x float> %b) {
	; AVX1-LABEL: add_v8f32_8ACE0246_9BDF1357:			; AVX1-LABEL: add_v8f32_8ACE0246_9BDF1357:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3],ymm0[2,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3],ymm0[2,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: vhaddps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vhaddps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: add_v8f32_8ACE0246_9BDF1357:			; AVX2OR512VL-LABEL: add_v8f32_8ACE0246_9BDF1357:
	; AVX2: # %bb.0: # %entry			; AVX2OR512VL: # %bb.0: # %entry
	; AVX2-NEXT: vshufps {{.*#+}} ymm2 = ymm1[0,2],ymm0[0,2],ymm1[4,6],ymm0[4,6]			; AVX2OR512VL-NEXT: vhaddps %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]			; AVX2OR512VL-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[1,3,0,2]
	; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm1[1,3],ymm0[1,3],ymm1[5,7],ymm0[5,7]			; AVX2OR512VL-NEXT: retq
	; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vaddps %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: retq
	;
	; AVX512VL-SLOW-LABEL: add_v8f32_8ACE0246_9BDF1357:
	; AVX512VL-SLOW: # %bb.0: # %entry
	; AVX512VL-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm1[0,2],ymm0[0,2],ymm1[4,6],ymm0[4,6]
	; AVX512VL-SLOW-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX512VL-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm1[1,3],ymm0[1,3],ymm1[5,7],ymm0[5,7]
	; AVX512VL-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX512VL-SLOW-NEXT: vaddps %ymm0, %ymm2, %ymm0
	; AVX512VL-SLOW-NEXT: retq
	;
	; AVX512VL-FAST-LABEL: add_v8f32_8ACE0246_9BDF1357:
	; AVX512VL-FAST: # %bb.0: # %entry
	; AVX512VL-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,8,10,12,14]
	; AVX512VL-FAST-NEXT: vpermi2ps %ymm0, %ymm1, %ymm2
	; AVX512VL-FAST-NEXT: vmovaps {{.*#+}} ymm3 = [1,3,5,7,9,11,13,15]
	; AVX512VL-FAST-NEXT: vpermi2ps %ymm0, %ymm1, %ymm3
	; AVX512VL-FAST-NEXT: vaddps %ymm3, %ymm2, %ymm0
	; AVX512VL-FAST-NEXT: retq
	entry:			entry:
	%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 8, i32 10, i32 12, i32 14, i32 0, i32 2, i32 4, i32 6>			%shuffle = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 8, i32 10, i32 12, i32 14, i32 0, i32 2, i32 4, i32 6>
	%shuffle1 = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 9, i32 11, i32 13, i32 15, i32 1, i32 3, i32 5, i32 7>			%shuffle1 = shufflevector <8 x float> %a, <8 x float> %b, <8 x i32> <i32 9, i32 11, i32 13, i32 15, i32 1, i32 3, i32 5, i32 7>
	%add = fadd <8 x float> %shuffle, %shuffle1			%add = fadd <8 x float> %shuffle, %shuffle1
	ret <8 x float> %add			ret <8 x float> %add
	}			}

	define <8 x i32> @add_v8i32_02468ACE_13579BDF(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @add_v8i32_02468ACE_13579BDF(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: add_v8i32_02468ACE_13579BDF:			; AVX1-LABEL: add_v8i32_02468ACE_13579BDF:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX1-NEXT: vphaddd %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm2, %ymm2
	; AVX1-NEXT: vshufps {{.*#+}} ymm1 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm2[1,3],ymm0[5,7],ymm2[5,7]			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vphaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm2[0],ymm0[0],ymm2[3],ymm0[3]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: add_v8i32_02468ACE_13579BDF:			; AVX2OR512VL-LABEL: add_v8i32_02468ACE_13579BDF:
	; AVX2: # %bb.0: # %entry			; AVX2OR512VL: # %bb.0: # %entry
	; AVX2-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]			; AVX2OR512VL-NEXT: vphaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]			; AVX2OR512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]			; AVX2OR512VL-NEXT: retq
	; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: retq
	;
	; AVX512VL-SLOW-LABEL: add_v8i32_02468ACE_13579BDF:
	; AVX512VL-SLOW: # %bb.0: # %entry
	; AVX512VL-SLOW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512VL-SLOW-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm2
	; AVX512VL-SLOW-NEXT: vpmovqd %zmm2, %ymm2
	; AVX512VL-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]
	; AVX512VL-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX512VL-SLOW-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; AVX512VL-SLOW-NEXT: retq
	;
	; AVX512VL-FAST-LABEL: add_v8i32_02468ACE_13579BDF:
	; AVX512VL-FAST: # %bb.0: # %entry
	; AVX512VL-FAST-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512VL-FAST-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm2
	; AVX512VL-FAST-NEXT: vpmovqd %zmm2, %ymm2
	; AVX512VL-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [1,3,5,7,9,11,13,15]
	; AVX512VL-FAST-NEXT: vpermi2d %ymm1, %ymm0, %ymm3
	; AVX512VL-FAST-NEXT: vpaddd %ymm3, %ymm2, %ymm0
	; AVX512VL-FAST-NEXT: retq
	entry:			entry:
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
	%shuffle1 = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>			%shuffle1 = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
	%add = add <8 x i32> %shuffle, %shuffle1			%add = add <8 x i32> %shuffle, %shuffle1
	ret <8 x i32> %add			ret <8 x i32> %add
	}			}

	define <8 x i32> @add_v8i32_8ACE0246_9BDF1357(<8 x i32> %a, <8 x i32> %b) {			define <8 x i32> @add_v8i32_8ACE0246_9BDF1357(<8 x i32> %a, <8 x i32> %b) {
	; AVX1-LABEL: add_v8i32_8ACE0246_9BDF1357:			; AVX1-LABEL: add_v8i32_8ACE0246_9BDF1357:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3],ymm0[2,3]			; AVX1-NEXT: vphaddd %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm2, %ymm2
	; AVX1-NEXT: vshufps {{.*#+}} ymm1 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm2[1,3],ymm0[5,7],ymm2[5,7]			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vphaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vpaddd %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3,2,3]
	; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vshufpd {{.*#+}} ymm0 = ymm2[1],ymm0[1],ymm2[2],ymm0[2]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: add_v8i32_8ACE0246_9BDF1357:			; AVX2OR512VL-LABEL: add_v8i32_8ACE0246_9BDF1357:
	; AVX2: # %bb.0: # %entry			; AVX2OR512VL: # %bb.0: # %entry
	; AVX2-NEXT: vshufps {{.*#+}} ymm2 = ymm1[0,2],ymm0[0,2],ymm1[4,6],ymm0[4,6]			; AVX2OR512VL-NEXT: vphaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]			; AVX2OR512VL-NEXT: vpermq {{.*#+}} ymm0 = ymm0[1,3,0,2]
	; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm1[1,3],ymm0[1,3],ymm1[5,7],ymm0[5,7]			; AVX2OR512VL-NEXT: retq
	; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: retq
	;
	; AVX512VL-SLOW-LABEL: add_v8i32_8ACE0246_9BDF1357:
	; AVX512VL-SLOW: # %bb.0: # %entry
	; AVX512VL-SLOW-NEXT: # kill: def $ymm1 killed $ymm1 def $zmm1
	; AVX512VL-SLOW-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm2
	; AVX512VL-SLOW-NEXT: vpmovqd %zmm2, %ymm2
	; AVX512VL-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm1[1,3],ymm0[1,3],ymm1[5,7],ymm0[5,7]
	; AVX512VL-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX512VL-SLOW-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; AVX512VL-SLOW-NEXT: retq
	;
	; AVX512VL-FAST-LABEL: add_v8i32_8ACE0246_9BDF1357:
	; AVX512VL-FAST: # %bb.0: # %entry
	; AVX512VL-FAST-NEXT: # kill: def $ymm1 killed $ymm1 def $zmm1
	; AVX512VL-FAST-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm2
	; AVX512VL-FAST-NEXT: vpmovqd %zmm2, %ymm2
	; AVX512VL-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [1,3,5,7,9,11,13,15]
	; AVX512VL-FAST-NEXT: vpermi2d %ymm0, %ymm1, %ymm3
	; AVX512VL-FAST-NEXT: vpaddd %ymm3, %ymm2, %ymm0
	; AVX512VL-FAST-NEXT: retq
	entry:			entry:
	%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 8, i32 10, i32 12, i32 14, i32 0, i32 2, i32 4, i32 6>			%shuffle = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 8, i32 10, i32 12, i32 14, i32 0, i32 2, i32 4, i32 6>
	%shuffle1 = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 9, i32 11, i32 13, i32 15, i32 1, i32 3, i32 5, i32 7>			%shuffle1 = shufflevector <8 x i32> %a, <8 x i32> %b, <8 x i32> <i32 9, i32 11, i32 13, i32 15, i32 1, i32 3, i32 5, i32 7>
	%add = add <8 x i32> %shuffle, %shuffle1			%add = add <8 x i32> %shuffle, %shuffle1
	ret <8 x i32> %add			ret <8 x i32> %add
	}			}

	; This test used to crash due to bad handling of concat_vectors after a bitcast			; This test used to crash due to bad handling of concat_vectors after a bitcast
	▲ Show 20 Lines • Show All 177 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Attempt to match OP(SHUFFLE(X,Y),SHUFFLE(X,Y)) -> SHUFFLE(HOP(X,Y))
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 281145

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/haddsub-3.ll

llvm/test/CodeGen/X86/haddsub-4.ll

llvm/test/CodeGen/X86/haddsub-shuf.ll

llvm/test/CodeGen/X86/haddsub-undef.ll

llvm/test/CodeGen/X86/vector-shuffle-256-v4.ll

llvm/test/CodeGen/X86/vector-shuffle-256-v8.ll

This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Attempt to match OP(SHUFFLE(X,Y),SHUFFLE(X,Y)) -> SHUFFLE(HOP(X,Y))ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 281145

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/haddsub-3.ll

llvm/test/CodeGen/X86/haddsub-4.ll

llvm/test/CodeGen/X86/haddsub-shuf.ll

llvm/test/CodeGen/X86/haddsub-undef.ll

llvm/test/CodeGen/X86/vector-shuffle-256-v4.ll

llvm/test/CodeGen/X86/vector-shuffle-256-v8.ll

[X86][SSE] Attempt to match OP(SHUFFLE(X,Y),SHUFFLE(X,Y)) -> SHUFFLE(HOP(X,Y))
ClosedPublic