This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] isHorizontalBinOp - add support for target shuffles
ClosedPublic

Authored by RKSimon on Apr 28 2019, 1:15 PM.

Download Raw Diff

Details

Reviewers

spatel
andreadb
craig.topper

Commits

rG028485d7b901: [X86][SSE] isHorizontalBinOp - add support for target shuffles
rL359491: [X86][SSE] isHorizontalBinOp - add support for target shuffles

Summary

Add target shuffle decoding to isHorizontalBinOp as well as ISD::VECTOR_SHUFFLE support.

This does mean we can go through bitcasts so we need to bitcast the extracted args to ensure they are the correct type

Fixes PR39936 and should help with PR39920/PR39921

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Apr 28 2019, 1:15 PM

Herald added a project: Restricted Project. · View Herald TranscriptApr 28 2019, 1:15 PM

RKSimon marked an inline comment as done.Apr 28 2019, 1:20 PM

RKSimon added inline comments.

test/CodeGen/X86/phaddsub.ll
814 ↗	(On Diff #197037)	Just realised this test should be in haddsub.ll - if/when accepted I'll move it across as a pre-commit

RKSimon mentioned this in rL359437: [X86][SSE] Moved haddps test from phaddsub.ll to haddsub.ll (D61245).Apr 29 2019, 4:31 AM

RKSimon mentioned this in rGc570b2a2e5b2: [X86][SSE] Moved haddps test from phaddsub.ll to haddsub.ll (D61245).

rebase

spatel added inline comments.Apr 29 2019, 7:51 AM

test/CodeGen/X86/vector-shuffle-256-v4.ll
1742–1745 ↗	(On Diff #197089)	It's independent of this patch, but do we consider the AVX2 sequence with vpermpd+vpermpd better than the AVX1 sequence with vperm2f128+vinsertf128?

RKSimon added inline comments.Apr 29 2019, 10:00 AM

test/CodeGen/X86/vector-shuffle-256-v4.ll
1742–1745 ↗	(On Diff #197089)	On Intel targets the port5 pressure is about the same - as detailed on PR39920/PR39921 @craig.topper suggested that we're better off folding to a HADD if we can remove 2 shuffles - same port5 pressure but lower instruction count. I intend to look at this in a future patch by getting isHorizontalBinOp to return the #shuffles folded.

LGTM

This revision is now accepted and ready to land.Apr 29 2019, 11:12 AM

Closed by commit rL359491: [X86][SSE] isHorizontalBinOp - add support for target shuffles (authored by RKSimon). · Explain WhyApr 29 2019, 12:51 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

79 lines

test/

CodeGen/

X86/

haddsub.ll

8 lines

phaddsub.ll

69 lines

vector-shuffle-256-v4.ll

8 lines

vector-shuffle-256-v8.ll

8 lines

Diff 197167

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 39,242 Lines • ▼ Show 20 Lines	static bool isHorizontalBinOp(SDValue &LHS, SDValue &RHS, bool IsCommutative) {
// A = < float a0, float a1, float a2, float a3 >		// A = < float a0, float a1, float a2, float a3 >
// B = < float b0, float b1, float b2, float b3 >		// B = < float b0, float b1, float b2, float b3 >
// and		// and
// LHS = VECTOR_SHUFFLE A, B, <0, 2, 4, 6>		// LHS = VECTOR_SHUFFLE A, B, <0, 2, 4, 6>
// RHS = VECTOR_SHUFFLE A, B, <1, 3, 5, 7>		// RHS = VECTOR_SHUFFLE A, B, <1, 3, 5, 7>
// then LHS op RHS = < a0 op a1, a2 op a3, b0 op b1, b2 op b3 >		// then LHS op RHS = < a0 op a1, a2 op a3, b0 op b1, b2 op b3 >
// which is A horizontal-op B.		// which is A horizontal-op B.

// At least one of the operands should be a vector shuffle.
if (LHS.getOpcode() != ISD::VECTOR_SHUFFLE &&
RHS.getOpcode() != ISD::VECTOR_SHUFFLE)
return false;

MVT VT = LHS.getSimpleValueType();		MVT VT = LHS.getSimpleValueType();
assert((VT.is128BitVector() \|\| VT.is256BitVector()) &&		assert((VT.is128BitVector() \|\| VT.is256BitVector()) &&
"Unsupported vector type for horizontal add/sub");		"Unsupported vector type for horizontal add/sub");
		unsigned NumElts = VT.getVectorNumElements();

		auto GetShuffle = [&](SDValue Op, SDValue &N0, SDValue &N1,
		SmallVectorImpl<int> &ShuffleMask) {
		if (Op.getOpcode() == ISD::VECTOR_SHUFFLE) {
		if (!Op.getOperand(0).isUndef())
		N0 = Op.getOperand(0);
		if (!Op.getOperand(1).isUndef())
		N1 = Op.getOperand(1);
		ArrayRef<int> Mask = cast<ShuffleVectorSDNode>(Op)->getMask();
		ShuffleMask.append(Mask.begin(), Mask.end());
		return;
		}
		bool IsUnary;
		SmallVector<SDValue, 2> SrcOps;
		SmallVector<int, 16> SrcShuffleMask;
		SDValue BC = peekThroughBitcasts(Op);
		if (isTargetShuffle(BC.getOpcode()) &&
		getTargetShuffleMask(BC.getNode(), BC.getSimpleValueType(), false,
		SrcOps, SrcShuffleMask, IsUnary) &&
		SrcOps.size() <= 2 && SrcShuffleMask.size() == NumElts) {
		N0 = SrcOps.size() > 0 ? SrcOps[0] : SDValue();
		N1 = SrcOps.size() > 1 ? SrcOps[1] : SDValue();
		ShuffleMask.append(SrcShuffleMask.begin(), SrcShuffleMask.end());
		}
		};

// View LHS in the form		// View LHS in the form
// LHS = VECTOR_SHUFFLE A, B, LMask		// LHS = VECTOR_SHUFFLE A, B, LMask
// If LHS is not a shuffle, then pretend it is the identity shuffle:		// If LHS is not a shuffle, then pretend it is the identity shuffle:
// LHS = VECTOR_SHUFFLE LHS, undef, <0, 1, ..., N-1>		// LHS = VECTOR_SHUFFLE LHS, undef, <0, 1, ..., N-1>
// NOTE: A default initialized SDValue represents an UNDEF of type VT.		// NOTE: A default initialized SDValue represents an UNDEF of type VT.
unsigned NumElts = VT.getVectorNumElements();
SDValue A, B;		SDValue A, B;
SmallVector<int, 16> LMask(NumElts);		SmallVector<int, 16> LMask;
if (LHS.getOpcode() == ISD::VECTOR_SHUFFLE) {		GetShuffle(LHS, A, B, LMask);
if (!LHS.getOperand(0).isUndef())
A = LHS.getOperand(0);
if (!LHS.getOperand(1).isUndef())
B = LHS.getOperand(1);
ArrayRef<int> Mask = cast<ShuffleVectorSDNode>(LHS)->getMask();
llvm::copy(Mask, LMask.begin());
} else {
A = LHS;
for (unsigned i = 0; i != NumElts; ++i)
LMask[i] = i;
}

// Likewise, view RHS in the form		// Likewise, view RHS in the form
// RHS = VECTOR_SHUFFLE C, D, RMask		// RHS = VECTOR_SHUFFLE C, D, RMask
SDValue C, D;		SDValue C, D;
SmallVector<int, 16> RMask(NumElts);		SmallVector<int, 16> RMask;
if (RHS.getOpcode() == ISD::VECTOR_SHUFFLE) {		GetShuffle(RHS, C, D, RMask);
if (!RHS.getOperand(0).isUndef())
C = RHS.getOperand(0);		// At least one of the operands should be a vector shuffle.
if (!RHS.getOperand(1).isUndef())		if (LMask.empty() && RMask.empty())
D = RHS.getOperand(1);		return false;
ArrayRef<int> Mask = cast<ShuffleVectorSDNode>(RHS)->getMask();
llvm::copy(Mask, RMask.begin());		if (LMask.empty()) {
} else {		A = LHS;
		for (unsigned i = 0; i != NumElts; ++i)
		LMask.push_back(i);
		}

		if (RMask.empty()) {
C = RHS;		C = RHS;
for (unsigned i = 0; i != NumElts; ++i)		for (unsigned i = 0; i != NumElts; ++i)
RMask[i] = i;		RMask.push_back(i);
}		}

// If A and B occur in reverse order in RHS, then canonicalize by commuting		// If A and B occur in reverse order in RHS, then canonicalize by commuting
// RHS operands and shuffle mask.		// RHS operands and shuffle mask.
if (A != C) {		if (A != C) {
std::swap(C, D);		std::swap(C, D);
ShuffleVectorSDNode::commuteMask(RMask);		ShuffleVectorSDNode::commuteMask(RMask);
}		}
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines	static SDValue combineFaddFsub(SDNode *N, SelectionDAG &DAG,
auto HorizOpcode = IsFadd ? X86ISD::FHADD : X86ISD::FHSUB;		auto HorizOpcode = IsFadd ? X86ISD::FHADD : X86ISD::FHSUB;
assert((IsFadd \|\| N->getOpcode() == ISD::FSUB) && "Wrong opcode");		assert((IsFadd \|\| N->getOpcode() == ISD::FSUB) && "Wrong opcode");

// Try to synthesize horizontal add/sub from adds/subs of shuffles.		// Try to synthesize horizontal add/sub from adds/subs of shuffles.
if (((Subtarget.hasSSE3() && (VT == MVT::v4f32 \|\| VT == MVT::v2f64)) \|\|		if (((Subtarget.hasSSE3() && (VT == MVT::v4f32 \|\| VT == MVT::v2f64)) \|\|
(Subtarget.hasAVX() && (VT == MVT::v8f32 \|\| VT == MVT::v4f64))) &&		(Subtarget.hasAVX() && (VT == MVT::v8f32 \|\| VT == MVT::v4f64))) &&
isHorizontalBinOp(LHS, RHS, IsFadd) &&		isHorizontalBinOp(LHS, RHS, IsFadd) &&
shouldUseHorizontalOp(LHS == RHS, DAG, Subtarget))		shouldUseHorizontalOp(LHS == RHS, DAG, Subtarget))
return DAG.getNode(HorizOpcode, SDLoc(N), VT, LHS, RHS);		return DAG.getNode(HorizOpcode, SDLoc(N), VT, DAG.getBitcast(VT, LHS),
		DAG.getBitcast(VT, RHS));

return SDValue();		return SDValue();
}		}

/// Attempt to pre-truncate inputs to arithmetic ops if it will simplify		/// Attempt to pre-truncate inputs to arithmetic ops if it will simplify
/// the codegen.		/// the codegen.
/// e.g. TRUNC( BINOP( X, Y ) ) --> BINOP( TRUNC( X ), TRUNC( Y ) )		/// e.g. TRUNC( BINOP( X, Y ) ) --> BINOP( TRUNC( X ), TRUNC( Y ) )
/// TODO: This overlaps with the generic combiner's visitTRUNCATE. Remove		/// TODO: This overlaps with the generic combiner's visitTRUNCATE. Remove
▲ Show 20 Lines • Show All 2,885 Lines • ▼ Show 20 Lines	static SDValue combineAdd(SDNode *N, SelectionDAG &DAG,
if ((VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\| VT == MVT::v16i16 \|\|		if ((VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\| VT == MVT::v16i16 \|\|
VT == MVT::v8i32) &&		VT == MVT::v8i32) &&
Subtarget.hasSSSE3() && isHorizontalBinOp(Op0, Op1, true) &&		Subtarget.hasSSSE3() && isHorizontalBinOp(Op0, Op1, true) &&
shouldUseHorizontalOp(Op0 == Op1, DAG, Subtarget)) {		shouldUseHorizontalOp(Op0 == Op1, DAG, Subtarget)) {
auto HADDBuilder = [](SelectionDAG &DAG, const SDLoc &DL,		auto HADDBuilder = [](SelectionDAG &DAG, const SDLoc &DL,
ArrayRef<SDValue> Ops) {		ArrayRef<SDValue> Ops) {
return DAG.getNode(X86ISD::HADD, DL, Ops[0].getValueType(), Ops);		return DAG.getNode(X86ISD::HADD, DL, Ops[0].getValueType(), Ops);
};		};
		Op0 = DAG.getBitcast(VT, Op0);
		Op1 = DAG.getBitcast(VT, Op1);
return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, {Op0, Op1},		return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, {Op0, Op1},
HADDBuilder);		HADDBuilder);
}		}

if (SDValue V = combineIncDecVector(N, DAG))		if (SDValue V = combineIncDecVector(N, DAG))
return V;		return V;

return combineAddOrSubToADCOrSBB(N, DAG);		return combineAddOrSubToADCOrSBB(N, DAG);
▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines	static SDValue combineSub(SDNode *N, SelectionDAG &DAG,
if ((VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\| VT == MVT::v16i16 \|\|		if ((VT == MVT::v8i16 \|\| VT == MVT::v4i32 \|\| VT == MVT::v16i16 \|\|
VT == MVT::v8i32) &&		VT == MVT::v8i32) &&
Subtarget.hasSSSE3() && isHorizontalBinOp(Op0, Op1, false) &&		Subtarget.hasSSSE3() && isHorizontalBinOp(Op0, Op1, false) &&
shouldUseHorizontalOp(Op0 == Op1, DAG, Subtarget)) {		shouldUseHorizontalOp(Op0 == Op1, DAG, Subtarget)) {
auto HSUBBuilder = [](SelectionDAG &DAG, const SDLoc &DL,		auto HSUBBuilder = [](SelectionDAG &DAG, const SDLoc &DL,
ArrayRef<SDValue> Ops) {		ArrayRef<SDValue> Ops) {
return DAG.getNode(X86ISD::HSUB, DL, Ops[0].getValueType(), Ops);		return DAG.getNode(X86ISD::HSUB, DL, Ops[0].getValueType(), Ops);
};		};
		Op0 = DAG.getBitcast(VT, Op0);
		Op1 = DAG.getBitcast(VT, Op1);
return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, {Op0, Op1},		return SplitOpsAndApply(DAG, Subtarget, SDLoc(N), VT, {Op0, Op1},
HSUBBuilder);		HSUBBuilder);
}		}

if (SDValue V = combineIncDecVector(N, DAG))		if (SDValue V = combineIncDecVector(N, DAG))
return V;		return V;

// Try to create PSUBUS if SUB's argument is max/min		// Try to create PSUBUS if SUB's argument is max/min
▲ Show 20 Lines • Show All 1,802 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/haddsub.ll

	Show First 20 Lines • Show All 1,626 Lines • ▼ Show 20 Lines
	; SSE3-FAST-NEXT: haddps %xmm1, %xmm0			; SSE3-FAST-NEXT: haddps %xmm1, %xmm0
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: haddps %xmm0, %xmm0			; SSE3-FAST-NEXT: haddps %xmm0, %xmm0
	; SSE3-FAST-NEXT: retq			; SSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: PR39936_v8f32:			; AVX-SLOW-LABEL: PR39936_v8f32:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm0[0,2],xmm1[0,2]			; AVX-SLOW-NEXT: vhaddps %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]
	; AVX-SLOW-NEXT: vaddps %xmm0, %xmm2, %xmm0
	; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]			; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[0,2,2,3]
	; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX-SLOW-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0			; AVX-SLOW-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-SLOW-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: PR39936_v8f32:			; AVX-FAST-LABEL: PR39936_v8f32:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm2 = xmm0[0,2],xmm1[0,2]			; AVX-FAST-NEXT: vhaddps %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]
	; AVX-FAST-NEXT: vaddps %xmm0, %xmm2, %xmm0
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0			; AVX-FAST-NEXT: vhaddps %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vzeroupper			; AVX-FAST-NEXT: vzeroupper
	; AVX-FAST-NEXT: retq			; AVX-FAST-NEXT: retq
	%2 = shufflevector <8 x float> %0, <8 x float> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef>			%2 = shufflevector <8 x float> %0, <8 x float> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef>
	%3 = shufflevector <8 x float> %0, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%3 = shufflevector <8 x float> %0, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%4 = fadd <8 x float> %2, %3			%4 = fadd <8 x float> %2, %3
	%5 = shufflevector <8 x float> %4, <8 x float> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%5 = shufflevector <8 x float> %4, <8 x float> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%6 = shufflevector <8 x float> %4, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%6 = shufflevector <8 x float> %4, <8 x float> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%7 = fadd <8 x float> %5, %6			%7 = fadd <8 x float> %5, %6
	%8 = shufflevector <8 x float> %7, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%8 = shufflevector <8 x float> %7, <8 x float> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%9 = fadd <8 x float> %7, %8			%9 = fadd <8 x float> %7, %8
	%10 = extractelement <8 x float> %9, i32 0			%10 = extractelement <8 x float> %9, i32 0
	ret float %10			ret float %10
	}			}

llvm/trunk/test/CodeGen/X86/phaddsub.ll

	Show First 20 Lines • Show All 797 Lines • ▼ Show 20 Lines
	; SSSE3-FAST-LABEL: PR39936_v8i32:			; SSSE3-FAST-LABEL: PR39936_v8i32:
	; SSSE3-FAST: # %bb.0:			; SSSE3-FAST: # %bb.0:
	; SSSE3-FAST-NEXT: phaddd %xmm1, %xmm0			; SSSE3-FAST-NEXT: phaddd %xmm1, %xmm0
	; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0			; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
	; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0			; SSSE3-FAST-NEXT: phaddd %xmm0, %xmm0
	; SSSE3-FAST-NEXT: movd %xmm0, %eax			; SSSE3-FAST-NEXT: movd %xmm0, %eax
	; SSSE3-FAST-NEXT: retq			; SSSE3-FAST-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: PR39936_v8i32:			; AVX1-SLOW-LABEL: PR39936_v8i32:
	; AVX-SLOW: # %bb.0:			; AVX1-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm0[0,2],xmm1[0,2]			; AVX1-SLOW-NEXT: vphaddd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]			; AVX1-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
	; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm2, %xmm0			; AVX1-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]			; AVX1-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; AVX1-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-SLOW-NEXT: vmovd %xmm0, %eax
	; AVX-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0			; AVX1-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: vmovd %xmm0, %eax			; AVX1-SLOW-NEXT: retq
	; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: PR39936_v8i32:			; AVX1-FAST-LABEL: PR39936_v8i32:
	; AVX-FAST: # %bb.0:			; AVX1-FAST: # %bb.0:
	; AVX-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-FAST-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm2 = xmm0[0,2],xmm1[0,2]			; AVX1-FAST-NEXT: vphaddd %xmm1, %xmm0, %xmm0
	; AVX-FAST-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]			; AVX1-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vpaddd %xmm0, %xmm2, %xmm0			; AVX1-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
	; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vmovd %xmm0, %eax
	; AVX-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0			; AVX1-FAST-NEXT: vzeroupper
	; AVX-FAST-NEXT: vmovd %xmm0, %eax			; AVX1-FAST-NEXT: retq
	; AVX-FAST-NEXT: vzeroupper			;
	; AVX-FAST-NEXT: retq			; AVX2-SLOW-LABEL: PR39936_v8i32:
				; AVX2-SLOW: # %bb.0:
				; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm1
				; AVX2-SLOW-NEXT: vphaddd %xmm1, %xmm0, %xmm0
				; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[0,2,2,3]
				; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
				; AVX2-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX2-SLOW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
				; AVX2-SLOW-NEXT: vpaddd %xmm0, %xmm1, %xmm0
				; AVX2-SLOW-NEXT: vmovd %xmm0, %eax
				; AVX2-SLOW-NEXT: vzeroupper
				; AVX2-SLOW-NEXT: retq
				;
				; AVX2-FAST-LABEL: PR39936_v8i32:
				; AVX2-FAST: # %bb.0:
				; AVX2-FAST-NEXT: vextracti128 $1, %ymm0, %xmm1
				; AVX2-FAST-NEXT: vphaddd %xmm1, %xmm0, %xmm0
				; AVX2-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX2-FAST-NEXT: vphaddd %xmm0, %xmm0, %xmm0
				; AVX2-FAST-NEXT: vmovd %xmm0, %eax
				; AVX2-FAST-NEXT: vzeroupper
				; AVX2-FAST-NEXT: retq
	%2 = shufflevector <8 x i32> %0, <8 x i32> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef>			%2 = shufflevector <8 x i32> %0, <8 x i32> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 undef, i32 undef, i32 undef, i32 undef>
	%3 = shufflevector <8 x i32> %0, <8 x i32> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%3 = shufflevector <8 x i32> %0, <8 x i32> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%4 = add <8 x i32> %2, %3			%4 = add <8 x i32> %2, %3
	%5 = shufflevector <8 x i32> %4, <8 x i32> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%5 = shufflevector <8 x i32> %4, <8 x i32> undef, <8 x i32> <i32 0, i32 2, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%6 = shufflevector <8 x i32> %4, <8 x i32> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%6 = shufflevector <8 x i32> %4, <8 x i32> undef, <8 x i32> <i32 1, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%7 = add <8 x i32> %5, %6			%7 = add <8 x i32> %5, %6
	%8 = shufflevector <8 x i32> %7, <8 x i32> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%8 = shufflevector <8 x i32> %7, <8 x i32> undef, <8 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%9 = add <8 x i32> %8, %7			%9 = add <8 x i32> %8, %7
	%10 = extractelement <8 x i32> %9, i32 0			%10 = extractelement <8 x i32> %9, i32 0
	ret i32 %10			ret i32 %10
	}			}

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v4.ll

Show First 20 Lines • Show All 1,726 Lines • ▼ Show 20 Lines	; AVX512VL-FAST-NEXT: retq
ret <4 x i64> %1		ret <4 x i64> %1
}		}

define <4 x double> @add_v4f64_0246_1357(<4 x double> %a, <4 x double> %b) {		define <4 x double> @add_v4f64_0246_1357(<4 x double> %a, <4 x double> %b) {
; AVX1-LABEL: add_v4f64_0246_1357:		; AVX1-LABEL: add_v4f64_0246_1357:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vunpcklpd {{.*#+}} ymm1 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]		; AVX1-NEXT: vhaddpd %ymm2, %ymm0, %ymm0
; AVX1-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm2[1],ymm0[3],ymm2[3]
; AVX1-NEXT: vaddpd %ymm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: add_v4f64_0246_1357:		; AVX2-LABEL: add_v4f64_0246_1357:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]		; AVX2-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]		; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]
; AVX2-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]		; AVX2-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
Show All 24 Lines	entry:
ret <4 x double> %add		ret <4 x double> %add
}		}

define <4 x double> @add_v4f64_4602_5713(<4 x double> %a, <4 x double> %b) {		define <4 x double> @add_v4f64_4602_5713(<4 x double> %a, <4 x double> %b) {
; AVX1-LABEL: add_v4f64_4602_5713:		; AVX1-LABEL: add_v4f64_4602_5713:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3],ymm0[2,3]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3],ymm0[2,3]
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: vunpcklpd {{.*#+}} ymm1 = ymm0[0],ymm2[0],ymm0[2],ymm2[2]		; AVX1-NEXT: vhaddpd %ymm2, %ymm0, %ymm0
; AVX1-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm2[1],ymm0[3],ymm2[3]
; AVX1-NEXT: vaddpd %ymm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: add_v4f64_4602_5713:		; AVX2-LABEL: add_v4f64_4602_5713:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]		; AVX2-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm1[0],ymm0[0],ymm1[2],ymm0[2]
; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]		; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]
; AVX2-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm1[1],ymm0[1],ymm1[3],ymm0[3]		; AVX2-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm1[1],ymm0[1],ymm1[3],ymm0[3]
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
▲ Show 20 Lines • Show All 181 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v8.ll

Show First 20 Lines • Show All 2,799 Lines • ▼ Show 20 Lines	; AVX512VL-NEXT: retq
ret <8 x i32> %shuffle		ret <8 x i32> %shuffle
}		}

define <8 x float> @add_v8f32_02468ACE_13579BDF(<8 x float> %a, <8 x float> %b) {		define <8 x float> @add_v8f32_02468ACE_13579BDF(<8 x float> %a, <8 x float> %b) {
; AVX1-LABEL: add_v8f32_02468ACE_13579BDF:		; AVX1-LABEL: add_v8f32_02468ACE_13579BDF:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: vshufps {{.*#+}} ymm1 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]		; AVX1-NEXT: vhaddps %ymm2, %ymm0, %ymm0
; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm2[1,3],ymm0[5,7],ymm2[5,7]
; AVX1-NEXT: vaddps %ymm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: add_v8f32_02468ACE_13579BDF:		; AVX2-LABEL: add_v8f32_02468ACE_13579BDF:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]		; AVX2-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]
; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]		; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]
; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]		; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
Show All 24 Lines	entry:
ret <8 x float> %add		ret <8 x float> %add
}		}

define <8 x float> @add_v8f32_8ACE0246_9BDF1357(<8 x float> %a, <8 x float> %b) {		define <8 x float> @add_v8f32_8ACE0246_9BDF1357(<8 x float> %a, <8 x float> %b) {
; AVX1-LABEL: add_v8f32_8ACE0246_9BDF1357:		; AVX1-LABEL: add_v8f32_8ACE0246_9BDF1357:
; AVX1: # %bb.0: # %entry		; AVX1: # %bb.0: # %entry
; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3],ymm0[2,3]		; AVX1-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm1[2,3],ymm0[2,3]
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: vshufps {{.*#+}} ymm1 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]		; AVX1-NEXT: vhaddps %ymm2, %ymm0, %ymm0
; AVX1-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm2[1,3],ymm0[5,7],ymm2[5,7]
; AVX1-NEXT: vaddps %ymm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: add_v8f32_8ACE0246_9BDF1357:		; AVX2-LABEL: add_v8f32_8ACE0246_9BDF1357:
; AVX2: # %bb.0: # %entry		; AVX2: # %bb.0: # %entry
; AVX2-NEXT: vshufps {{.*#+}} ymm2 = ymm1[0,2],ymm0[0,2],ymm1[4,6],ymm0[4,6]		; AVX2-NEXT: vshufps {{.*#+}} ymm2 = ymm1[0,2],ymm0[0,2],ymm1[4,6],ymm0[4,6]
; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]		; AVX2-NEXT: vpermpd {{.*#+}} ymm2 = ymm2[0,2,1,3]
; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm1[1,3],ymm0[1,3],ymm1[5,7],ymm0[5,7]		; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm1[1,3],ymm0[1,3],ymm1[5,7],ymm0[5,7]
; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]		; AVX2-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,1,3]
▲ Show 20 Lines • Show All 299 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] isHorizontalBinOp - add support for target shufflesClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 197167

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

llvm/trunk/test/CodeGen/X86/haddsub.ll

llvm/trunk/test/CodeGen/X86/phaddsub.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v4.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-256-v8.ll

[X86][SSE] isHorizontalBinOp - add support for target shuffles
ClosedPublic