This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombiner] use narrow vector ops to eliminate concat/extract (PR32790)
ClosedPublic

Authored by spatel on May 12 2017, 9:56 AM.

Download Raw Diff

Details

Reviewers

efriedma
RKSimon
craig.topper

Commits

rGec13ebf2c831: [DAGCombiner] use narrow vector ops to eliminate concat/extract (PR32790)
rL303997: [DAGCombiner] use narrow vector ops to eliminate concat/extract (PR32790)

Summary

This patch started off a lot smaller, but then I discovered that bitcasts seem to always complicate the relatively simple pattern of:

// extract (binop (concat X1, X2), (concat Y1, Y2)), N --> binop XN, YN

...and that made the code grow.

Hopefully, I've added enough comments to avoid too much confusion. If there's any way to simplify this, I'd be happy to hear it.

The TODO about extending to more than bitwise logic is there because we really will regress several x86 tests including madd, psad, and even a plain integer-multiply-by-2 or shift-left-by-1. I don't think there's anything fundamentally wrong with this patch that would cause those regressions; those folds are just missing or brittle.

If we extend to more binops, I found that this patch will fire on at least one non-x86 regression test. There's an ARM NEON test in test/CodeGen/ARM/coalesce-subregs.ll with a pattern like:

            t5: v2f32 = vector_shuffle<0,3> t2, t4
          t6: v1i64 = bitcast t5
          t8: v1i64 = BUILD_VECTOR Constant:i64<0>
        t9: v2i64 = concat_vectors t6, t8
      t10: v4f32 = bitcast t9
    t12: v4f32 = fmul t11, t10
  t13: v2i64 = bitcast t12
t16: v1i64 = extract_subvector t13, Constant:i32<0>

There was no functional change in the codegen from this transform from what I could see though.

For the x86 test changes:

PR32790() is the closest call. We don't reduce the AVX1 instruction count in that case, but we improve throughput. Also, on a core like Jaguar that double-pumps 256-bit ops, there's an unseen win because two 128-bit ops have the same cost as the wider 256-bit op. SSE/AVX2/AXV512 are not affected which is expected because only AVX1 has the extract/concat ops to match the pattern.
do_not_use_256bit_op() is the best case. Everyone wins by avoiding the concat/extract. Related bug for IR filed as: https://bugs.llvm.org/show_bug.cgi?id=33026
The SSE diffs in vector-trunc-math.ll are just scheduling/RA, so nothing real AFAICT.
The AVX1 diffs in vector-tzcnt-256.ll are all the same pattern: we reduced the instruction count by one in each case by eliminating two insert/extract while adding one narrower logic op.

Diff Detail

Repository: rL LLVM

Event Timeline

spatel created this revision.May 12 2017, 9:56 AM

Herald added subscribers: mcrosier, rengolin, aemerson. · View Herald TranscriptMay 12 2017, 9:56 AM

RKSimon added inline comments.May 12 2017, 11:13 AM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
14470 ↗	(On Diff #98789)	Could you use isExtractSubvectorCheap instead here? We might even need a isExtractSubvectorFree option as well...
14476 ↗	(On Diff #98789)	I'm starting to think that X86ISelLowering's peekThroughBitcasts and peekThroughOneUseBitcasts helpers should be exposed globally.

spatel added inline comments.May 12 2017, 12:38 PM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
14470 ↗	(On Diff #98789)	I might have missed the intent of the question, but I don't think we want to limit the transform based on whether the extract is cheap or not. If this succeeds, then we're going to bypass the extract completely. The reason for limiting to 1/2 size extract is because, for example, a 1/4 extract sequence might become: W = wideop (concat X1, X2, X3, X4), Y N1 = extract W, 1 N2 = extract W, 2 N3 = extract W, 3 N4 = extract W, 4 N1 = binop X1, (extract Y, 1) N2 = binop X2, (extract Y, 2) N3 = binop X3, (extract Y, 3) N4 = binop X4, (extract Y, 4) In that case, we may have increased the instruction count, so we'd need some kind of cost calc to know if it's worthwhile. It would be a good transform for the case where we know that both X and Y are formed from concats, but I figured we should leave that for later...because it makes the code even more complicated!
14476 ↗	(On Diff #98789)	Probably a good idea. Although we always fold a bitcast-of-a-bitcast, right? I've never seen a need for those to loop.

dtemirbulatov added a subscriber: dtemirbulatov.May 12 2017, 4:04 PM

Ping.

RKSimon added inline comments.May 25 2017, 7:03 AM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
14476 ↗	(On Diff #98789)	Interestingly, there are a load of codegen regressions if you tweak them to just peek through the first bitcast.....

Couple of minor thoughts but nothing critical.

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
14462 ↗	(On Diff #98789)	visitEXTRACT_SUBVECTOR is doing quite a bit of similar stuff already (constant index, peeling through bitcasts of the source vector, etc.) is it worth reusing some of that?
14516 ↗	(On Diff #98789)	x86 has a tendency to convert to concat_vector to chains of insert_subvectors quite early - have you noticed if we're missing anything because of this?

spatel added inline comments.May 25 2017, 11:17 AM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
14476 ↗	(On Diff #98789)	Update on this one (and I suppose it should be obvious in hindsight): we're missing basic folds in the cases I looked at so far. Ie, given that we have a generic DAGCombine rule to fold bitcast(bitcast(x)), there shouldn't be any reason that we would do worse if that rule was applied before some other fold. It's independent of this patch, but I'll start trying to solve those regressions, so we can get rid of those peekThroughBitcast() loops.

spatel added inline comments.May 25 2017, 1:25 PM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
14462 ↗	(On Diff #98789)	Yes, there's some refactoring potential here. Now that I'm looking at the problems revealed by those peekThroughBitcast() cases, I strongly suspect that I'm going to be making another change here in the near future. Ok, if I add a TODO for this patch, and then I'll try to get this to be a bit cleaner?
14516 ↗	(On Diff #98789)	Honestly, I haven't looked at more than PR32790 and the tests that changed here. But I assume you're right, so there's probably more to come. :)

LGTM - adding TODOs based on both my comments is fine.

This revision is now accepted and ready to land.May 25 2017, 2:33 PM

spatel mentioned this in D33578: [DAGCombiner] use narrow load to avoid vector extract.May 25 2017, 4:38 PM

Closed by commit rL303997: [DAGCombiner] use narrow vector ops to eliminate concat/extract (PR32790) (authored by spatel). · Explain WhyMay 26 2017, 8:33 AM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in rL304072: [DAGCombiner] use narrow load to avoid vector extract.May 27 2017, 7:07 AM

Revision Contents

Path

Size

llvm/

trunk/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

96 lines

test/

CodeGen/

X86/

vector-narrow-binop.ll

63 lines

vector-trunc-math.ll

6 lines

vector-tzcnt-256.ll

264 lines

Diff 100416

llvm/trunk/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 14,456 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitCONCAT_VECTORS(SDNode *N) {
}		}

if (SingleSource.getNode())		if (SingleSource.getNode())
return SingleSource;		return SingleSource;

return SDValue();		return SDValue();
}		}

		/// If we are extracting a subvector produced by a wide binary operator with at
		/// at least one operand that was the result of a vector concatenation, then try
		/// to use the narrow vector operands directly to avoid the concatenation and
		/// extraction.
		static SDValue narrowExtractedVectorBinOp(SDNode *Extract, SelectionDAG &DAG) {
		// TODO: Refactor with the caller (visitEXTRACT_SUBVECTOR), so we can share
		// some of these bailouts with other transforms.

		// The extract index must be a constant, so we can map it to a concat operand.
		auto *ExtractIndex = dyn_cast<ConstantSDNode>(Extract->getOperand(1));
		if (!ExtractIndex)
		return SDValue();

		// Only handle the case where we are doubling and then halving. A larger ratio
		// may require more than two narrow binops to replace the wide binop.
		EVT VT = Extract->getValueType(0);
		unsigned NumElems = VT.getVectorNumElements();
		assert((ExtractIndex->getZExtValue() % NumElems) == 0 &&
		"Extract index is not a multiple of the vector length.");
		if (Extract->getOperand(0).getValueSizeInBits() != VT.getSizeInBits() * 2)
		return SDValue();

		// We are looking for an optionally bitcasted wide vector binary operator
		// feeding an extract subvector.
		SDValue BinOp = Extract->getOperand(0);
		if (BinOp.getOpcode() == ISD::BITCAST)
		BinOp = BinOp.getOperand(0);

		// TODO: The motivating case for this transform is an x86 AVX1 target. That
		// target has temptingly almost legal versions of bitwise logic ops in 256-bit
		// flavors, but no other 256-bit integer support. This could be extended to
		// handle any binop, but that may require fixing/adding other folds to avoid
		// codegen regressions.
		unsigned BOpcode = BinOp.getOpcode();
		if (BOpcode != ISD::AND && BOpcode != ISD::OR && BOpcode != ISD::XOR)
		return SDValue();

		// The binop must be a vector type, so we can chop it in half.
		EVT WideBVT = BinOp.getValueType();
		if (!WideBVT.isVector())
		return SDValue();

		// Bail out if the target does not support a narrower version of the binop.
		EVT NarrowBVT = EVT::getVectorVT(*DAG.getContext(), WideBVT.getScalarType(),
		WideBVT.getVectorNumElements() / 2);
		const TargetLowering &TLI = DAG.getTargetLoweringInfo();
		if (!TLI.isOperationLegalOrCustomOrPromote(BOpcode, NarrowBVT))
		return SDValue();

		// Peek through bitcasts of the binary operator operands if needed.
		SDValue LHS = BinOp.getOperand(0);
		if (LHS.getOpcode() == ISD::BITCAST)
		LHS = LHS.getOperand(0);

		SDValue RHS = BinOp.getOperand(1);
		if (RHS.getOpcode() == ISD::BITCAST)
		RHS = RHS.getOperand(0);

		// We need at least one concatenation operation of a binop operand to make
		// this transform worthwhile. The concat must double the input vector sizes.
		// TODO: Should we also handle INSERT_SUBVECTOR patterns?
		bool ConcatL =
		LHS.getOpcode() == ISD::CONCAT_VECTORS && LHS.getNumOperands() == 2;
		bool ConcatR =
		RHS.getOpcode() == ISD::CONCAT_VECTORS && RHS.getNumOperands() == 2;
		if (!ConcatL && !ConcatR)
		return SDValue();

		// If one of the binop operands was not the result of a concat, we must
		// extract a half-sized operand for our new narrow binop. We can't just reuse
		// the original extract index operand because we may have bitcasted.
		unsigned ConcatOpNum = ExtractIndex->getZExtValue() / NumElems;
		unsigned ExtBOIdx = ConcatOpNum * NarrowBVT.getVectorNumElements();
		EVT ExtBOIdxVT = Extract->getOperand(1).getValueType();
		SDLoc DL(Extract);

		// extract (binop (concat X1, X2), (concat Y1, Y2)), N --> binop XN, YN
		// extract (binop (concat X1, X2), Y), N --> binop XN, (extract Y, N)
		// extract (binop X, (concat Y1, Y2)), N --> binop (extract X, N), YN
		SDValue X = ConcatL ? DAG.getBitcast(NarrowBVT, LHS.getOperand(ConcatOpNum))
		: DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, NarrowBVT,
		BinOp.getOperand(0),
		DAG.getConstant(ExtBOIdx, DL, ExtBOIdxVT));

		SDValue Y = ConcatR ? DAG.getBitcast(NarrowBVT, RHS.getOperand(ConcatOpNum))
		: DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, NarrowBVT,
		BinOp.getOperand(1),
		DAG.getConstant(ExtBOIdx, DL, ExtBOIdxVT));

		SDValue NarrowBinOp = DAG.getNode(BOpcode, DL, NarrowBVT, X, Y);
		return DAG.getBitcast(VT, NarrowBinOp);
		}

SDValue DAGCombiner::visitEXTRACT_SUBVECTOR(SDNode* N) {		SDValue DAGCombiner::visitEXTRACT_SUBVECTOR(SDNode* N) {
EVT NVT = N->getValueType(0);		EVT NVT = N->getValueType(0);
SDValue V = N->getOperand(0);		SDValue V = N->getOperand(0);

// Extract from UNDEF is UNDEF.		// Extract from UNDEF is UNDEF.
if (V.isUndef())		if (V.isUndef())
return DAG.getUNDEF(NVT);		return DAG.getUNDEF(NVT);

Show All 39 Lines	if (InsIdx && ExtIdx) {
return DAG.getBitcast(NVT, V->getOperand(1));		return DAG.getBitcast(NVT, V->getOperand(1));
return DAG.getNode(		return DAG.getNode(
ISD::EXTRACT_SUBVECTOR, SDLoc(N), NVT,		ISD::EXTRACT_SUBVECTOR, SDLoc(N), NVT,
DAG.getBitcast(N->getOperand(0).getValueType(), V->getOperand(0)),		DAG.getBitcast(N->getOperand(0).getValueType(), V->getOperand(0)),
N->getOperand(1));		N->getOperand(1));
}		}
}		}

		if (SDValue NarrowBOp = narrowExtractedVectorBinOp(N, DAG))
		return NarrowBOp;

return SDValue();		return SDValue();
}		}

static SDValue simplifyShuffleOperandRecursively(SmallBitVector &UsedElements,		static SDValue simplifyShuffleOperandRecursively(SmallBitVector &UsedElements,
SDValue V, SelectionDAG &DAG) {		SDValue V, SelectionDAG &DAG) {
SDLoc DL(V);		SDLoc DL(V);
EVT VT = V.getValueType();		EVT VT = V.getValueType();

▲ Show 20 Lines • Show All 2,126 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-narrow-binop.ll

	Show All 16 Lines
	; SSE-NEXT: pand %xmm5, %xmm1			; SSE-NEXT: pand %xmm5, %xmm1
	; SSE-NEXT: pand %xmm4, %xmm0			; SSE-NEXT: pand %xmm4, %xmm0
	; SSE-NEXT: psubd %xmm6, %xmm0			; SSE-NEXT: psubd %xmm6, %xmm0
	; SSE-NEXT: psubd %xmm7, %xmm1			; SSE-NEXT: psubd %xmm7, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: PR32790:			; AVX1-LABEL: PR32790:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm4
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vpaddd %xmm4, %xmm5, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm2			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsubd %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm2, %xmm4, %xmm1
	; AVX1-NEXT: vpsubd %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: PR32790:			; AVX2-LABEL: PR32790:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpsubd %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpsubd %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	Show All 11 Lines
	}			}

	; In a more extreme case, even the later AVX targets should avoid extract/insert just			; In a more extreme case, even the later AVX targets should avoid extract/insert just
	; because 256-bit ops are supported.			; because 256-bit ops are supported.

	define <4 x i32> @do_not_use_256bit_op(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c, <4 x i32> %d) {			define <4 x i32> @do_not_use_256bit_op(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c, <4 x i32> %d) {
	; SSE-LABEL: do_not_use_256bit_op:			; SSE-LABEL: do_not_use_256bit_op:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: pand %xmm3, %xmm1
	; SSE-NEXT: pand %xmm2, %xmm0			; SSE-NEXT: pand %xmm2, %xmm0
				; SSE-NEXT: pand %xmm3, %xmm1
	; SSE-NEXT: psubd %xmm1, %xmm0			; SSE-NEXT: psubd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: do_not_use_256bit_op:			; AVX-LABEL: do_not_use_256bit_op:
	; AVX1: # BB#0:			; AVX: # BB#0:
	; AVX1-NEXT: # kill: %XMM2<def> %XMM2<kill> %YMM2<def>			; AVX-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<def>			; AVX-NEXT: vpand %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm1			; AVX-NEXT: retq
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq
	;
	; AVX2-LABEL: do_not_use_256bit_op:
	; AVX2: # BB#0:
	; AVX2-NEXT: # kill: %XMM2<def> %XMM2<kill> %YMM2<def>
	; AVX2-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<def>
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq
	;
	; AVX512-LABEL: do_not_use_256bit_op:
	; AVX512: # BB#0:
	; AVX512-NEXT: # kill: %XMM2<def> %XMM2<kill> %YMM2<def>
	; AVX512-NEXT: # kill: %XMM0<def> %XMM0<kill> %YMM0<def>
	; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq
	%concat1 = shufflevector <4 x i32> %a, <4 x i32> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%concat1 = shufflevector <4 x i32> %a, <4 x i32> %b, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	%concat2 = shufflevector <4 x i32> %c, <4 x i32> %d, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%concat2 = shufflevector <4 x i32> %c, <4 x i32> %d, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	%and = and <8 x i32> %concat1, %concat2			%and = and <8 x i32> %concat1, %concat2
	%extract1 = shufflevector <8 x i32> %and, <8 x i32> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%extract1 = shufflevector <8 x i32> %and, <8 x i32> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	%extract2 = shufflevector <8 x i32> %and, <8 x i32> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>			%extract2 = shufflevector <8 x i32> %and, <8 x i32> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
	%sub = sub <4 x i32> %extract1, %extract2			%sub = sub <4 x i32> %extract1, %extract2
	ret <4 x i32> %sub			ret <4 x i32> %sub
	}			}

llvm/trunk/test/CodeGen/X86/vector-trunc-math.ll

Show First 20 Lines • Show All 3,024 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%1 = and <8 x i64> %a0, %a1		%1 = and <8 x i64> %a0, %a1
%2 = trunc <8 x i64> %1 to <8 x i16>		%2 = trunc <8 x i64> %1 to <8 x i16>
ret <8 x i16> %2		ret <8 x i16> %2
}		}

define <8 x i16> @trunc_and_v8i32_v8i16(<8 x i32> %a0, <8 x i32> %a1) nounwind {		define <8 x i16> @trunc_and_v8i32_v8i16(<8 x i32> %a0, <8 x i32> %a1) nounwind {
; SSE-LABEL: trunc_and_v8i32_v8i16:		; SSE-LABEL: trunc_and_v8i32_v8i16:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: pand %xmm2, %xmm0
; SSE-NEXT: pand %xmm3, %xmm1		; SSE-NEXT: pand %xmm3, %xmm1
; SSE-NEXT: pslld $16, %xmm1		; SSE-NEXT: pslld $16, %xmm1
; SSE-NEXT: psrad $16, %xmm1		; SSE-NEXT: psrad $16, %xmm1
		; SSE-NEXT: pand %xmm2, %xmm0
; SSE-NEXT: pslld $16, %xmm0		; SSE-NEXT: pslld $16, %xmm0
; SSE-NEXT: psrad $16, %xmm0		; SSE-NEXT: psrad $16, %xmm0
; SSE-NEXT: packssdw %xmm1, %xmm0		; SSE-NEXT: packssdw %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: trunc_and_v8i32_v8i16:		; AVX1-LABEL: trunc_and_v8i32_v8i16:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0		; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
▲ Show 20 Lines • Show All 736 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%1 = xor <8 x i64> %a0, %a1		%1 = xor <8 x i64> %a0, %a1
%2 = trunc <8 x i64> %1 to <8 x i16>		%2 = trunc <8 x i64> %1 to <8 x i16>
ret <8 x i16> %2		ret <8 x i16> %2
}		}

define <8 x i16> @trunc_xor_v8i32_v8i16(<8 x i32> %a0, <8 x i32> %a1) nounwind {		define <8 x i16> @trunc_xor_v8i32_v8i16(<8 x i32> %a0, <8 x i32> %a1) nounwind {
; SSE-LABEL: trunc_xor_v8i32_v8i16:		; SSE-LABEL: trunc_xor_v8i32_v8i16:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: pxor %xmm2, %xmm0
; SSE-NEXT: pxor %xmm3, %xmm1		; SSE-NEXT: pxor %xmm3, %xmm1
; SSE-NEXT: pslld $16, %xmm1		; SSE-NEXT: pslld $16, %xmm1
; SSE-NEXT: psrad $16, %xmm1		; SSE-NEXT: psrad $16, %xmm1
		; SSE-NEXT: pxor %xmm2, %xmm0
; SSE-NEXT: pslld $16, %xmm0		; SSE-NEXT: pslld $16, %xmm0
; SSE-NEXT: psrad $16, %xmm0		; SSE-NEXT: psrad $16, %xmm0
; SSE-NEXT: packssdw %xmm1, %xmm0		; SSE-NEXT: packssdw %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: trunc_xor_v8i32_v8i16:		; AVX1-LABEL: trunc_xor_v8i32_v8i16:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0		; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
▲ Show 20 Lines • Show All 736 Lines • ▼ Show 20 Lines	; AVX512-NEXT: retq
%1 = or <8 x i64> %a0, %a1		%1 = or <8 x i64> %a0, %a1
%2 = trunc <8 x i64> %1 to <8 x i16>		%2 = trunc <8 x i64> %1 to <8 x i16>
ret <8 x i16> %2		ret <8 x i16> %2
}		}

define <8 x i16> @trunc_or_v8i32_v8i16(<8 x i32> %a0, <8 x i32> %a1) nounwind {		define <8 x i16> @trunc_or_v8i32_v8i16(<8 x i32> %a0, <8 x i32> %a1) nounwind {
; SSE-LABEL: trunc_or_v8i32_v8i16:		; SSE-LABEL: trunc_or_v8i32_v8i16:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: por %xmm2, %xmm0
; SSE-NEXT: por %xmm3, %xmm1		; SSE-NEXT: por %xmm3, %xmm1
; SSE-NEXT: pslld $16, %xmm1		; SSE-NEXT: pslld $16, %xmm1
; SSE-NEXT: psrad $16, %xmm1		; SSE-NEXT: psrad $16, %xmm1
		; SSE-NEXT: por %xmm2, %xmm0
; SSE-NEXT: pslld $16, %xmm0		; SSE-NEXT: pslld $16, %xmm0
; SSE-NEXT: psrad $16, %xmm0		; SSE-NEXT: psrad $16, %xmm0
; SSE-NEXT: packssdw %xmm1, %xmm0		; SSE-NEXT: packssdw %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: trunc_or_v8i32_v8i16:		; AVX1-LABEL: trunc_or_v8i32_v8i16:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0		; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
▲ Show 20 Lines • Show All 783 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-tzcnt-256.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512cd,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX512CDVL		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512cd,+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX512CDVL
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512cd,-avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX512CD		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512cd,-avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX512CD
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vpopcntdq \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX512VPOPCNTDQ		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vpopcntdq \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX512VPOPCNTDQ
;		;
; Just one 32-bit run to make sure we do reasonable things for i64 tzcnt.		; Just one 32-bit run to make sure we do reasonable things for i64 tzcnt.
; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=X32-AVX --check-prefix=X32-AVX2		; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=X32-AVX --check-prefix=X32-AVX2

define <4 x i64> @testv4i64(<4 x i64> %in) nounwind {		define <4 x i64> @testv4i64(<4 x i64> %in) nounwind {
; AVX1-LABEL: testv4i64:		; AVX1-LABEL: testv4i64:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vpsubq %xmm1, %xmm2, %xmm1		; AVX1-NEXT: vpsubq %xmm1, %xmm2, %xmm3
; AVX1-NEXT: vpsubq %xmm0, %xmm2, %xmm3		; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm3, %ymm1
; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1]
; AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm5		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm5
; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5		; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1		; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1
; AVX1-NEXT: vpaddb %xmm5, %xmm1, %xmm1		; AVX1-NEXT: vpaddb %xmm5, %xmm1, %xmm1
; AVX1-NEXT: vpsadbw %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpsadbw %xmm2, %xmm1, %xmm1
		; AVX1-NEXT: vpsubq %xmm0, %xmm2, %xmm5
		; AVX1-NEXT: vpand %xmm5, %xmm0, %xmm0
; AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3
; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3		; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3
; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0		; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vpsadbw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpsadbw %xmm2, %xmm0, %xmm0
▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines	; X32-AVX-NEXT: retl
ret <4 x i64> %out		ret <4 x i64> %out
}		}

define <4 x i64> @testv4i64u(<4 x i64> %in) nounwind {		define <4 x i64> @testv4i64u(<4 x i64> %in) nounwind {
; AVX1-LABEL: testv4i64u:		; AVX1-LABEL: testv4i64u:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vpsubq %xmm1, %xmm2, %xmm1		; AVX1-NEXT: vpsubq %xmm1, %xmm2, %xmm3
; AVX1-NEXT: vpsubq %xmm0, %xmm2, %xmm3		; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm3, %ymm1
; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1]
; AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm5		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm5
; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5		; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1		; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1		; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1
; AVX1-NEXT: vpaddb %xmm5, %xmm1, %xmm1		; AVX1-NEXT: vpaddb %xmm5, %xmm1, %xmm1
; AVX1-NEXT: vpsadbw %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpsadbw %xmm2, %xmm1, %xmm1
		; AVX1-NEXT: vpsubq %xmm0, %xmm2, %xmm5
		; AVX1-NEXT: vpand %xmm5, %xmm0, %xmm0
; AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3
; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3		; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3
; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0		; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vpsadbw %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpsadbw %xmm2, %xmm0, %xmm0
▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
; X32-AVX-NEXT: retl		; X32-AVX-NEXT: retl
%out = call <4 x i64> @llvm.cttz.v4i64(<4 x i64> %in, i1 -1)		%out = call <4 x i64> @llvm.cttz.v4i64(<4 x i64> %in, i1 -1)
ret <4 x i64> %out		ret <4 x i64> %out
}		}

define <8 x i32> @testv8i32(<8 x i32> %in) nounwind {		define <8 x i32> @testv8i32(<8 x i32> %in) nounwind {
; AVX1-LABEL: testv8i32:		; AVX1-LABEL: testv8i32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vpsubd %xmm2, %xmm1, %xmm2		; AVX1-NEXT: vpsubd %xmm1, %xmm2, %xmm3
; AVX1-NEXT: vpsubd %xmm0, %xmm1, %xmm3		; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1,1,1]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1,1,1]
; AVX1-NEXT: vpsubd %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpsubd %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm5		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm5
; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5		; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
; AVX1-NEXT: vpsrlw $4, %xmm2, %xmm2		; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm2, %xmm6, %xmm2		; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1
; AVX1-NEXT: vpaddb %xmm5, %xmm2, %xmm2		; AVX1-NEXT: vpaddb %xmm5, %xmm1, %xmm1
; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm5 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm5 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
; AVX1-NEXT: vpsadbw %xmm1, %xmm5, %xmm5		; AVX1-NEXT: vpsadbw %xmm2, %xmm5, %xmm5
; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
; AVX1-NEXT: vpsadbw %xmm1, %xmm2, %xmm2		; AVX1-NEXT: vpsadbw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpackuswb %xmm5, %xmm2, %xmm2		; AVX1-NEXT: vpackuswb %xmm5, %xmm1, %xmm1
		; AVX1-NEXT: vpsubd %xmm0, %xmm2, %xmm5
		; AVX1-NEXT: vpand %xmm5, %xmm0, %xmm0
; AVX1-NEXT: vpsubd %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpsubd %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3
; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3		; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3
; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0		; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; AVX1-NEXT: vpsadbw %xmm1, %xmm3, %xmm3		; AVX1-NEXT: vpsadbw %xmm2, %xmm3, %xmm3
; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; AVX1-NEXT: vpsadbw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpsadbw %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: testv8i32:		; AVX2-LABEL: testv8i32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1		; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
; AVX2-NEXT: vpsubd %ymm0, %ymm1, %ymm2		; AVX2-NEXT: vpsubd %ymm0, %ymm1, %ymm2
; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm2		; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm2
▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
; X32-AVX-NEXT: retl		; X32-AVX-NEXT: retl
%out = call <8 x i32> @llvm.cttz.v8i32(<8 x i32> %in, i1 0)		%out = call <8 x i32> @llvm.cttz.v8i32(<8 x i32> %in, i1 0)
ret <8 x i32> %out		ret <8 x i32> %out
}		}

define <8 x i32> @testv8i32u(<8 x i32> %in) nounwind {		define <8 x i32> @testv8i32u(<8 x i32> %in) nounwind {
; AVX1-LABEL: testv8i32u:		; AVX1-LABEL: testv8i32u:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vpsubd %xmm2, %xmm1, %xmm2		; AVX1-NEXT: vpsubd %xmm1, %xmm2, %xmm3
; AVX1-NEXT: vpsubd %xmm0, %xmm1, %xmm3		; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1,1,1]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1,1,1]
; AVX1-NEXT: vpsubd %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpsubd %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm5		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm5
; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5		; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
; AVX1-NEXT: vpsrlw $4, %xmm2, %xmm2		; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm2, %xmm6, %xmm2		; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1
; AVX1-NEXT: vpaddb %xmm5, %xmm2, %xmm2		; AVX1-NEXT: vpaddb %xmm5, %xmm1, %xmm1
; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm5 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm5 = xmm1[2],xmm2[2],xmm1[3],xmm2[3]
; AVX1-NEXT: vpsadbw %xmm1, %xmm5, %xmm5		; AVX1-NEXT: vpsadbw %xmm2, %xmm5, %xmm5
; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
; AVX1-NEXT: vpsadbw %xmm1, %xmm2, %xmm2		; AVX1-NEXT: vpsadbw %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpackuswb %xmm5, %xmm2, %xmm2		; AVX1-NEXT: vpackuswb %xmm5, %xmm1, %xmm1
		; AVX1-NEXT: vpsubd %xmm0, %xmm2, %xmm5
		; AVX1-NEXT: vpand %xmm5, %xmm0, %xmm0
; AVX1-NEXT: vpsubd %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpsubd %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3
; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3		; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3
; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0		; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; AVX1-NEXT: vpsadbw %xmm1, %xmm3, %xmm3		; AVX1-NEXT: vpsadbw %xmm2, %xmm3, %xmm3
; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero		; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero
; AVX1-NEXT: vpsadbw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpsadbw %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: testv8i32u:		; AVX2-LABEL: testv8i32u:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1		; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
; AVX2-NEXT: vpsubd %ymm0, %ymm1, %ymm2		; AVX2-NEXT: vpsubd %ymm0, %ymm1, %ymm2
; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0		; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm2		; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm2
▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
; X32-AVX-NEXT: retl		; X32-AVX-NEXT: retl
%out = call <8 x i32> @llvm.cttz.v8i32(<8 x i32> %in, i1 -1)		%out = call <8 x i32> @llvm.cttz.v8i32(<8 x i32> %in, i1 -1)
ret <8 x i32> %out		ret <8 x i32> %out
}		}

define <16 x i16> @testv16i16(<16 x i16> %in) nounwind {		define <16 x i16> @testv16i16(<16 x i16> %in) nounwind {
; AVX1-LABEL: testv16i16:		; AVX1-LABEL: testv16i16:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vpsubw %xmm0, %xmm1, %xmm2
; AVX1-NEXT: vpsubw %xmm1, %xmm2, %xmm1		; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm2
; AVX1-NEXT: vpsubw %xmm0, %xmm2, %xmm2		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1,1,1,1,1,1,1]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1		; AVX1-NEXT: vpsubw %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [1,1,1,1,1,1,1,1]		; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm5
; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm2		; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm4
; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX1-NEXT: vpshufb %xmm4, %xmm5, %xmm4
; AVX1-NEXT: vpsrlw $4, %xmm2, %xmm2		; AVX1-NEXT: vpsrlw $4, %xmm2, %xmm2
; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
; AVX1-NEXT: vpshufb %xmm2, %xmm5, %xmm2		; AVX1-NEXT: vpshufb %xmm2, %xmm6, %xmm2
; AVX1-NEXT: vpaddb %xmm4, %xmm2, %xmm2		; AVX1-NEXT: vpaddb %xmm5, %xmm2, %xmm2
; AVX1-NEXT: vpsllw $8, %xmm2, %xmm4		; AVX1-NEXT: vpsllw $8, %xmm2, %xmm5
; AVX1-NEXT: vpaddb %xmm2, %xmm4, %xmm2		; AVX1-NEXT: vpaddb %xmm2, %xmm5, %xmm2
; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2		; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpsubw %xmm0, %xmm1, %xmm1
; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm1		; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufb %xmm1, %xmm5, %xmm1		; AVX1-NEXT: vpsubw %xmm3, %xmm0, %xmm0
		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm1
		; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1
; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vpshufb %xmm0, %xmm5, %xmm0		; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsllw $8, %xmm0, %xmm1		; AVX1-NEXT: vpsllw $8, %xmm0, %xmm1
; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0		; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0
; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: testv16i16:		; AVX2-LABEL: testv16i16:
▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
; X32-AVX-NEXT: retl		; X32-AVX-NEXT: retl
%out = call <16 x i16> @llvm.cttz.v16i16(<16 x i16> %in, i1 0)		%out = call <16 x i16> @llvm.cttz.v16i16(<16 x i16> %in, i1 0)
ret <16 x i16> %out		ret <16 x i16> %out
}		}

define <16 x i16> @testv16i16u(<16 x i16> %in) nounwind {		define <16 x i16> @testv16i16u(<16 x i16> %in) nounwind {
; AVX1-LABEL: testv16i16u:		; AVX1-LABEL: testv16i16u:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vpsubw %xmm0, %xmm1, %xmm2
; AVX1-NEXT: vpsubw %xmm1, %xmm2, %xmm1		; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm2
; AVX1-NEXT: vpsubw %xmm0, %xmm2, %xmm2		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1,1,1,1,1,1,1]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1		; AVX1-NEXT: vpsubw %xmm3, %xmm2, %xmm2
; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [1,1,1,1,1,1,1,1]		; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm5
; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm2		; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]		; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm4
; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX1-NEXT: vpshufb %xmm4, %xmm5, %xmm4
; AVX1-NEXT: vpsrlw $4, %xmm2, %xmm2		; AVX1-NEXT: vpsrlw $4, %xmm2, %xmm2
; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm2		; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
; AVX1-NEXT: vpshufb %xmm2, %xmm5, %xmm2		; AVX1-NEXT: vpshufb %xmm2, %xmm6, %xmm2
; AVX1-NEXT: vpaddb %xmm4, %xmm2, %xmm2		; AVX1-NEXT: vpaddb %xmm5, %xmm2, %xmm2
; AVX1-NEXT: vpsllw $8, %xmm2, %xmm4		; AVX1-NEXT: vpsllw $8, %xmm2, %xmm5
; AVX1-NEXT: vpaddb %xmm2, %xmm4, %xmm2		; AVX1-NEXT: vpaddb %xmm2, %xmm5, %xmm2
; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2		; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpsubw %xmm0, %xmm1, %xmm1
; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm1		; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpshufb %xmm1, %xmm5, %xmm1		; AVX1-NEXT: vpsubw %xmm3, %xmm0, %xmm0
		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm1
		; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1
; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vpshufb %xmm0, %xmm5, %xmm0		; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpsllw $8, %xmm0, %xmm1		; AVX1-NEXT: vpsllw $8, %xmm0, %xmm1
; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0		; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0
; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: testv16i16u:		; AVX2-LABEL: testv16i16u:
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines	; X32-AVX-NEXT: retl
ret <16 x i16> %out		ret <16 x i16> %out
}		}

define <32 x i8> @testv32i8(<32 x i8> %in) nounwind {		define <32 x i8> @testv32i8(<32 x i8> %in) nounwind {
; AVX1-LABEL: testv32i8:		; AVX1-LABEL: testv32i8:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vpsubb %xmm1, %xmm2, %xmm1		; AVX1-NEXT: vpsubb %xmm1, %xmm2, %xmm3
; AVX1-NEXT: vpsubb %xmm0, %xmm2, %xmm2
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm4
; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX1-NEXT: vpshufb %xmm4, %xmm5, %xmm4
; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm5, %xmm1		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
; AVX1-NEXT: vpaddb %xmm4, %xmm1, %xmm1		; AVX1-NEXT: vpsubb %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm2		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm5
; AVX1-NEXT: vpshufb %xmm2, %xmm5, %xmm2		; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
		; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
		; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
		; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1
		; AVX1-NEXT: vpaddb %xmm5, %xmm1, %xmm1
		; AVX1-NEXT: vpsubb %xmm0, %xmm2, %xmm2
		; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
		; AVX1-NEXT: vpsubb %xmm3, %xmm0, %xmm0
		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm2
		; AVX1-NEXT: vpshufb %xmm2, %xmm6, %xmm2
; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vpshufb %xmm0, %xmm5, %xmm0		; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: testv32i8:		; AVX2-LABEL: testv32i8:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1		; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
; AVX2-NEXT: vpsubb %ymm0, %ymm1, %ymm1		; AVX2-NEXT: vpsubb %ymm0, %ymm1, %ymm1
▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines	; X32-AVX-NEXT: retl
ret <32 x i8> %out		ret <32 x i8> %out
}		}

define <32 x i8> @testv32i8u(<32 x i8> %in) nounwind {		define <32 x i8> @testv32i8u(<32 x i8> %in) nounwind {
; AVX1-LABEL: testv32i8u:		; AVX1-LABEL: testv32i8u:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vpsubb %xmm1, %xmm2, %xmm1		; AVX1-NEXT: vpsubb %xmm1, %xmm2, %xmm3
; AVX1-NEXT: vpsubb %xmm0, %xmm2, %xmm2
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm4
; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
; AVX1-NEXT: vpshufb %xmm4, %xmm5, %xmm4
; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vpshufb %xmm1, %xmm5, %xmm1		; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
; AVX1-NEXT: vpaddb %xmm4, %xmm1, %xmm1		; AVX1-NEXT: vpsubb %xmm3, %xmm1, %xmm1
; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm2		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm5
; AVX1-NEXT: vpshufb %xmm2, %xmm5, %xmm2		; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
		; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
		; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
		; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
		; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1
		; AVX1-NEXT: vpaddb %xmm5, %xmm1, %xmm1
		; AVX1-NEXT: vpsubb %xmm0, %xmm2, %xmm2
		; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
		; AVX1-NEXT: vpsubb %xmm3, %xmm0, %xmm0
		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm2
		; AVX1-NEXT: vpshufb %xmm2, %xmm6, %xmm2
; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0		; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vpshufb %xmm0, %xmm5, %xmm0		; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0		; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: testv32i8u:		; AVX2-LABEL: testv32i8u:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1		; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
; AVX2-NEXT: vpsubb %ymm0, %ymm1, %ymm1		; AVX2-NEXT: vpsubb %ymm0, %ymm1, %ymm1
▲ Show 20 Lines • Show All 195 Lines • Show Last 20 Lines