This is an archive of the discontinued LLVM Phabricator instance.

[x86] narrow a shuffle that doesn't use or set any high elements
ClosedPublic

Authored by spatel on Jan 24 2019, 7:19 AM.

Download Raw Diff

Details

Reviewers

RKSimon
craig.topper
andreadb

Commits

rG21aa6ddc1413: [x86] narrow a shuffle that doesn't use or set any high elements
rL352209: [x86] narrow a shuffle that doesn't use or set any high elements

Summary

This isn't the final fix for our reduction/horizontal codegen, but it takes care of a lot of the problems. After we narrow the shuffle, existing combines for insert/extract and binops kick in, and we end up with cheaper 128-bit ops.

The avg and mul reduction tests show an existing shuffle lowering hole for AVX2/AVX512. I think in its most minimal form this is:
https://bugs.llvm.org/show_bug.cgi?id=40434
...but we might need multiple fixes to get it right. I could try to patch that first to avoid the regression if that seems like a bigger loss than the wins in the other tests.

Diff Detail

Repository: rL LLVM

Event Timeline

spatel created this revision.Jan 24 2019, 7:19 AM

Herald added a subscriber: mcrosier. · View Herald TranscriptJan 24 2019, 7:19 AM

Simon mentioned offline that we have "lowerVectorShuffleWithUndefHalf()", which I managed to not find.
It seems like we could reuse at least part of that during combining rather than lowering and get this effect.

spatel mentioned this in rL352127: [x86] move half-size shuffle mask creation to helper; NFC.Jan 24 2019, 3:12 PM

Patch updated:
Reduced logic duplication by refactoring the existing lowering code that does this transform and more.

I tried to share even more code by just making the existing code take a mode param to know if we were combining or lowering, but that doesn't work. During lowering, we require a web of subtarget checks to avoid fighting with other shuffle lowerings (infinite looping). We don't want those during this combine, or we'll lose optimizations.

I made this rev of the patch have the same constraints as the earlier version, so the test diffs are identical. It may be possible to allow some of the other shuffle narrowing transforms that we do during lowering, but I think that should be a follow-up (we may need other transforms to avoid regressions).

Note: Tests with AVX512 and 512-bit vectors are not showing the same improvements as other targets/tests because we don't know how to collapse an (extract (extract V, 0), 0) into 1 extract node yet. I'm imagining that patch is similar to the insert-of-insert that in D56604. Once we have that fold, we'll get several more narrowing of binops like we see here. But like this patch, that one also appears to expose a shuffle lowering hole, so it might need a preliminary patch to avoid a regression.

LGTM - thanks!

In D57156#1370481, @spatel wrote:

Note: Tests with AVX512 and 512-bit vectors are not showing the same improvements as other targets/tests because we don't know how to collapse an (extract (extract V, 0), 0) into 1 extract node yet. I'm imagining that patch is similar to the insert-of-insert that in D56604. Once we have that fold, we'll get several more narrowing of binops like we see here. But like this patch, that one also appears to expose a shuffle lowering hole, so it might need a preliminary patch to avoid a regression.

Please can you raise a bug about this?

This revision is now accepted and ready to land.Jan 25 2019, 12:40 AM

In D57156#1370844, @RKSimon wrote:

LGTM - thanks!

In D57156#1370481, @spatel wrote:

Note: Tests with AVX512 and 512-bit vectors are not showing the same improvements as other targets/tests because we don't know how to collapse an (extract (extract V, 0), 0) into 1 extract node yet. I'm imagining that patch is similar to the insert-of-insert that in D56604. Once we have that fold, we'll get several more narrowing of binops like we see here. But like this patch, that one also appears to expose a shuffle lowering hole, so it might need a preliminary patch to avoid a regression.

Please can you raise a bug about this?

Yes - I still need to minimize that one. If I find an obvious fix, I'll post a patch.

Closed by commit rL352209: [x86] narrow a shuffle that doesn't use or set any high elements (authored by spatel). · Explain WhyJan 25 2019, 7:40 AM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in D57336: [DAGCombiner] fold extract_subvector of extract_subvector.Jan 28 2019, 9:13 AM

spatel mentioned this in rL352528: [DAGCombiner] fold extract_subvector of extract_subvector.Jan 29 2019, 11:13 AM

spatel mentioned this in D57377: [CGP] Add support for sinking operands to their users, if they are free..Jan 30 2019, 8:59 AM

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

49 lines

test/

CodeGen/

X86/

avg.ll

205 lines

avx512-hadd-hsub.ll

40 lines

madd.ll

40 lines

min-legal-vector-width.ll

8 lines

sad.ll

24 lines

vector-compare-all_of.ll

50 lines

vector-compare-any_of.ll

50 lines

vector-reduce-add-widen.ll

80 lines

vector-reduce-add.ll

80 lines

vector-reduce-and-widen.ll

158 lines

vector-reduce-and.ll

158 lines

vector-reduce-fadd-fast.ll

60 lines

vector-reduce-fmul-fast.ll

60 lines

vector-reduce-mul-widen.ll

528 lines

vector-reduce-mul.ll

528 lines

vector-reduce-or-widen.ll

158 lines

vector-reduce-or.ll

158 lines

vector-reduce-xor-widen.ll

158 lines

vector-reduce-xor.ll

158 lines

Diff 183543

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 32,322 Lines • ▼ Show 20 Lines	if (HOp.getValueSizeInBits() == 256 &&
isTargetShuffleEquivalent(Mask, {0, 1, 0, 1, 4, 5, 4, 5}) \|\|		isTargetShuffleEquivalent(Mask, {0, 1, 0, 1, 4, 5, 4, 5}) \|\|
isTargetShuffleEquivalent(		isTargetShuffleEquivalent(
Mask, {0, 1, 2, 3, 0, 1, 2, 3, 8, 9, 10, 11, 8, 9, 10, 11})))		Mask, {0, 1, 2, 3, 0, 1, 2, 3, 8, 9, 10, 11, 8, 9, 10, 11})))
return HOp;		return HOp;

return SDValue();		return SDValue();
}		}

		/// If we have a shuffle of AVX/AVX512 (256/512 bit) vectors that only uses the
		/// low half of each source vector and does not set any high half elements in
		/// the destination vector, narrow the shuffle to half its original size.
		static SDValue narrowShuffle(ShuffleVectorSDNode *Shuf, SelectionDAG &DAG) {
		if (!Shuf->getValueType(0).isSimple())
		return SDValue();
		MVT VT = Shuf->getSimpleValueType(0);
		if (!VT.is256BitVector() && !VT.is512BitVector())
		return SDValue();

		// See if we can ignore all of the high elements of the shuffle.
		ArrayRef<int> Mask = Shuf->getMask();
		if (!isUndefUpperHalf(Mask))
		return SDValue();

		// Check if the shuffle mask accesses only the low half of each input vector
		// (half-index output is 0 or 2).
		int HalfIdx1, HalfIdx2;
		SmallVector<int, 8> HalfMask(Mask.size() / 2);
		if (!getHalfShuffleMask(Mask, HalfMask, HalfIdx1, HalfIdx2) \|\|
		(HalfIdx1 % 2 == 1) \|\| (HalfIdx2 % 2 == 1))
		return SDValue();

		// Create 4 instructions to replace the unnecessarily wide shuffle.
		// The trick is knowing that all of the insert/extract are actually free
		// subregister (zmm->ymm or ymm->xmm) ops. That leaves us with a shuffle
		// of narrow inputs into a narrow output, and that is always cheaper than
		// the wide shuffle that we started with.
		unsigned NumElts = Mask.size();
		SDValue Op0 = Shuf->getOperand(0);
		SDValue Op1 = Shuf->getOperand(1);
		SDLoc DL(Shuf);
		SDValue Index0 = DAG.getIntPtrConstant(0, DL);
		MVT HalfVT = MVT::getVectorVT(VT.getVectorElementType(), NumElts / 2);
		SDValue Extr0 = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, HalfVT, Op0, Index0);
		SDValue Extr1 = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, HalfVT, Op1, Index0);
		SDValue NewShuf = DAG.getVectorShuffle(HalfVT, DL, Extr0, Extr1, HalfMask);
		SDValue UndefV = DAG.getUNDEF(VT);
		return DAG.getNode(ISD::INSERT_SUBVECTOR, DL, VT, UndefV, NewShuf, Index0);
		}

static SDValue combineShuffle(SDNode *N, SelectionDAG &DAG,		static SDValue combineShuffle(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
		if (auto *Shuf = dyn_cast<ShuffleVectorSDNode>(N))
		if (SDValue V = narrowShuffle(Shuf, DAG))
		return V;

		// If we have legalized the vector types, look for blends of FADD and FSUB
		// nodes that we can fuse into an ADDSUB, FMADDSUB, or FMSUBADD node.
SDLoc dl(N);		SDLoc dl(N);
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
const TargetLowering &TLI = DAG.getTargetLoweringInfo();		const TargetLowering &TLI = DAG.getTargetLoweringInfo();
// If we have legalized the vector types, look for blends of FADD and FSUB
// nodes that we can fuse into an ADDSUB, FMADDSUB, or FMSUBADD node.
if (TLI.isTypeLegal(VT)) {		if (TLI.isTypeLegal(VT)) {
if (SDValue AddSub = combineShuffleToAddSubOrFMAddSub(N, Subtarget, DAG))		if (SDValue AddSub = combineShuffleToAddSubOrFMAddSub(N, Subtarget, DAG))
return AddSub;		return AddSub;

if (SDValue HAddSub = foldShuffleOfHorizOp(N))		if (SDValue HAddSub = foldShuffleOfHorizOp(N))
return HAddSub;		return HAddSub;
}		}

▲ Show 20 Lines • Show All 10,491 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avg.ll

	Show First 20 Lines • Show All 262 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movdqu %xmm13, (%rax)			; SSE2-NEXT: movdqu %xmm13, (%rax)
	; SSE2-NEXT: movdqu %xmm12, (%rax)			; SSE2-NEXT: movdqu %xmm12, (%rax)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: avg_v48i8:			; AVX1-LABEL: avg_v48i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovdqa (%rdi), %xmm0			; AVX1-NEXT: vmovdqa (%rdi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1			; AVX1-NEXT: vmovdqa 16(%rdi), %xmm1
	; AVX1-NEXT: vmovdqa 32(%rdi), %xmm2			; AVX1-NEXT: vmovdqa 32(%rdi), %xmm4
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm1[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm14 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm15 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm13 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm10 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa (%rdi), %xmm6			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX1-NEXT: vmovdqa 32(%rdi), %xmm0			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm14 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm6[1,1,2,3]			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm12 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm12 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm11 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm2[2,3,0,1]			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm15 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[3,3,0,1]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
				; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm4[1,1,2,3]
				; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
				; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
				; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
				; AVX1-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vmovdqa (%rsi), %xmm0			; AVX1-NEXT: vmovdqa (%rsi), %xmm0
	; AVX1-NEXT: vmovdqa 16(%rsi), %xmm4			; AVX1-NEXT: vmovdqa 16(%rsi), %xmm4
	; AVX1-NEXT: vmovdqa 32(%rsi), %xmm6			; AVX1-NEXT: vmovdqa 32(%rsi), %xmm3
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm4[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm4[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm2, %xmm5, %xmm10			; AVX1-NEXT: vpaddd %xmm2, %xmm5, %xmm13
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm4[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm4[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm2, %xmm7, %xmm9			; AVX1-NEXT: vpaddd %xmm5, %xmm6, %xmm11
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm4[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm4[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm7[0],zero,zero,zero,xmm7[1],zero,zero,zero,xmm7[2],zero,zero,zero,xmm7[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm7, %xmm3, %xmm8			; AVX1-NEXT: vpaddd %xmm6, %xmm7, %xmm9
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vpaddd %xmm4, %xmm1, %xmm8
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm4, %xmm14, %xmm14			; AVX1-NEXT: vpaddd %xmm4, %xmm15, %xmm15
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[3,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm0, %xmm13, %xmm13
	; AVX1-NEXT: vmovdqa (%rsi), %xmm7
	; AVX1-NEXT: vmovdqa 32(%rsi), %xmm4
	; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm7[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm5, %xmm12, %xmm12
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm7[0],zero,zero,zero,xmm7[1],zero,zero,zero,xmm7[2],zero,zero,zero,xmm7[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm7 = xmm7[0],zero,zero,zero,xmm7[1],zero,zero,zero,xmm7[2],zero,zero,zero,xmm7[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm7, %xmm11, %xmm7			; AVX1-NEXT: vpaddd %xmm7, %xmm10, %xmm7
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm6[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero
	; AVX1-NEXT: vpaddd %xmm2, %xmm15, %xmm2			; AVX1-NEXT: vpaddd %xmm2, %xmm14, %xmm14
	; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm6[3,3,0,1]			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero
				; AVX1-NEXT: vpaddd %xmm0, %xmm12, %xmm12
				; AVX1-NEXT: vpshufd {{.*#+}} xmm5 = xmm3[2,3,0,1]
				; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero
				; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm5, %xmm5 # 16-byte Folded Reload
				; AVX1-NEXT: vpshufd {{.*#+}} xmm6 = xmm3[3,3,0,1]
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero
	; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm6, %xmm6 # 16-byte Folded Reload			; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm6, %xmm6 # 16-byte Folded Reload
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm4[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm3[1,1,2,3]
				; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero
				; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1, %xmm1 # 16-byte Folded Reload
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero			; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero
	; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm3, %xmm3 # 16-byte Folded Reload			; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm3, %xmm3 # 16-byte Folded Reload
	; AVX1-NEXT: vpmovzxbd {{.*#+}} xmm4 = xmm4[0],zero,zero,zero,xmm4[1],zero,zero,zero,xmm4[2],zero,zero,zero,xmm4[3],zero,zero,zero			; AVX1-NEXT: vpcmpeqd %xmm4, %xmm4, %xmm4
	; AVX1-NEXT: vpaddd {{[-0-9]+}}(%r{{[sb]}}p), %xmm4, %xmm4 # 16-byte Folded Reload			; AVX1-NEXT: vpsubd %xmm4, %xmm13, %xmm10
	; AVX1-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpsubd %xmm4, %xmm11, %xmm11
	; AVX1-NEXT: vpsubd %xmm0, %xmm10, %xmm10			; AVX1-NEXT: vpsubd %xmm4, %xmm9, %xmm9
	; AVX1-NEXT: vpsubd %xmm0, %xmm9, %xmm9			; AVX1-NEXT: vpsubd %xmm4, %xmm8, %xmm8
	; AVX1-NEXT: vpsubd %xmm0, %xmm8, %xmm8			; AVX1-NEXT: vpsubd %xmm4, %xmm15, %xmm13
	; AVX1-NEXT: vpsubd %xmm0, %xmm1, %xmm11			; AVX1-NEXT: vpsubd %xmm4, %xmm7, %xmm7
	; AVX1-NEXT: vpsubd %xmm0, %xmm14, %xmm14			; AVX1-NEXT: vpsubd %xmm4, %xmm14, %xmm0
	; AVX1-NEXT: vpsubd %xmm0, %xmm13, %xmm5			; AVX1-NEXT: vpsubd %xmm4, %xmm12, %xmm2
	; AVX1-NEXT: vpsubd %xmm0, %xmm12, %xmm1			; AVX1-NEXT: vpsubd %xmm4, %xmm5, %xmm5
	; AVX1-NEXT: vpsubd %xmm0, %xmm7, %xmm7			; AVX1-NEXT: vpsubd %xmm4, %xmm6, %xmm6
	; AVX1-NEXT: vpsubd %xmm0, %xmm2, %xmm2			; AVX1-NEXT: vpsubd %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpsubd %xmm0, %xmm6, %xmm6			; AVX1-NEXT: vpsubd %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsubd %xmm0, %xmm3, %xmm3
	; AVX1-NEXT: vpsubd %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vpsrld $1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $1, %xmm3, %xmm3			; AVX1-NEXT: vpsrld $1, %xmm3, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $1, %xmm6, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm2, %xmm2
	; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $1, %xmm7, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm1, %xmm1			; AVX1-NEXT: vpsrld $1, %xmm1, %xmm1
	; AVX1-NEXT: vpackusdw %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpackusdw %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsrld $1, %xmm5, %xmm3			; AVX1-NEXT: vpsrld $1, %xmm6, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm14, %xmm4			; AVX1-NEXT: vpsrld $1, %xmm5, %xmm4
	; AVX1-NEXT: vpackusdw %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpackusdw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsrld $1, %xmm11, %xmm4			; AVX1-NEXT: vpsrld $1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $1, %xmm8, %xmm5			; AVX1-NEXT: vpsrld $1, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0
				; AVX1-NEXT: vpsrld $1, %xmm7, %xmm2
				; AVX1-NEXT: vpsrld $1, %xmm13, %xmm4
				; AVX1-NEXT: vpackusdw %xmm2, %xmm4, %xmm2
				; AVX1-NEXT: vpsrld $1, %xmm8, %xmm4
	; AVX1-NEXT: vpsrld $1, %xmm9, %xmm5			; AVX1-NEXT: vpsrld $1, %xmm9, %xmm5
				; AVX1-NEXT: vpackusdw %xmm5, %xmm4, %xmm4
				; AVX1-NEXT: vpsrld $1, %xmm11, %xmm5
	; AVX1-NEXT: vpsrld $1, %xmm10, %xmm6			; AVX1-NEXT: vpsrld $1, %xmm10, %xmm6
	; AVX1-NEXT: vpackusdw %xmm5, %xmm6, %xmm5			; AVX1-NEXT: vpackusdw %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vpand %xmm6, %xmm5, %xmm5
	; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm4
	; AVX1-NEXT: vpackuswb %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpackuswb %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm6, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqu %xmm0, (%rax)			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; AVX1-NEXT: vmovups %ymm1, (%rax)			; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm2
				; AVX1-NEXT: vpand %xmm6, %xmm1, %xmm1
				; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
				; AVX1-NEXT: vmovdqu %xmm1, (%rax)
				; AVX1-NEXT: vmovups %ymm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: avg_v48i8:			; AVX2-LABEL: avg_v48i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpbroadcastq 24(%rdi), %ymm1			; AVX2-NEXT: vpbroadcastq 24(%rdi), %ymm1
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm2 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vmovdqa (%rdi), %xmm2
	; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = mem[2,3,0,1]			; AVX2-NEXT: vmovdqa 32(%rdi), %xmm3
				; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm4 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero
				; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,0,1]
				; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero
				; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm5 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
				; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero,xmm3[2],zero,zero,zero,xmm3[3],zero,zero,zero,xmm3[4],zero,zero,zero,xmm3[5],zero,zero,zero,xmm3[6],zero,zero,zero,xmm3[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm4 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpshufd {{.*#+}} xmm5 = mem[2,3,0,1]
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm5 = xmm5[0],zero,zero,zero,xmm5[1],zero,zero,zero,xmm5[2],zero,zero,zero,xmm5[3],zero,zero,zero,xmm5[4],zero,zero,zero,xmm5[5],zero,zero,zero,xmm5[6],zero,zero,zero,xmm5[7],zero,zero,zero
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpaddd %ymm6, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm6, %ymm0, %ymm0
	; AVX2-NEXT: vpbroadcastq 24(%rsi), %ymm6			; AVX2-NEXT: vpbroadcastq 24(%rsi), %ymm6
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
	; AVX2-NEXT: vpaddd %ymm6, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm6, %ymm1, %ymm1
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero			; AVX2-NEXT: vmovdqa (%rsi), %xmm6
				; AVX2-NEXT: vmovdqa 32(%rsi), %xmm7
				; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm8 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
				; AVX2-NEXT: vpaddd %ymm8, %ymm4, %ymm4
				; AVX2-NEXT: vpshufd {{.*#+}} xmm6 = xmm6[2,3,0,1]
				; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
	; AVX2-NEXT: vpaddd %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vpaddd %ymm6, %ymm2, %ymm2
	; AVX2-NEXT: vpshufd {{.*#+}} xmm6 = mem[2,3,0,1]			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = xmm7[0],zero,zero,zero,xmm7[1],zero,zero,zero,xmm7[2],zero,zero,zero,xmm7[3],zero,zero,zero,xmm7[4],zero,zero,zero,xmm7[5],zero,zero,zero,xmm7[6],zero,zero,zero,xmm7[7],zero,zero,zero
				; AVX2-NEXT: vpaddd %ymm6, %ymm5, %ymm5
				; AVX2-NEXT: vpshufd {{.*#+}} xmm6 = xmm7[2,3,0,1]
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero			; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
	; AVX2-NEXT: vpaddd %ymm6, %ymm3, %ymm3			; AVX2-NEXT: vpaddd %ymm6, %ymm3, %ymm3
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
	; AVX2-NEXT: vpaddd %ymm6, %ymm4, %ymm4
	; AVX2-NEXT: vpshufd {{.*#+}} xmm6 = mem[2,3,0,1]
	; AVX2-NEXT: vpmovzxbd {{.*#+}} ymm6 = xmm6[0],zero,zero,zero,xmm6[1],zero,zero,zero,xmm6[2],zero,zero,zero,xmm6[3],zero,zero,zero,xmm6[4],zero,zero,zero,xmm6[5],zero,zero,zero,xmm6[6],zero,zero,zero,xmm6[7],zero,zero,zero
	; AVX2-NEXT: vpaddd %ymm6, %ymm5, %ymm5
	; AVX2-NEXT: vpcmpeqd %ymm6, %ymm6, %ymm6			; AVX2-NEXT: vpcmpeqd %ymm6, %ymm6, %ymm6
	; AVX2-NEXT: vpsubd %ymm6, %ymm0, %ymm7			; AVX2-NEXT: vpsubd %ymm6, %ymm0, %ymm7
	; AVX2-NEXT: vpsubd %ymm6, %ymm1, %ymm1			; AVX2-NEXT: vpsubd %ymm6, %ymm1, %ymm1
	; AVX2-NEXT: vpsubd %ymm6, %ymm2, %ymm2
	; AVX2-NEXT: vpsubd %ymm6, %ymm3, %ymm3
	; AVX2-NEXT: vpsubd %ymm6, %ymm4, %ymm4			; AVX2-NEXT: vpsubd %ymm6, %ymm4, %ymm4
	; AVX2-NEXT: vpsubd %ymm6, %ymm5, %ymm0			; AVX2-NEXT: vpsubd %ymm6, %ymm2, %ymm2
				; AVX2-NEXT: vpsubd %ymm6, %ymm5, %ymm5
				; AVX2-NEXT: vpsubd %ymm6, %ymm3, %ymm0
	; AVX2-NEXT: vpsrld $1, %ymm0, %ymm0			; AVX2-NEXT: vpsrld $1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $1, %ymm4, %ymm4			; AVX2-NEXT: vpsrld $1, %ymm5, %ymm3
	; AVX2-NEXT: vpsrld $1, %ymm3, %ymm3
	; AVX2-NEXT: vpsrld $1, %ymm2, %ymm2			; AVX2-NEXT: vpsrld $1, %ymm2, %ymm2
				; AVX2-NEXT: vpsrld $1, %ymm4, %ymm4
	; AVX2-NEXT: vpsrld $1, %ymm1, %ymm1			; AVX2-NEXT: vpsrld $1, %ymm1, %ymm1
	; AVX2-NEXT: vpsrld $1, %ymm7, %ymm5			; AVX2-NEXT: vpsrld $1, %ymm7, %ymm5
	; AVX2-NEXT: vextracti128 $1, %ymm5, %xmm6			; AVX2-NEXT: vextracti128 $1, %ymm5, %xmm6
	; AVX2-NEXT: vpackusdw %xmm6, %xmm5, %xmm5			; AVX2-NEXT: vpackusdw %xmm6, %xmm5, %xmm5
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %xmm6, %xmm5, %xmm5			; AVX2-NEXT: vpand %xmm6, %xmm5, %xmm5
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm7			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm7
	; AVX2-NEXT: vpackusdw %xmm7, %xmm1, %xmm1			; AVX2-NEXT: vpackusdw %xmm7, %xmm1, %xmm1
	; AVX2-NEXT: vpand %xmm6, %xmm1, %xmm1			; AVX2-NEXT: vpand %xmm6, %xmm1, %xmm1
	; AVX2-NEXT: vpackuswb %xmm1, %xmm5, %xmm1			; AVX2-NEXT: vpackuswb %xmm1, %xmm5, %xmm1
				; AVX2-NEXT: vextracti128 $1, %ymm4, %xmm5
				; AVX2-NEXT: vpackusdw %xmm5, %xmm4, %xmm4
				; AVX2-NEXT: vpand %xmm6, %xmm4, %xmm4
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm5			; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm5
	; AVX2-NEXT: vpackusdw %xmm5, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %xmm5, %xmm2, %xmm2
	; AVX2-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX2-NEXT: vpand %xmm6, %xmm2, %xmm2
	; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm5			; AVX2-NEXT: vpackuswb %xmm2, %xmm4, %xmm2
	; AVX2-NEXT: vpackusdw %xmm5, %xmm3, %xmm3
	; AVX2-NEXT: vpand %xmm6, %xmm3, %xmm3
	; AVX2-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1
	; AVX2-NEXT: vextracti128 $1, %ymm4, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm2
	; AVX2-NEXT: vpackusdw %xmm2, %xmm4, %xmm2			; AVX2-NEXT: vpackusdw %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX2-NEXT: vpand %xmm6, %xmm2, %xmm2
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3
	; AVX2-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpand %xmm6, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm6, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm0, %xmm2, %xmm0			; AVX2-NEXT: vpackuswb %xmm0, %xmm2, %xmm0
	; AVX2-NEXT: vmovdqu %xmm0, (%rax)			; AVX2-NEXT: vmovdqu %xmm0, (%rax)
	; AVX2-NEXT: vmovdqu %ymm1, (%rax)			; AVX2-NEXT: vmovdqu %ymm1, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 2,025 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-hadd-hsub.ll

Show First 20 Lines • Show All 103 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%x229 = fsub <16 x float> %x227, %x228		%x229 = fsub <16 x float> %x227, %x228
%x230 = extractelement <16 x float> %x229, i32 0		%x230 = extractelement <16 x float> %x229, i32 0
ret float %x230		ret float %x230
}		}

define <16 x i32> @hadd_16_3(<16 x i32> %x225, <16 x i32> %x227) {		define <16 x i32> @hadd_16_3(<16 x i32> %x225, <16 x i32> %x227) {
; KNL-LABEL: hadd_16_3:		; KNL-LABEL: hadd_16_3:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]		; KNL-NEXT: vphaddd %ymm1, %ymm0, %ymm0
; KNL-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]
; KNL-NEXT: vpaddd %ymm0, %ymm2, %ymm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: hadd_16_3:		; SKX-LABEL: hadd_16_3:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]		; SKX-NEXT: vphaddd %ymm1, %ymm0, %ymm0
; SKX-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]
; SKX-NEXT: vpaddd %ymm0, %ymm2, %ymm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 0, i32 2, i32 16, i32 18		%x226 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 0, i32 2, i32 16, i32 18
, i32 4, i32 6, i32 20, i32 22, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		, i32 4, i32 6, i32 20, i32 22, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x228 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 1, i32 3, i32 17, i32 19		%x228 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 1, i32 3, i32 17, i32 19
, i32 5 , i32 7, i32 21, i32 23, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef,		, i32 5 , i32 7, i32 21, i32 23, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef,
i32 undef, i32 undef>		i32 undef, i32 undef>
%x229 = add <16 x i32> %x226, %x228		%x229 = add <16 x i32> %x226, %x228
ret <16 x i32> %x229		ret <16 x i32> %x229
}		}

define <16 x float> @fhadd_16_3(<16 x float> %x225, <16 x float> %x227) {		define <16 x float> @fhadd_16_3(<16 x float> %x225, <16 x float> %x227) {
; KNL-LABEL: fhadd_16_3:		; KNL-LABEL: fhadd_16_3:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]		; KNL-NEXT: vhaddps %ymm1, %ymm0, %ymm0
; KNL-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]
; KNL-NEXT: vaddps %ymm0, %ymm2, %ymm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fhadd_16_3:		; SKX-LABEL: fhadd_16_3:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]		; SKX-NEXT: vhaddps %ymm1, %ymm0, %ymm0
; SKX-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]
; SKX-NEXT: vaddps %ymm0, %ymm2, %ymm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x float> %x225, <16 x float> %x227, <16 x i32> <i32 0, i32 2, i32 16, i32 18		%x226 = shufflevector <16 x float> %x225, <16 x float> %x227, <16 x i32> <i32 0, i32 2, i32 16, i32 18
, i32 4, i32 6, i32 20, i32 22, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		, i32 4, i32 6, i32 20, i32 22, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x228 = shufflevector <16 x float> %x225, <16 x float> %x227, <16 x i32> <i32 1, i32 3, i32 17, i32 19		%x228 = shufflevector <16 x float> %x225, <16 x float> %x227, <16 x i32> <i32 1, i32 3, i32 17, i32 19
, i32 5 , i32 7, i32 21, i32 23, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		, i32 5 , i32 7, i32 21, i32 23, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x229 = fadd <16 x float> %x226, %x228		%x229 = fadd <16 x float> %x226, %x228
ret <16 x float> %x229		ret <16 x float> %x229
}		}

define <8 x double> @fhadd_16_4(<8 x double> %x225, <8 x double> %x227) {		define <8 x double> @fhadd_16_4(<8 x double> %x225, <8 x double> %x227) {
; KNL-LABEL: fhadd_16_4:		; KNL-LABEL: fhadd_16_4:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]		; KNL-NEXT: vhaddpd %ymm1, %ymm0, %ymm0
; KNL-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
; KNL-NEXT: vaddpd %ymm0, %ymm2, %ymm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fhadd_16_4:		; SKX-LABEL: fhadd_16_4:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]		; SKX-NEXT: vhaddpd %ymm1, %ymm0, %ymm0
; SKX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
; SKX-NEXT: vaddpd %ymm0, %ymm2, %ymm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 undef, i32 undef, i32 undef, i32 undef>		%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 undef, i32 undef, i32 undef, i32 undef>
%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 undef ,i32 undef, i32 undef, i32 undef>		%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 undef ,i32 undef, i32 undef, i32 undef>
%x229 = fadd <8 x double> %x226, %x228		%x229 = fadd <8 x double> %x226, %x228
ret <8 x double> %x229		ret <8 x double> %x229
}		}

define <4 x double> @fadd_noundef_low(<8 x double> %x225, <8 x double> %x227) {		define <4 x double> @fadd_noundef_low(<8 x double> %x225, <8 x double> %x227) {
; KNL-LABEL: fadd_noundef_low:		; KNL-LABEL: fadd_noundef_low:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]		; KNL-NEXT: vhaddpd %ymm1, %ymm0, %ymm0
; KNL-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
; KNL-NEXT: vaddpd %ymm0, %ymm2, %ymm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fadd_noundef_low:		; SKX-LABEL: fadd_noundef_low:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]		; SKX-NEXT: vhaddpd %ymm1, %ymm0, %ymm0
; SKX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
; SKX-NEXT: vaddpd %ymm0, %ymm2, %ymm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>		%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>
%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>		%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>
%x229 = fadd <8 x double> %x226, %x228		%x229 = fadd <8 x double> %x226, %x228
%x230 = shufflevector <8 x double> %x229, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%x230 = shufflevector <8 x double> %x229, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x double> %x230		ret <4 x double> %x230
}		}

Show All 21 Lines	; SKX-NEXT: retq
%x230 = shufflevector <8 x double> %x229, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%x230 = shufflevector <8 x double> %x229, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
ret <4 x double> %x230		ret <4 x double> %x230
}		}


define <8 x i32> @hadd_16_3_sv(<16 x i32> %x225, <16 x i32> %x227) {		define <8 x i32> @hadd_16_3_sv(<16 x i32> %x225, <16 x i32> %x227) {
; KNL-LABEL: hadd_16_3_sv:		; KNL-LABEL: hadd_16_3_sv:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]		; KNL-NEXT: vphaddd %ymm1, %ymm0, %ymm0
; KNL-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]
; KNL-NEXT: vpaddd %ymm0, %ymm2, %ymm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: hadd_16_3_sv:		; SKX-LABEL: hadd_16_3_sv:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]		; SKX-NEXT: vphaddd %ymm1, %ymm0, %ymm0
; SKX-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]
; SKX-NEXT: vpaddd %ymm0, %ymm2, %ymm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 0, i32 2, i32 16, i32 18		%x226 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 0, i32 2, i32 16, i32 18
, i32 4, i32 6, i32 20, i32 22, i32 8, i32 10, i32 24, i32 26, i32 12, i32 14, i32 28, i32 30>		, i32 4, i32 6, i32 20, i32 22, i32 8, i32 10, i32 24, i32 26, i32 12, i32 14, i32 28, i32 30>
%x228 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 1, i32 3, i32 17, i32 19		%x228 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 1, i32 3, i32 17, i32 19
, i32 5 , i32 7, i32 21, i32 23, i32 9, i32 11, i32 25, i32 27, i32 13, i32 15,		, i32 5 , i32 7, i32 21, i32 23, i32 9, i32 11, i32 25, i32 27, i32 13, i32 15,
i32 29, i32 31>		i32 29, i32 31>
%x229 = add <16 x i32> %x226, %x228		%x229 = add <16 x i32> %x226, %x228
%x230 = shufflevector <16 x i32> %x229, <16 x i32> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4 ,i32 5, i32 6, i32 7>		%x230 = shufflevector <16 x i32> %x229, <16 x i32> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4 ,i32 5, i32 6, i32 7>
▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/madd.ll

	Show First 20 Lines • Show All 146 Lines • ▼ Show 20 Lines
	; AVX256-NEXT: vmovdqu (%rsi,%rcx,2), %xmm1			; AVX256-NEXT: vmovdqu (%rsi,%rcx,2), %xmm1
	; AVX256-NEXT: vpmaddwd (%rdi,%rcx,2), %xmm1, %xmm1			; AVX256-NEXT: vpmaddwd (%rdi,%rcx,2), %xmm1, %xmm1
	; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX256-NEXT: addq $8, %rcx			; AVX256-NEXT: addq $8, %rcx
	; AVX256-NEXT: cmpq %rcx, %rax			; AVX256-NEXT: cmpq %rcx, %rax
	; AVX256-NEXT: jne .LBB1_1			; AVX256-NEXT: jne .LBB1_1
	; AVX256-NEXT: # %bb.2: # %middle.block			; AVX256-NEXT: # %bb.2: # %middle.block
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmaddwd (%rdi,%rcx,2), %ymm2, %ymm2			; AVX2-NEXT: vpmaddwd (%rdi,%rcx,2), %ymm2, %ymm2
	; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: addq $16, %rcx			; AVX2-NEXT: addq $16, %rcx
	; AVX2-NEXT: cmpq %rcx, %rax			; AVX2-NEXT: cmpq %rcx, %rax
	; AVX2-NEXT: jne .LBB2_1			; AVX2-NEXT: jne .LBB2_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: _Z10test_shortPsS_i_512:			; AVX512-LABEL: _Z10test_shortPsS_i_512:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 169 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: addq $16, %rcx			; AVX2-NEXT: addq $16, %rcx
	; AVX2-NEXT: cmpq %rcx, %rax			; AVX2-NEXT: cmpq %rcx, %rax
	; AVX2-NEXT: jne .LBB3_1			; AVX2-NEXT: jne .LBB3_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: _Z10test_shortPsS_i_1024:			; AVX512F-LABEL: _Z10test_shortPsS_i_1024:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 242 Lines • ▼ Show 20 Lines
	; AVX256-NEXT: vpmovsxbw (%rsi,%rcx), %xmm2			; AVX256-NEXT: vpmovsxbw (%rsi,%rcx), %xmm2
	; AVX256-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1			; AVX256-NEXT: vpmaddwd %xmm1, %xmm2, %xmm1
	; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX256-NEXT: addq $16, %rcx			; AVX256-NEXT: addq $16, %rcx
	; AVX256-NEXT: cmpq %rcx, %rax			; AVX256-NEXT: cmpq %rcx, %rax
	; AVX256-NEXT: jne .LBB5_1			; AVX256-NEXT: jne .LBB5_1
	; AVX256-NEXT: # %bb.2: # %middle.block			; AVX256-NEXT: # %bb.2: # %middle.block
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body
	▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmaddwd %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpmaddwd %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: addq $16, %rcx			; AVX2-NEXT: addq $16, %rcx
	; AVX2-NEXT: cmpq %rcx, %rax			; AVX2-NEXT: cmpq %rcx, %rax
	; AVX2-NEXT: jne .LBB6_1			; AVX2-NEXT: jne .LBB6_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: _Z9test_charPcS_i_512:			; AVX512-LABEL: _Z9test_charPcS_i_512:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 188 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: addq $32, %rcx			; AVX2-NEXT: addq $32, %rcx
	; AVX2-NEXT: cmpq %rcx, %rax			; AVX2-NEXT: cmpq %rcx, %rax
	; AVX2-NEXT: jne .LBB7_1			; AVX2-NEXT: jne .LBB7_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: _Z9test_charPcS_i_1024:			; AVX512F-LABEL: _Z9test_charPcS_i_1024:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 249 Lines • ▼ Show 20 Lines
	; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; AVX256-NEXT: vpmulld %ymm1, %ymm2, %ymm1			; AVX256-NEXT: vpmulld %ymm1, %ymm2, %ymm1
	; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX256-NEXT: addq $16, %rcx			; AVX256-NEXT: addq $16, %rcx
	; AVX256-NEXT: cmpq %rcx, %rax			; AVX256-NEXT: cmpq %rcx, %rax
	; AVX256-NEXT: jne .LBB9_1			; AVX256-NEXT: jne .LBB9_1
	; AVX256-NEXT: # %bb.2: # %middle.block			; AVX256-NEXT: # %bb.2: # %middle.block
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body
	▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmulld %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpmulld %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: addq $16, %rcx			; AVX2-NEXT: addq $16, %rcx
	; AVX2-NEXT: cmpq %rcx, %rax			; AVX2-NEXT: cmpq %rcx, %rax
	; AVX2-NEXT: jne .LBB10_1			; AVX2-NEXT: jne .LBB10_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_unsigned_short_512:			; AVX512-LABEL: test_unsigned_short_512:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 234 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: addq $16, %rcx			; AVX2-NEXT: addq $16, %rcx
	; AVX2-NEXT: cmpq %rcx, %rax			; AVX2-NEXT: cmpq %rcx, %rax
	; AVX2-NEXT: jne .LBB11_1			; AVX2-NEXT: jne .LBB11_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_unsigned_short_1024:			; AVX512-LABEL: test_unsigned_short_1024:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 933 Lines • ▼ Show 20 Lines
	; AVX256-LABEL: madd_double_reduction:			; AVX256-LABEL: madd_double_reduction:
	; AVX256: # %bb.0:			; AVX256: # %bb.0:
	; AVX256-NEXT: vmovdqu (%rdi), %xmm0			; AVX256-NEXT: vmovdqu (%rdi), %xmm0
	; AVX256-NEXT: vmovdqu (%rdx), %xmm1			; AVX256-NEXT: vmovdqu (%rdx), %xmm1
	; AVX256-NEXT: vpmaddwd (%rsi), %xmm0, %xmm0			; AVX256-NEXT: vpmaddwd (%rsi), %xmm0, %xmm0
	; AVX256-NEXT: vpmaddwd (%rcx), %xmm1, %xmm1			; AVX256-NEXT: vpmaddwd (%rcx), %xmm1, %xmm1
	; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	%tmp = load <8 x i16>, <8 x i16>* %arg, align 1			%tmp = load <8 x i16>, <8 x i16>* %arg, align 1
	%tmp6 = load <8 x i16>, <8 x i16>* %arg1, align 1			%tmp6 = load <8 x i16>, <8 x i16>* %arg1, align 1
	%tmp7 = sext <8 x i16> %tmp to <8 x i32>			%tmp7 = sext <8 x i16> %tmp to <8 x i32>
	Show All 17 Lines

llvm/trunk/test/CodeGen/X86/min-legal-vector-width.ll

	Show First 20 Lines • Show All 181 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: addq $32, %rcx			; CHECK-NEXT: addq $32, %rcx
	; CHECK-NEXT: cmpq %rcx, %rax			; CHECK-NEXT: cmpq %rcx, %rax
	; CHECK-NEXT: jne .LBB8_1			; CHECK-NEXT: jne .LBB8_1
	; CHECK-NEXT: # %bb.2: # %middle.block			; CHECK-NEXT: # %bb.2: # %middle.block
	; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; CHECK-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; CHECK-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body
	▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmovdqu a+1024(%rax), %xmm2			; CHECK-NEXT: vmovdqu a+1024(%rax), %xmm2
	; CHECK-NEXT: vpsadbw b+1024(%rax), %xmm2, %xmm2			; CHECK-NEXT: vpsadbw b+1024(%rax), %xmm2, %xmm2
	; CHECK-NEXT: vpaddd %ymm1, %ymm2, %ymm1			; CHECK-NEXT: vpaddd %ymm1, %ymm2, %ymm1
	; CHECK-NEXT: addq $4, %rax			; CHECK-NEXT: addq $4, %rax
	; CHECK-NEXT: jne .LBB10_1			; CHECK-NEXT: jne .LBB10_1
	; CHECK-NEXT: # %bb.2: # %middle.block			; CHECK-NEXT: # %bb.2: # %middle.block
	; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	▲ Show 20 Lines • Show All 378 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/sad.ll

	Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vmovdqu a+1024(%rax), %xmm2			; AVX2-NEXT: vmovdqu a+1024(%rax), %xmm2
	; AVX2-NEXT: vpsadbw b+1024(%rax), %xmm2, %xmm2			; AVX2-NEXT: vpsadbw b+1024(%rax), %xmm2, %xmm2
	; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: addq $4, %rax			; AVX2-NEXT: addq $4, %rax
	; AVX2-NEXT: jne .LBB0_1			; AVX2-NEXT: jne .LBB0_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_16i8:			; AVX512-LABEL: sad_16i8:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 242 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: addq $4, %rax			; AVX2-NEXT: addq $4, %rax
	; AVX2-NEXT: jne .LBB1_1			; AVX2-NEXT: jne .LBB1_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_32i8:			; AVX512-LABEL: sad_32i8:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 575 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddd %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vpaddd %ymm6, %ymm2, %ymm2
	; AVX2-NEXT: vpaddd %ymm7, %ymm4, %ymm4			; AVX2-NEXT: vpaddd %ymm7, %ymm4, %ymm4
	; AVX2-NEXT: vpaddd %ymm4, %ymm2, %ymm2			; AVX2-NEXT: vpaddd %ymm4, %ymm2, %ymm2
	; AVX2-NEXT: vpaddd %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpaddd %ymm5, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm5, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: sad_avx64i8:			; AVX512F-LABEL: sad_avx64i8:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 403 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: sad_nonloop_32i8:			; AVX2-LABEL: sad_nonloop_32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqu (%rdi), %ymm0			; AVX2-NEXT: vmovdqu (%rdi), %ymm0
	; AVX2-NEXT: vpsadbw (%rdx), %ymm0, %ymm0			; AVX2-NEXT: vpsadbw (%rdx), %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_nonloop_32i8:			; AVX512-LABEL: sad_nonloop_32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovdqu (%rdi), %ymm0			; AVX512-NEXT: vmovdqu (%rdi), %ymm0
	; AVX512-NEXT: vpsadbw (%rdx), %ymm0, %ymm0			; AVX512-NEXT: vpsadbw (%rdx), %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%v1 = load <32 x i8>, <32 x i8>* %p, align 1			%v1 = load <32 x i8>, <32 x i8>* %p, align 1
	%z1 = zext <32 x i8> %v1 to <32 x i32>			%z1 = zext <32 x i8> %v1 to <32 x i32>
	%v2 = load <32 x i8>, <32 x i8>* %q, align 1			%v2 = load <32 x i8>, <32 x i8>* %q, align 1
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpsadbw (%rsi), %xmm0, %xmm0			; AVX2-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
	; AVX2-NEXT: movl $1, %eax			; AVX2-NEXT: movl $1, %eax
	; AVX2-NEXT: vmovd %eax, %xmm1			; AVX2-NEXT: vmovd %eax, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqu (%rdx), %xmm1			; AVX2-NEXT: vmovdqu (%rdx), %xmm1
	; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_unroll_nonzero_initial:			; AVX512-LABEL: sad_unroll_nonzero_initial:
	; AVX512: # %bb.0: # %bb			; AVX512: # %bb.0: # %bb
	▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
	; AVX2-LABEL: sad_double_reduction:			; AVX2-LABEL: sad_double_reduction:
	; AVX2: # %bb.0: # %bb			; AVX2: # %bb.0: # %bb
	; AVX2-NEXT: vmovdqu (%rdi), %xmm0			; AVX2-NEXT: vmovdqu (%rdi), %xmm0
	; AVX2-NEXT: vmovdqu (%rdx), %xmm1			; AVX2-NEXT: vmovdqu (%rdx), %xmm1
	; AVX2-NEXT: vpsadbw (%rsi), %xmm0, %xmm0			; AVX2-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
	; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_double_reduction:			; AVX512-LABEL: sad_double_reduction:
	; AVX512: # %bb.0: # %bb			; AVX512: # %bb.0: # %bb
	▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-compare-all_of.ll

	Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; AVX-NEXT: cmovneq %rcx, %rax			; AVX-NEXT: cmovneq %rcx, %rax
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_sext:			; AVX512-LABEL: test_v4f64_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vandpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vandpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vandpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vandpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = fcmp ogt <4 x double> %a0, %a1			%c = fcmp ogt <4 x double> %a0, %a1
	%s = sext <4 x i1> %c to <4 x i64>			%s = sext <4 x i1> %c to <4 x i64>
	%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
	; AVX-NEXT: cmovnel %ecx, %eax			; AVX-NEXT: cmovnel %ecx, %eax
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_sext:			; AVX512-LABEL: test_v8f32_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vcmpltps %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vcmpltps %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = fcmp ogt <8 x float> %a0, %a1			%c = fcmp ogt <8 x float> %a0, %a1
	%s = sext <8 x i1> %c to <8 x i32>			%s = sext <8 x i1> %c to <8 x i32>
	%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: cmovneq %rcx, %rax			; AVX2-NEXT: cmovneq %rcx, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64_sext:			; AVX512-LABEL: test_v4i64_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <4 x i64> %a0, %a1			%c = icmp sgt <4 x i64> %a0, %a1
	%s = sext <4 x i1> %c to <4 x i64>			%s = sext <4 x i1> %c to <4 x i64>
	%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: cmovnel %ecx, %eax			; AVX2-NEXT: cmovnel %ecx, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32_sext:			; AVX512-LABEL: test_v8i32_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <8 x i32> %a0, %a1			%c = icmp sgt <8 x i32> %a0, %a1
	%s = sext <8 x i1> %c to <8 x i32>			%s = sext <8 x i1> %c to <8 x i32>
	%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i16_sext:			; AVX1-LABEL: test_v16i16_sext:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpcmpgtw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpcmpgtw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16_sext:			; AVX2-LABEL: test_v16i16_sext:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpmovmskb %ymm0, %ecx			; AVX2-NEXT: vpmovmskb %ymm0, %ecx
	; AVX2-NEXT: xorl %eax, %eax			; AVX2-NEXT: xorl %eax, %eax
	; AVX2-NEXT: cmpl $-1, %ecx			; AVX2-NEXT: cmpl $-1, %ecx
	; AVX2-NEXT: cmovel %ecx, %eax			; AVX2-NEXT: cmovel %ecx, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16_sext:			; AVX512-LABEL: test_v16i16_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <16 x i16> %a0, %a1			%c = icmp sgt <16 x i16> %a0, %a1
	%s = sext <16 x i1> %c to <16 x i16>			%s = sext <16 x i1> %c to <16 x i16>
	▲ Show 20 Lines • Show All 151 Lines • ▼ Show 20 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i8_sext:			; AVX1-LABEL: test_v32i8_sext:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpcmpgtb %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpcmpgtb %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpcmpgtb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpgtb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8_sext:			; AVX2-LABEL: test_v32i8_sext:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpmovmskb %ymm0, %ecx			; AVX2-NEXT: vpmovmskb %ymm0, %ecx
	; AVX2-NEXT: xorl %eax, %eax			; AVX2-NEXT: xorl %eax, %eax
	; AVX2-NEXT: cmpl $-1, %ecx			; AVX2-NEXT: cmpl $-1, %ecx
	; AVX2-NEXT: cmovel %ecx, %eax			; AVX2-NEXT: cmovel %ecx, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8_sext:			; AVX512-LABEL: test_v32i8_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <32 x i8> %a0, %a1			%c = icmp sgt <32 x i8> %a0, %a1
	%s = sext <32 x i1> %c to <32 x i8>			%s = sext <32 x i1> %c to <32 x i8>
	Show All 13 Lines

llvm/trunk/test/CodeGen/X86/vector-compare-any_of.ll

	Show First 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; AVX-NEXT: sbbq %rax, %rax			; AVX-NEXT: sbbq %rax, %rax
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_sext:			; AVX512-LABEL: test_v4f64_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vorpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vorpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vorpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vorpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = fcmp ogt <4 x double> %a0, %a1			%c = fcmp ogt <4 x double> %a0, %a1
	%s = sext <4 x i1> %c to <4 x i64>			%s = sext <4 x i1> %c to <4 x i64>
	%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines
	; AVX-NEXT: sbbl %eax, %eax			; AVX-NEXT: sbbl %eax, %eax
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_sext:			; AVX512-LABEL: test_v8f32_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vcmpltps %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vcmpltps %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = fcmp ogt <8 x float> %a0, %a1			%c = fcmp ogt <8 x float> %a0, %a1
	%s = sext <8 x i1> %c to <8 x i32>			%s = sext <8 x i1> %c to <8 x i32>
	%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: sbbq %rax, %rax			; AVX2-NEXT: sbbq %rax, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64_sext:			; AVX512-LABEL: test_v4i64_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <4 x i64> %a0, %a1			%c = icmp sgt <4 x i64> %a0, %a1
	%s = sext <4 x i1> %c to <4 x i64>			%s = sext <4 x i1> %c to <4 x i64>
	%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 142 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: sbbl %eax, %eax			; AVX2-NEXT: sbbl %eax, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32_sext:			; AVX512-LABEL: test_v8i32_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <8 x i32> %a0, %a1			%c = icmp sgt <8 x i32> %a0, %a1
	%s = sext <8 x i1> %c to <8 x i32>			%s = sext <8 x i1> %c to <8 x i32>
	%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i16_sext:			; AVX1-LABEL: test_v16i16_sext:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpcmpgtw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpcmpgtw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vorps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16_sext:			; AVX2-LABEL: test_v16i16_sext:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpmovmskb %ymm0, %ecx			; AVX2-NEXT: vpmovmskb %ymm0, %ecx
	; AVX2-NEXT: xorl %eax, %eax			; AVX2-NEXT: xorl %eax, %eax
	; AVX2-NEXT: cmpl %ecx, %eax			; AVX2-NEXT: cmpl %ecx, %eax
	; AVX2-NEXT: sbbl %eax, %eax			; AVX2-NEXT: sbbl %eax, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16_sext:			; AVX512-LABEL: test_v16i16_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <16 x i16> %a0, %a1			%c = icmp sgt <16 x i16> %a0, %a1
	%s = sext <16 x i1> %c to <16 x i16>			%s = sext <16 x i1> %c to <16 x i16>
	▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i8_sext:			; AVX1-LABEL: test_v32i8_sext:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpcmpgtb %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpcmpgtb %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpcmpgtb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpgtb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vorps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8_sext:			; AVX2-LABEL: test_v32i8_sext:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpmovmskb %ymm0, %ecx			; AVX2-NEXT: vpmovmskb %ymm0, %ecx
	; AVX2-NEXT: xorl %eax, %eax			; AVX2-NEXT: xorl %eax, %eax
	; AVX2-NEXT: cmpl %ecx, %eax			; AVX2-NEXT: cmpl %ecx, %eax
	; AVX2-NEXT: sbbl %eax, %eax			; AVX2-NEXT: sbbl %eax, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8_sext:			; AVX512-LABEL: test_v32i8_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <32 x i8> %a0, %a1			%c = icmp sgt <32 x i8> %a0, %a1
	%s = sext <32 x i1> %c to <32 x i8>			%s = sext <32 x i1> %c to <32 x i8>
	Show All 13 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-add-widen.ll

	Show First 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	Show All 21 Lines
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddq %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddq %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddq %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	Show All 25 Lines
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	Show All 33 Lines
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddw %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddw %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddw %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	▲ Show 20 Lines • Show All 277 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i8:			; AVX2-LABEL: test_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v128i8:			; AVX2-LABEL: test_v128i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddb %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddb %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-add.ll

	Show First 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	Show All 21 Lines
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddq %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddq %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddq %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	Show All 25 Lines
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	Show All 33 Lines
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddw %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddw %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddw %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	▲ Show 20 Lines • Show All 269 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i8:			; AVX2-LABEL: test_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v128i8:			; AVX2-LABEL: test_v128i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddb %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddb %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-and-widen.ll

	Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: movq %xmm1, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	; SSE-LABEL: test_v8i64:			; SSE-LABEL: test_v8i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pand %xmm3, %xmm1			; SSE-NEXT: pand %xmm3, %xmm1
	; SSE-NEXT: pand %xmm2, %xmm1			; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: pand %xmm1, %xmm0			; SSE-NEXT: pand %xmm1, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 26 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; SSE-NEXT: pand %xmm1, %xmm0			; SSE-NEXT: pand %xmm1, %xmm0
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i32:			; AVX1-LABEL: test_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	Show All 10 Lines
	; SSE-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i32:			; AVX1-LABEL: test_v16i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 30 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i32:			; AVX1-LABEL: test_v32i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 135 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i16:			; AVX1-LABEL: test_v16i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	Show All 15 Lines
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i16:			; AVX1-LABEL: test_v32i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	Show All 38 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i16:			; AVX1-LABEL: test_v64i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	▲ Show 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pand %xmm1, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pextrb $0, %xmm0, %eax			; SSE41-NEXT: pextrb $0, %xmm0, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i8:			; AVX1-LABEL: test_v32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 37 Lines
	; SSE41-NEXT: pextrb $0, %xmm1, %eax			; SSE41-NEXT: pextrb $0, %xmm1, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i8:			; AVX1-LABEL: test_v64i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i8:			; AVX2-LABEL: test_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v128i8:			; AVX1-LABEL: test_v128i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v128i8:			; AVX2-LABEL: test_v128i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-and.ll

	Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: movq %xmm1, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	; SSE-LABEL: test_v8i64:			; SSE-LABEL: test_v8i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pand %xmm3, %xmm1			; SSE-NEXT: pand %xmm3, %xmm1
	; SSE-NEXT: pand %xmm2, %xmm1			; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: pand %xmm1, %xmm0			; SSE-NEXT: pand %xmm1, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 26 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; SSE-NEXT: pand %xmm1, %xmm0			; SSE-NEXT: pand %xmm1, %xmm0
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i32:			; AVX1-LABEL: test_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	Show All 10 Lines
	; SSE-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i32:			; AVX1-LABEL: test_v16i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 30 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i32:			; AVX1-LABEL: test_v32i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i16:			; AVX1-LABEL: test_v16i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	Show All 15 Lines
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i16:			; AVX1-LABEL: test_v32i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	Show All 38 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i16:			; AVX1-LABEL: test_v64i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	▲ Show 20 Lines • Show All 252 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pand %xmm1, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pextrb $0, %xmm0, %eax			; SSE41-NEXT: pextrb $0, %xmm0, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i8:			; AVX1-LABEL: test_v32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 37 Lines
	; SSE41-NEXT: pextrb $0, %xmm1, %eax			; SSE41-NEXT: pextrb $0, %xmm1, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i8:			; AVX1-LABEL: test_v64i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i8:			; AVX2-LABEL: test_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v128i8:			; AVX1-LABEL: test_v128i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v128i8:			; AVX2-LABEL: test_v128i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-fadd-fast.ll

	Show First 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: addps %xmm1, %xmm2			; SSE41-NEXT: addps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE41-NEXT: addps %xmm2, %xmm0			; SSE41-NEXT: addps %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vaddps %ymm0, %ymm1, %ymm0			; AVX-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vaddps %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vaddps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	Show All 22 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE41-NEXT: addps %xmm2, %xmm0			; SSE41-NEXT: addps %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm0			; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_zero:			; AVX-LABEL: test_v8f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_zero:			; AVX512-LABEL: test_v8f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 23 Lines
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_zero:			; AVX-LABEL: test_v16f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_zero:			; AVX512-LABEL: test_v16f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_undef:			; AVX-LABEL: test_v8f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 23 Lines
	; SSE41-NEXT: addps %xmm0, %xmm1			; SSE41-NEXT: addps %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_undef:			; AVX-LABEL: test_v16f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vaddpd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm4, %xmm2			; SSE-NEXT: addpd %xmm4, %xmm2
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm1			; SSE-NEXT: addpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	Show All 24 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm4, %ymm2, %ymm0			; AVX-NEXT: vaddpd %ymm4, %ymm2, %ymm0
	; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_zero:			; AVX-LABEL: test_v4f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_zero:			; AVX-LABEL: test_v8f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_zero:			; AVX512-LABEL: test_v8f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	Show All 24 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_zero:			; AVX-LABEL: test_v16f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_zero:			; AVX512-LABEL: test_v16f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_undef:			; AVX-LABEL: test_v4f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_undef:			; AVX-LABEL: test_v8f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	Show All 24 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_undef:			; AVX-LABEL: test_v16f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	Show All 21 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-fmul-fast.ll

	Show First 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: mulps %xmm1, %xmm2			; SSE41-NEXT: mulps %xmm1, %xmm2
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulps %xmm2, %xmm0			; SSE41-NEXT: mulps %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vmulps %ymm0, %ymm1, %ymm0			; AVX-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vmulps %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vmulps %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	Show All 22 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSE41-NEXT: mulps %xmm2, %xmm0			; SSE41-NEXT: mulps %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm0			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_zero:			; AVX-LABEL: test_v8f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_zero:			; AVX512-LABEL: test_v8f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 23 Lines
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_zero:			; AVX-LABEL: test_v16f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_zero:			; AVX512-LABEL: test_v16f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: movshdup {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f32_undef:			; AVX-LABEL: test_v8f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	Show All 23 Lines
	; SSE41-NEXT: mulps %xmm0, %xmm1			; SSE41-NEXT: mulps %xmm0, %xmm1
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f32_undef:			; AVX-LABEL: test_v16f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vmulpd %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vmulpd %xmm0, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm4, %xmm2			; SSE-NEXT: mulpd %xmm4, %xmm2
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm1			; SSE-NEXT: mulpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	Show All 24 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm0			; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm0
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm0
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_zero:			; AVX-LABEL: test_v4f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_zero:			; AVX-LABEL: test_v8f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_zero:			; AVX512-LABEL: test_v8f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	Show All 24 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_zero:			; AVX-LABEL: test_v16f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_zero:			; AVX512-LABEL: test_v16f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_undef:			; AVX-LABEL: test_v4f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_undef:			; AVX-LABEL: test_v8f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	Show All 24 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v16f64_undef:			; AVX-LABEL: test_v16f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	Show All 21 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-mul-widen.ll

	Show First 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vmovq %xmm0, %rax			; AVX512DQ-NEXT: vmovq %xmm0, %rax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v4i64:			; AVX512DQVL-LABEL: test_v4i64:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullq %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovq %xmm0, %rax			; AVX512DQVL-NEXT: vmovq %xmm0, %rax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1			; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	▲ Show 20 Lines • Show All 270 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	▲ Show 20 Lines • Show All 281 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulld %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpmulld %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpmulld %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	Show All 33 Lines
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v32i16:			; AVX512BW-LABEL: test_v32i16:
	Show All 29 Lines
	; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v32i16:			; AVX512DQ-LABEL: test_v32i16:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vmovd %xmm0, %eax			; AVX512DQ-NEXT: vmovd %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v32i16:			; AVX512DQVL-LABEL: test_v32i16:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovd %xmm0, %eax			; AVX512DQVL-NEXT: vmovd %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmullw %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpmullw %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpmullw %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v64i16:			; AVX512BW-LABEL: test_v64i16:
	Show All 33 Lines
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v64i16:			; AVX512DQ-LABEL: test_v64i16:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpmullw %ymm3, %ymm1, %ymm1			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm1, %ymm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm2, %ymm1			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm2, %ymm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vmovd %xmm0, %eax			; AVX512DQ-NEXT: vmovd %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v64i16:			; AVX512DQVL-LABEL: test_v64i16:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm1, %ymm1			; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm1, %ymm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm2, %ymm1			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm2, %ymm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovd %xmm0, %eax			; AVX512DQVL-NEXT: vmovd %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 515 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm2			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]			; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
	; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm2[8],ymm0[8],ymm2[9],ymm0[9],ymm2[10],ymm0[10],ymm2[11],ymm0[11],ymm2[12],ymm0[12],ymm2[13],ymm0[13],ymm2[14],ymm0[14],ymm2[15],ymm0[15],ymm2[24],ymm0[24],ymm2[25],ymm0[25],ymm2[26],ymm0[26],ymm2[27],ymm0[27],ymm2[28],ymm0[28],ymm2[29],ymm0[29],ymm2[30],ymm0[30],ymm2[31],ymm0[31]			; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm2[8],ymm0[8],ymm2[9],ymm0[9],ymm2[10],ymm0[10],ymm2[11],ymm0[11],ymm2[12],ymm0[12],ymm2[13],ymm0[13],ymm2[14],ymm0[14],ymm2[15],ymm0[15],ymm2[24],ymm0[24],ymm2[25],ymm0[25],ymm2[26],ymm0[26],ymm2[27],ymm0[27],ymm2[28],ymm0[28],ymm2[29],ymm0[29],ymm2[30],ymm0[30],ymm2[31],ymm0[31]
	; AVX2-NEXT: vpmullw %ymm3, %ymm1, %ymm3			; AVX2-NEXT: vpmullw %ymm3, %ymm1, %ymm3
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %ymm1, %ymm3, %ymm3			; AVX2-NEXT: vpand %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
				; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: vpmullw %ymm3, %ymm1, %ymm3			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm1, %ymm3
	; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm1 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm1 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512DQ-NEXT: vpand %ymm1, %ymm3, %ymm3			; AVX512DQ-NEXT: vpand %ymm1, %ymm3, %ymm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm3, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
				; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512DQ-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v32i8:			; AVX512DQVL-LABEL: test_v32i8:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm2 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]			; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm2 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vmovdqa {{.*#+}} ymm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512DQVL-NEXT: vmovdqa {{.*#+}} ymm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpand %ymm3, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v32i8(<32 x i8> %a0)
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm3[8],xmm0[8],xmm3[9],xmm0[9],xmm3[10],xmm0[10],xmm3[11],xmm0[11],xmm3[12],xmm0[12],xmm3[13],xmm0[13],xmm3[14],xmm0[14],xmm3[15],xmm0[15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm3[8],xmm0[8],xmm3[9],xmm0[9],xmm3[10],xmm0[10],xmm3[11],xmm0[11],xmm3[12],xmm0[12],xmm3[13],xmm0[13],xmm3[14],xmm0[14],xmm3[15],xmm0[15]
	; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm1			; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm1
	; AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX1-NEXT: vpmullw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmullw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm3			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmullw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX1-NEXT: vpmullw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	Show All 14 Lines
	; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX2-NEXT: vpmullw %ymm4, %ymm3, %ymm3			; AVX2-NEXT: vpmullw %ymm4, %ymm3, %ymm3
	; AVX2-NEXT: vpand %ymm2, %ymm3, %ymm3			; AVX2-NEXT: vpand %ymm2, %ymm3, %ymm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	Show All 15 Lines
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
				; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
				; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $al killed $al killed $eax			; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	Show All 15 Lines
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm1, %zmm0			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
				; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
				; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	Show All 14 Lines
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX512DQ-NEXT: vpmullw %ymm4, %ymm3, %ymm3			; AVX512DQ-NEXT: vpmullw %ymm4, %ymm3, %ymm3
	; AVX512DQ-NEXT: vpand %ymm2, %ymm3, %ymm3			; AVX512DQ-NEXT: vpand %ymm2, %ymm3, %ymm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm3, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	Show All 14 Lines
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX512DQVL-NEXT: vpmullw %ymm4, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpmullw %ymm4, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpand %ymm3, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v64i8(<64 x i8> %a0)
	▲ Show 20 Lines • Show All 267 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm2			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	Show All 32 Lines
	; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX2-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v128i8:			; AVX512BW-LABEL: test_v128i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm3
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BW-NEXT: vpmullw %zmm4, %zmm3, %zmm3
	; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BW-NEXT: vpmullw %zmm4, %zmm3, %zmm3
	; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0
				; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $al killed $al killed $eax			; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v128i8:			; AVX512BWVL-LABEL: test_v128i8:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm3, %zmm2			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vmovdqa64 {{.*#+}} zmm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512BWVL-NEXT: vmovdqa64 {{.*#+}} zmm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm1, %zmm0			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
				; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0
				; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v128i8:			; AVX512DQ-LABEL: test_v128i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	Show All 30 Lines
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX512DQ-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512DQ-NEXT: vpand %ymm4, %ymm2, %ymm2			; AVX512DQ-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	Show All 32 Lines
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v128i8(<128 x i8> %a0)
	Show All 28 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-mul.ll

	Show First 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vmovq %xmm0, %rax			; AVX512DQ-NEXT: vmovq %xmm0, %rax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v4i64:			; AVX512DQVL-LABEL: test_v4i64:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullq %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovq %xmm0, %rax			; AVX512DQVL-NEXT: vmovq %xmm0, %rax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1			; AVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1			; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	▲ Show 20 Lines • Show All 270 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpmuludq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm3			; AVX1-NEXT: vpsrldq {{.*#+}} xmm3 = xmm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm3
	; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmuludq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	▲ Show 20 Lines • Show All 274 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulld %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpmulld %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpmulld %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 164 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	Show All 33 Lines
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v32i16:			; AVX512BW-LABEL: test_v32i16:
	Show All 29 Lines
	; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v32i16:			; AVX512DQ-LABEL: test_v32i16:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vmovd %xmm0, %eax			; AVX512DQ-NEXT: vmovd %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v32i16:			; AVX512DQVL-LABEL: test_v32i16:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovd %xmm0, %eax			; AVX512DQVL-NEXT: vmovd %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmullw %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpmullw %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpmullw %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v64i16:			; AVX512BW-LABEL: test_v64i16:
	Show All 33 Lines
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v64i16:			; AVX512DQ-LABEL: test_v64i16:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpmullw %ymm3, %ymm1, %ymm1			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm1, %ymm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm2, %ymm1			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm2, %ymm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vmovd %xmm0, %eax			; AVX512DQ-NEXT: vmovd %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v64i16:			; AVX512DQVL-LABEL: test_v64i16:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm1, %ymm1			; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm1, %ymm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm2, %ymm1			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm2, %ymm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovd %xmm0, %eax			; AVX512DQVL-NEXT: vmovd %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 463 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm2			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]			; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm1 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
	; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm2[8],ymm0[8],ymm2[9],ymm0[9],ymm2[10],ymm0[10],ymm2[11],ymm0[11],ymm2[12],ymm0[12],ymm2[13],ymm0[13],ymm2[14],ymm0[14],ymm2[15],ymm0[15],ymm2[24],ymm0[24],ymm2[25],ymm0[25],ymm2[26],ymm0[26],ymm2[27],ymm0[27],ymm2[28],ymm0[28],ymm2[29],ymm0[29],ymm2[30],ymm0[30],ymm2[31],ymm0[31]			; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm2[8],ymm0[8],ymm2[9],ymm0[9],ymm2[10],ymm0[10],ymm2[11],ymm0[11],ymm2[12],ymm0[12],ymm2[13],ymm0[13],ymm2[14],ymm0[14],ymm2[15],ymm0[15],ymm2[24],ymm0[24],ymm2[25],ymm0[25],ymm2[26],ymm0[26],ymm2[27],ymm0[27],ymm2[28],ymm0[28],ymm2[29],ymm0[29],ymm2[30],ymm0[30],ymm2[31],ymm0[31]
	; AVX2-NEXT: vpmullw %ymm3, %ymm1, %ymm3			; AVX2-NEXT: vpmullw %ymm3, %ymm1, %ymm3
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %ymm1, %ymm3, %ymm3			; AVX2-NEXT: vpand %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
				; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: vpmullw %ymm3, %ymm1, %ymm3			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm1, %ymm3
	; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm1 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm1 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512DQ-NEXT: vpand %ymm1, %ymm3, %ymm3			; AVX512DQ-NEXT: vpand %ymm1, %ymm3, %ymm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm3, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
				; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512DQ-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v32i8:			; AVX512DQVL-LABEL: test_v32i8:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm2 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]			; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm2 = ymm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31]
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vmovdqa {{.*#+}} ymm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512DQVL-NEXT: vmovdqa {{.*#+}} ymm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpand %ymm3, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v32i8(<32 x i8> %a0)
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm3[8],xmm0[8],xmm3[9],xmm0[9],xmm3[10],xmm0[10],xmm3[11],xmm0[11],xmm3[12],xmm0[12],xmm3[13],xmm0[13],xmm3[14],xmm0[14],xmm3[15],xmm0[15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm4 = xmm3[8],xmm0[8],xmm3[9],xmm0[9],xmm3[10],xmm0[10],xmm3[11],xmm0[11],xmm3[12],xmm0[12],xmm3[13],xmm0[13],xmm3[14],xmm0[14],xmm3[15],xmm0[15]
	; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm1			; AVX1-NEXT: vpmullw %xmm1, %xmm4, %xmm1
	; AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX1-NEXT: vpmullw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmullw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm3			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmullw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX1-NEXT: vpmullw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	Show All 14 Lines
	; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX2-NEXT: vpmullw %ymm4, %ymm3, %ymm3			; AVX2-NEXT: vpmullw %ymm4, %ymm3, %ymm3
	; AVX2-NEXT: vpand %ymm2, %ymm3, %ymm3			; AVX2-NEXT: vpand %ymm2, %ymm3, %ymm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	Show All 15 Lines
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
				; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
				; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $al killed $al killed $eax			; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	Show All 15 Lines
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm1, %zmm0			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
				; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
				; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	Show All 14 Lines
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX512DQ-NEXT: vpmullw %ymm4, %ymm3, %ymm3			; AVX512DQ-NEXT: vpmullw %ymm4, %ymm3, %ymm3
	; AVX512DQ-NEXT: vpand %ymm2, %ymm3, %ymm3			; AVX512DQ-NEXT: vpand %ymm2, %ymm3, %ymm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm3, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm3, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm3 = ymm3[0],ymm0[0],ymm3[1],ymm0[1],ymm3[2],ymm0[2],ymm3[3],ymm0[3],ymm3[4],ymm0[4],ymm3[5],ymm0[5],ymm3[6],ymm0[6],ymm3[7],ymm0[7],ymm3[16],ymm0[16],ymm3[17],ymm0[17],ymm3[18],ymm0[18],ymm3[19],ymm0[19],ymm3[20],ymm0[20],ymm3[21],ymm0[21],ymm3[22],ymm0[22],ymm3[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	Show All 14 Lines
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX512DQVL-NEXT: vpmullw %ymm4, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpmullw %ymm4, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpand %ymm3, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v64i8(<64 x i8> %a0)
	▲ Show 20 Lines • Show All 267 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm3 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpunpckhbw {{.*#+}} xmm1 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm2			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	Show All 32 Lines
	; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX2-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX2-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX2-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX2-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v128i8:			; AVX512BW-LABEL: test_v128i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm3
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BW-NEXT: vpmullw %zmm4, %zmm3, %zmm3
	; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BW-NEXT: vpmullw %zmm4, %zmm3, %zmm3
	; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0
				; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $al killed $al killed $eax			; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v128i8:			; AVX512BWVL-LABEL: test_v128i8:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm3, %zmm2			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vmovdqa64 {{.*#+}} zmm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512BWVL-NEXT: vmovdqa64 {{.*#+}} zmm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm1, %zmm0			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
				; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm3
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm0, %zmm2, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm3
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]
	; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0
				; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v128i8:			; AVX512DQ-LABEL: test_v128i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	Show All 30 Lines
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX512DQ-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512DQ-NEXT: vpand %ymm4, %ymm2, %ymm2			; AVX512DQ-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQ-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512DQ-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQ-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQ-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQ-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	Show All 32 Lines
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]			; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} ymm3 = ymm1[8],ymm0[8],ymm1[9],ymm0[9],ymm1[10],ymm0[10],ymm1[11],ymm0[11],ymm1[12],ymm0[12],ymm1[13],ymm0[13],ymm1[14],ymm0[14],ymm1[15],ymm0[15],ymm1[24],ymm0[24],ymm1[25],ymm0[25],ymm1[26],ymm0[26],ymm1[27],ymm0[27],ymm1[28],ymm0[28],ymm1[29],ymm0[29],ymm1[30],ymm0[30],ymm1[31],ymm0[31]
	; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm2, %ymm2			; AVX512DQVL-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpunpckhbw {{.*#+}} xmm0 = xmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm1, %ymm0			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm0[0],ymm1[1],ymm0[1],ymm1[2],ymm0[2],ymm1[3],ymm0[3],ymm1[4],ymm0[4],ymm1[5],ymm0[5],ymm1[6],ymm0[6],ymm1[7],ymm0[7],ymm1[16],ymm0[16],ymm1[17],ymm0[17],ymm1[18],ymm0[18],ymm1[19],ymm0[19],ymm1[20],ymm0[20],ymm1[21],ymm0[21],ymm1[22],ymm0[22],ymm1[23],ymm0[23]
				; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512DQVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm0, %ymm2, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2			; AVX512DQVL-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]			; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23]
				; AVX512DQVL-NEXT: vpunpcklbw {{.*#+}} ymm2 = ymm2[0],ymm0[0],ymm2[1],ymm0[1],ymm2[2],ymm0[2],ymm2[3],ymm0[3],ymm2[4],ymm0[4],ymm2[5],ymm0[5],ymm2[6],ymm0[6],ymm2[7],ymm0[7],ymm2[16],ymm0[16],ymm2[17],ymm0[17],ymm2[18],ymm0[18],ymm2[19],ymm0[19],ymm2[20],ymm0[20],ymm2[21],ymm0[21],ymm2[22],ymm0[22],ymm2[23],ymm0[23]
	; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512DQVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512DQVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.mul.i8.v128i8(<128 x i8> %a0)
	Show All 28 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-or-widen.ll

	Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: por %xmm0, %xmm1			; SSE-NEXT: por %xmm0, %xmm1
	; SSE-NEXT: movq %xmm1, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	; SSE-LABEL: test_v8i64:			; SSE-LABEL: test_v8i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: por %xmm3, %xmm1			; SSE-NEXT: por %xmm3, %xmm1
	; SSE-NEXT: por %xmm2, %xmm1			; SSE-NEXT: por %xmm2, %xmm1
	; SSE-NEXT: por %xmm0, %xmm1			; SSE-NEXT: por %xmm0, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: por %xmm1, %xmm0			; SSE-NEXT: por %xmm1, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 26 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; SSE-NEXT: por %xmm1, %xmm0			; SSE-NEXT: por %xmm1, %xmm0
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i32:			; AVX1-LABEL: test_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	Show All 10 Lines
	; SSE-NEXT: por %xmm0, %xmm1			; SSE-NEXT: por %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i32:			; AVX1-LABEL: test_v16i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 30 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i32:			; AVX1-LABEL: test_v32i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 135 Lines • ▼ Show 20 Lines
	; SSE-NEXT: por %xmm0, %xmm1			; SSE-NEXT: por %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i16:			; AVX1-LABEL: test_v16i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	Show All 15 Lines
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i16:			; AVX1-LABEL: test_v32i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	Show All 38 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i16:			; AVX1-LABEL: test_v64i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	▲ Show 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pextrb $0, %xmm0, %eax			; SSE41-NEXT: pextrb $0, %xmm0, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i8:			; AVX1-LABEL: test_v32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 37 Lines
	; SSE41-NEXT: pextrb $0, %xmm1, %eax			; SSE41-NEXT: pextrb $0, %xmm1, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i8:			; AVX1-LABEL: test_v64i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i8:			; AVX2-LABEL: test_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v128i8:			; AVX1-LABEL: test_v128i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v128i8:			; AVX2-LABEL: test_v128i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-or.ll

	Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: por %xmm0, %xmm1			; SSE-NEXT: por %xmm0, %xmm1
	; SSE-NEXT: movq %xmm1, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	; SSE-LABEL: test_v8i64:			; SSE-LABEL: test_v8i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: por %xmm3, %xmm1			; SSE-NEXT: por %xmm3, %xmm1
	; SSE-NEXT: por %xmm2, %xmm1			; SSE-NEXT: por %xmm2, %xmm1
	; SSE-NEXT: por %xmm0, %xmm1			; SSE-NEXT: por %xmm0, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: por %xmm1, %xmm0			; SSE-NEXT: por %xmm1, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 26 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; SSE-NEXT: por %xmm1, %xmm0			; SSE-NEXT: por %xmm1, %xmm0
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i32:			; AVX1-LABEL: test_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	Show All 10 Lines
	; SSE-NEXT: por %xmm0, %xmm1			; SSE-NEXT: por %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i32:			; AVX1-LABEL: test_v16i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 30 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i32:			; AVX1-LABEL: test_v32i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	; SSE-NEXT: por %xmm0, %xmm1			; SSE-NEXT: por %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i16:			; AVX1-LABEL: test_v16i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	Show All 15 Lines
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i16:			; AVX1-LABEL: test_v32i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	Show All 38 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i16:			; AVX1-LABEL: test_v64i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	▲ Show 20 Lines • Show All 252 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pextrb $0, %xmm0, %eax			; SSE41-NEXT: pextrb $0, %xmm0, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i8:			; AVX1-LABEL: test_v32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 37 Lines
	; SSE41-NEXT: pextrb $0, %xmm1, %eax			; SSE41-NEXT: pextrb $0, %xmm1, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i8:			; AVX1-LABEL: test_v64i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i8:			; AVX2-LABEL: test_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v128i8:			; AVX1-LABEL: test_v128i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v128i8:			; AVX2-LABEL: test_v128i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-xor-widen.ll

	Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: pxor %xmm0, %xmm1			; SSE-NEXT: pxor %xmm0, %xmm1
	; SSE-NEXT: movq %xmm1, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	; SSE-LABEL: test_v8i64:			; SSE-LABEL: test_v8i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pxor %xmm3, %xmm1			; SSE-NEXT: pxor %xmm3, %xmm1
	; SSE-NEXT: pxor %xmm2, %xmm1			; SSE-NEXT: pxor %xmm2, %xmm1
	; SSE-NEXT: pxor %xmm0, %xmm1			; SSE-NEXT: pxor %xmm0, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: pxor %xmm1, %xmm0			; SSE-NEXT: pxor %xmm1, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 26 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; SSE-NEXT: pxor %xmm1, %xmm0			; SSE-NEXT: pxor %xmm1, %xmm0
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i32:			; AVX1-LABEL: test_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	Show All 10 Lines
	; SSE-NEXT: pxor %xmm0, %xmm1			; SSE-NEXT: pxor %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i32:			; AVX1-LABEL: test_v16i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 30 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i32:			; AVX1-LABEL: test_v32i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 135 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pxor %xmm0, %xmm1			; SSE-NEXT: pxor %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i16:			; AVX1-LABEL: test_v16i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	Show All 15 Lines
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i16:			; AVX1-LABEL: test_v32i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	Show All 38 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i16:			; AVX1-LABEL: test_v64i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	▲ Show 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: pxor %xmm1, %xmm0
	; SSE41-NEXT: pextrb $0, %xmm0, %eax			; SSE41-NEXT: pextrb $0, %xmm0, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i8:			; AVX1-LABEL: test_v32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 37 Lines
	; SSE41-NEXT: pextrb $0, %xmm1, %eax			; SSE41-NEXT: pextrb $0, %xmm1, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i8:			; AVX1-LABEL: test_v64i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i8:			; AVX2-LABEL: test_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v128i8:			; AVX1-LABEL: test_v128i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v128i8:			; AVX2-LABEL: test_v128i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-xor.ll

	Show First 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SSE-NEXT: pxor %xmm0, %xmm1			; SSE-NEXT: pxor %xmm0, %xmm1
	; SSE-NEXT: movq %xmm1, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	; SSE-LABEL: test_v8i64:			; SSE-LABEL: test_v8i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pxor %xmm3, %xmm1			; SSE-NEXT: pxor %xmm3, %xmm1
	; SSE-NEXT: pxor %xmm2, %xmm1			; SSE-NEXT: pxor %xmm2, %xmm1
	; SSE-NEXT: pxor %xmm0, %xmm1			; SSE-NEXT: pxor %xmm0, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: pxor %xmm1, %xmm0			; SSE-NEXT: pxor %xmm1, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 26 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,2,3]
	; SSE-NEXT: pxor %xmm1, %xmm0			; SSE-NEXT: pxor %xmm1, %xmm0
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i32:			; AVX1-LABEL: test_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	Show All 10 Lines
	; SSE-NEXT: pxor %xmm0, %xmm1			; SSE-NEXT: pxor %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i32:			; AVX1-LABEL: test_v16i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	Show All 30 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i32:			; AVX1-LABEL: test_v32i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pxor %xmm0, %xmm1			; SSE-NEXT: pxor %xmm0, %xmm1
	; SSE-NEXT: movd %xmm1, %eax			; SSE-NEXT: movd %xmm1, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i16:			; AVX1-LABEL: test_v16i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	Show All 15 Lines
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i16:			; AVX1-LABEL: test_v32i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	Show All 38 Lines
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i16:			; AVX1-LABEL: test_v64i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	▲ Show 20 Lines • Show All 252 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: pxor %xmm1, %xmm0
	; SSE41-NEXT: pextrb $0, %xmm0, %eax			; SSE41-NEXT: pextrb $0, %xmm0, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v32i8:			; AVX1-LABEL: test_v32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 37 Lines
	; SSE41-NEXT: pextrb $0, %xmm1, %eax			; SSE41-NEXT: pextrb $0, %xmm1, %eax
	; SSE41-NEXT: # kill: def $al killed $al killed $eax			; SSE41-NEXT: # kill: def $al killed $al killed $eax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v64i8:			; AVX1-LABEL: test_v64i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i8:			; AVX2-LABEL: test_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v128i8:			; AVX1-LABEL: test_v128i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v128i8:			; AVX2-LABEL: test_v128i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[x86] narrow a shuffle that doesn't use or set any high elementsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 183543

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

llvm/trunk/test/CodeGen/X86/avg.ll

llvm/trunk/test/CodeGen/X86/avx512-hadd-hsub.ll

llvm/trunk/test/CodeGen/X86/madd.ll

llvm/trunk/test/CodeGen/X86/min-legal-vector-width.ll

llvm/trunk/test/CodeGen/X86/sad.ll

llvm/trunk/test/CodeGen/X86/vector-compare-all_of.ll

llvm/trunk/test/CodeGen/X86/vector-compare-any_of.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-add-widen.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-add.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-and-widen.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-and.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-fadd-fast.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-fmul-fast.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-mul-widen.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-mul.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-or-widen.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-or.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-xor-widen.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-xor.ll

[x86] narrow a shuffle that doesn't use or set any high elements
ClosedPublic