This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombiner] fold extract_subvector of extract_subvector
ClosedPublic

Authored by spatel on Jan 28 2019, 9:13 AM.

Download Raw Diff

Details

Reviewers

RKSimon
craig.topper

Commits

rGa61d586f744d: [DAGCombiner] fold extract_subvector of extract_subvector
rL352528: [DAGCombiner] fold extract_subvector of extract_subvector

Summary

This is the sibling fold for insert-of-insert that was added with D56604.

Now that we have x86 shuffle narrowing (D57156), this change shows improvements for lots of AVX512 reduction code (not sure that we would ever expect extract-of-extract otherwise).

There's a small regression in some of the partial-permute tests (extracting followed by splat). I'll try to reduce that and file a bug.

Diff Detail

Repository: rL LLVM

Event Timeline

spatel created this revision.Jan 28 2019, 9:13 AM

Herald added a subscriber: mcrosier. · View Herald TranscriptJan 28 2019, 9:13 AM

spatel marked an inline comment as done.Jan 28 2019, 10:27 AM

spatel added inline comments.

test/CodeGen/X86/avx512-shuffles/partial_permute.ll
3806–3815 ↗	(On Diff #183882)	See: https://bugs.llvm.org/show_bug.cgi?id=40500

LGTM

This revision is now accepted and ready to land.Jan 29 2019, 8:04 AM

Closed by commit rL352528: [DAGCombiner] fold extract_subvector of extract_subvector (authored by spatel). · Explain WhyJan 29 2019, 11:13 AM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in D57377: [CGP] Add support for sinking operands to their users, if they are free..Jan 30 2019, 8:59 AM

Revision Contents

Path

Size

llvm/

trunk/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

13 lines

test/

CodeGen/

X86/

avx512-hadd-hsub.ll

16 lines

avx512-shuffles/

partial_permute.ll

58 lines

madd.ll

32 lines

min-legal-vector-width.ll

8 lines

sad.ll

24 lines

vector-reduce-add-widen.ll

40 lines

vector-reduce-add.ll

40 lines

vector-reduce-and-widen.ll

40 lines

vector-reduce-and.ll

40 lines

vector-reduce-fadd-fast.ll

24 lines

vector-reduce-fmul-fast.ll

24 lines

vector-reduce-mul-widen.ll

148 lines

vector-reduce-mul.ll

148 lines

vector-reduce-or-widen.ll

40 lines

vector-reduce-or.ll

40 lines

vector-reduce-xor-widen.ll

40 lines

vector-reduce-xor.ll

40 lines

vector-shuffle-512-v16.ll

2 lines

Diff 184133

llvm/trunk/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 17,073 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitEXTRACT_SUBVECTOR(SDNode* N) {
// Extract from UNDEF is UNDEF.		// Extract from UNDEF is UNDEF.
if (V.isUndef())		if (V.isUndef())
return DAG.getUNDEF(NVT);		return DAG.getUNDEF(NVT);

if (TLI.isOperationLegalOrCustomOrPromote(ISD::LOAD, NVT))		if (TLI.isOperationLegalOrCustomOrPromote(ISD::LOAD, NVT))
if (SDValue NarrowLoad = narrowExtractedVectorLoad(N, DAG))		if (SDValue NarrowLoad = narrowExtractedVectorLoad(N, DAG))
return NarrowLoad;		return NarrowLoad;

		// Combine an extract of an extract into a single extract_subvector.
		// ext (ext X, C), 0 --> ext X, C
		if (isNullConstant(N->getOperand(1)) &&
		V.getOpcode() == ISD::EXTRACT_SUBVECTOR && V.hasOneUse() &&
		isa<ConstantSDNode>(V.getOperand(1))) {
		if (TLI.isExtractSubvectorCheap(NVT, V.getOperand(0).getValueType(),
		V.getConstantOperandVal(1)) &&
		TLI.isOperationLegalOrCustom(ISD::EXTRACT_SUBVECTOR, NVT)) {
		return DAG.getNode(ISD::EXTRACT_SUBVECTOR, SDLoc(N), NVT, V.getOperand(0),
		V.getOperand(1));
		}
		}

// Combine:		// Combine:
// (extract_subvec (concat V1, V2, ...), i)		// (extract_subvec (concat V1, V2, ...), i)
// Into:		// Into:
// Vi if possible		// Vi if possible
// Only operand 0 is checked as 'concat' assumes all inputs of the same		// Only operand 0 is checked as 'concat' assumes all inputs of the same
// type.		// type.
if (V.getOpcode() == ISD::CONCAT_VECTORS &&		if (V.getOpcode() == ISD::CONCAT_VECTORS &&
isa<ConstantSDNode>(N->getOperand(1)) &&		isa<ConstantSDNode>(N->getOperand(1)) &&
▲ Show 20 Lines • Show All 2,344 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-hadd-hsub.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=knl \| FileCheck %s --check-prefix=KNL			;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=knl \| FileCheck %s --check-prefix=KNL
	;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skx \| FileCheck %s --check-prefix=SKX			;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skx \| FileCheck %s --check-prefix=SKX

	define i32 @hadd_16(<16 x i32> %x225) {			define i32 @hadd_16(<16 x i32> %x225) {
	; KNL-LABEL: hadd_16:			; KNL-LABEL: hadd_16:
	; KNL: # %bb.0:			; KNL: # %bb.0:
	; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; KNL-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; KNL-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; KNL-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; KNL-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; KNL-NEXT: vmovd %xmm0, %eax			; KNL-NEXT: vmovd %xmm0, %eax
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: hadd_16:			; SKX-LABEL: hadd_16:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SKX-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; SKX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; SKX-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; SKX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; SKX-NEXT: vmovd %xmm0, %eax			; SKX-NEXT: vmovd %xmm0, %eax
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%x226 = shufflevector <16 x i32> %x225, <16 x i32> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x226 = shufflevector <16 x i32> %x225, <16 x i32> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x227 = add <16 x i32> %x225, %x226			%x227 = add <16 x i32> %x225, %x226
	%x228 = shufflevector <16 x i32> %x227, <16 x i32> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <16 x i32> %x227, <16 x i32> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x229 = add <16 x i32> %x227, %x228			%x229 = add <16 x i32> %x227, %x228
	%x230 = extractelement <16 x i32> %x229, i32 0			%x230 = extractelement <16 x i32> %x229, i32 0
	ret i32 %x230			ret i32 %x230
	}			}

	define i32 @hsub_16(<16 x i32> %x225) {			define i32 @hsub_16(<16 x i32> %x225) {
	; KNL-LABEL: hsub_16:			; KNL-LABEL: hsub_16:
	; KNL: # %bb.0:			; KNL: # %bb.0:
	; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; KNL-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; KNL-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; KNL-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; KNL-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; KNL-NEXT: vmovd %xmm0, %eax			; KNL-NEXT: vmovd %xmm0, %eax
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: hsub_16:			; SKX-LABEL: hsub_16:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; SKX-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; SKX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; SKX-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; SKX-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; SKX-NEXT: vmovd %xmm0, %eax			; SKX-NEXT: vmovd %xmm0, %eax
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%x226 = shufflevector <16 x i32> %x225, <16 x i32> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x226 = shufflevector <16 x i32> %x225, <16 x i32> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x227 = add <16 x i32> %x225, %x226			%x227 = add <16 x i32> %x225, %x226
	%x228 = shufflevector <16 x i32> %x227, <16 x i32> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <16 x i32> %x227, <16 x i32> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x229 = sub <16 x i32> %x227, %x228			%x229 = sub <16 x i32> %x227, %x228
	%x230 = extractelement <16 x i32> %x229, i32 0			%x230 = extractelement <16 x i32> %x229, i32 0
	ret i32 %x230			ret i32 %x230
	}			}

	define float @fhadd_16(<16 x float> %x225) {			define float @fhadd_16(<16 x float> %x225) {
	; KNL-LABEL: fhadd_16:			; KNL-LABEL: fhadd_16:
	; KNL: # %bb.0:			; KNL: # %bb.0:
	; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; KNL-NEXT: vaddps %zmm1, %zmm0, %zmm0			; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0			; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: fhadd_16:			; SKX-LABEL: fhadd_16:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; SKX-NEXT: vaddps %zmm1, %zmm0, %zmm0			; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0			; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x227 = fadd <16 x float> %x225, %x226			%x227 = fadd <16 x float> %x225, %x226
	%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x229 = fadd <16 x float> %x227, %x228			%x229 = fadd <16 x float> %x227, %x228
	%x230 = extractelement <16 x float> %x229, i32 0			%x230 = extractelement <16 x float> %x229, i32 0
	ret float %x230			ret float %x230
	}			}

	define float @fhsub_16(<16 x float> %x225) {			define float @fhsub_16(<16 x float> %x225) {
	; KNL-LABEL: fhsub_16:			; KNL-LABEL: fhsub_16:
	; KNL: # %bb.0:			; KNL: # %bb.0:
	; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; KNL-NEXT: vaddps %zmm1, %zmm0, %zmm0			; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; KNL-NEXT: vsubps %xmm1, %xmm0, %xmm0			; KNL-NEXT: vsubps %xmm1, %xmm0, %xmm0
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: fhsub_16:			; SKX-LABEL: fhsub_16:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; SKX-NEXT: vaddps %zmm1, %zmm0, %zmm0			; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SKX-NEXT: vsubps %xmm1, %xmm0, %xmm0			; SKX-NEXT: vsubps %xmm1, %xmm0, %xmm0
	; SKX-NEXT: vzeroupper			; SKX-NEXT: vzeroupper
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x227 = fadd <16 x float> %x225, %x226			%x227 = fadd <16 x float> %x225, %x226
	%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%x229 = fsub <16 x float> %x227, %x228			%x229 = fsub <16 x float> %x227, %x228
	▲ Show 20 Lines • Show All 169 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-shuffles/partial_permute.ll

Show First 20 Lines • Show All 2,167 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 7, i32 6, i32 5, i32 3>		%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 7, i32 6, i32 5, i32 3>
%cmp = icmp eq <4 x i64> %mask, zeroinitializer		%cmp = icmp eq <4 x i64> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> zeroinitializer		%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> zeroinitializer
ret <4 x i64> %res		ret <4 x i64> %res
}		}
define <4 x i64> @test_masked_8xi64_to_4xi64_perm_mask7(<8 x i64> %vec, <4 x i64> %vec2, <4 x i64> %mask) {		define <4 x i64> @test_masked_8xi64_to_4xi64_perm_mask7(<8 x i64> %vec, <4 x i64> %vec2, <4 x i64> %mask) {
; CHECK-LABEL: test_masked_8xi64_to_4xi64_perm_mask7:		; CHECK-LABEL: test_masked_8xi64_to_4xi64_perm_mask7:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm3		; CHECK-NEXT: vextracti32x4 $2, %zmm0, %xmm3
; CHECK-NEXT: vmovdqa {{.*#+}} ymm4 = [2,0,3,4]		; CHECK-NEXT: vpbroadcastq %xmm3, %ymm3
		; CHECK-NEXT: vmovdqa {{.*#+}} ymm4 = [2,0,3,7]
; CHECK-NEXT: vpermi2q %ymm3, %ymm0, %ymm4		; CHECK-NEXT: vpermi2q %ymm3, %ymm0, %ymm4
; CHECK-NEXT: vptestnmq %ymm2, %ymm2, %k1		; CHECK-NEXT: vptestnmq %ymm2, %ymm2, %k1
; CHECK-NEXT: vpblendmq %ymm4, %ymm1, %ymm0 {%k1}		; CHECK-NEXT: vpblendmq %ymm4, %ymm1, %ymm0 {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 2, i32 0, i32 3, i32 4>		%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 2, i32 0, i32 3, i32 4>
%cmp = icmp eq <4 x i64> %mask, zeroinitializer		%cmp = icmp eq <4 x i64> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> %vec2		%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> %vec2
ret <4 x i64> %res		ret <4 x i64> %res
}		}

define <4 x i64> @test_masked_z_8xi64_to_4xi64_perm_mask7(<8 x i64> %vec, <4 x i64> %mask) {		define <4 x i64> @test_masked_z_8xi64_to_4xi64_perm_mask7(<8 x i64> %vec, <4 x i64> %mask) {
; CHECK-LABEL: test_masked_z_8xi64_to_4xi64_perm_mask7:		; CHECK-LABEL: test_masked_z_8xi64_to_4xi64_perm_mask7:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm3		; CHECK-NEXT: vextracti32x4 $2, %zmm0, %xmm2
; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [2,0,3,4]		; CHECK-NEXT: vpbroadcastq %xmm2, %ymm3
		; CHECK-NEXT: vmovdqa {{.*#+}} ymm2 = [2,0,3,7]
; CHECK-NEXT: vptestnmq %ymm1, %ymm1, %k1		; CHECK-NEXT: vptestnmq %ymm1, %ymm1, %k1
; CHECK-NEXT: vpermi2q %ymm3, %ymm0, %ymm2 {%k1} {z}		; CHECK-NEXT: vpermi2q %ymm3, %ymm0, %ymm2 {%k1} {z}
; CHECK-NEXT: vmovdqa %ymm2, %ymm0		; CHECK-NEXT: vmovdqa %ymm2, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 2, i32 0, i32 3, i32 4>		%shuf = shufflevector <8 x i64> %vec, <8 x i64> undef, <4 x i32> <i32 2, i32 0, i32 3, i32 4>
%cmp = icmp eq <4 x i64> %mask, zeroinitializer		%cmp = icmp eq <4 x i64> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> zeroinitializer		%res = select <4 x i1> %cmp, <4 x i64> %shuf, <4 x i64> zeroinitializer
ret <4 x i64> %res		ret <4 x i64> %res
▲ Show 20 Lines • Show All 915 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%shuf = shufflevector <16 x float> %vec, <16 x float> undef, <4 x i32> <i32 4, i32 8, i32 9, i32 10>		%shuf = shufflevector <16 x float> %vec, <16 x float> undef, <4 x i32> <i32 4, i32 8, i32 9, i32 10>
%cmp = fcmp oeq <4 x float> %mask, zeroinitializer		%cmp = fcmp oeq <4 x float> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x float> %shuf, <4 x float> zeroinitializer		%res = select <4 x i1> %cmp, <4 x float> %shuf, <4 x float> zeroinitializer
ret <4 x float> %res		ret <4 x float> %res
}		}
define <4 x float> @test_masked_16xfloat_to_4xfloat_perm_mask1(<16 x float> %vec, <4 x float> %vec2, <4 x float> %mask) {		define <4 x float> @test_masked_16xfloat_to_4xfloat_perm_mask1(<16 x float> %vec, <4 x float> %vec2, <4 x float> %mask) {
; CHECK-LABEL: test_masked_16xfloat_to_4xfloat_perm_mask1:		; CHECK-LABEL: test_masked_16xfloat_to_4xfloat_perm_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextractf64x4 $1, %zmm0, %ymm3		; CHECK-NEXT: vextractf32x4 $2, %zmm0, %xmm3
; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0		; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0
; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,2]		; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,2]
; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm3[0],xmm0[1],xmm3[2],xmm0[3]		; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm3[0],xmm0[1],xmm3[2],xmm0[3]
; CHECK-NEXT: vxorps %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorps %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqps %xmm3, %xmm2, %k1		; CHECK-NEXT: vcmpeqps %xmm3, %xmm2, %k1
; CHECK-NEXT: vblendmps %xmm0, %xmm1, %xmm0 {%k1}		; CHECK-NEXT: vblendmps %xmm0, %xmm1, %xmm0 {%k1}
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <16 x float> %vec, <16 x float> undef, <4 x i32> <i32 8, i32 6, i32 10, i32 6>		%shuf = shufflevector <16 x float> %vec, <16 x float> undef, <4 x i32> <i32 8, i32 6, i32 10, i32 6>
%cmp = fcmp oeq <4 x float> %mask, zeroinitializer		%cmp = fcmp oeq <4 x float> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x float> %shuf, <4 x float> %vec2		%res = select <4 x i1> %cmp, <4 x float> %shuf, <4 x float> %vec2
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_masked_z_16xfloat_to_4xfloat_perm_mask1(<16 x float> %vec, <4 x float> %mask) {		define <4 x float> @test_masked_z_16xfloat_to_4xfloat_perm_mask1(<16 x float> %vec, <4 x float> %mask) {
; CHECK-LABEL: test_masked_z_16xfloat_to_4xfloat_perm_mask1:		; CHECK-LABEL: test_masked_z_16xfloat_to_4xfloat_perm_mask1:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextractf64x4 $1, %zmm0, %ymm2		; CHECK-NEXT: vextractf32x4 $2, %zmm0, %xmm2
; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0		; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm0
; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,2]		; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,2,2,2]
; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm2[0],xmm0[1],xmm2[2],xmm0[3]		; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm2[0],xmm0[1],xmm2[2],xmm0[3]
; CHECK-NEXT: vxorps %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorps %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqps %xmm2, %xmm1, %k1		; CHECK-NEXT: vcmpeqps %xmm2, %xmm1, %k1
; CHECK-NEXT: vmovaps %xmm0, %xmm0 {%k1} {z}		; CHECK-NEXT: vmovaps %xmm0, %xmm0 {%k1} {z}
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
Show All 34 Lines	; CHECK-NEXT: retq
%res = select <4 x i1> %cmp, <4 x float> %shuf, <4 x float> zeroinitializer		%res = select <4 x i1> %cmp, <4 x float> %shuf, <4 x float> zeroinitializer
ret <4 x float> %res		ret <4 x float> %res
}		}
define <4 x float> @test_16xfloat_to_4xfloat_perm_mask3(<16 x float> %vec) {		define <4 x float> @test_16xfloat_to_4xfloat_perm_mask3(<16 x float> %vec) {
; CHECK-LABEL: test_16xfloat_to_4xfloat_perm_mask3:		; CHECK-LABEL: test_16xfloat_to_4xfloat_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]		; CHECK-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
; CHECK-NEXT: vpermps %ymm0, %ymm1, %ymm1		; CHECK-NEXT: vpermps %ymm0, %ymm1, %ymm1
; CHECK-NEXT: vextractf64x4 $1, %zmm0, %ymm0		; CHECK-NEXT: vextractf32x4 $2, %zmm0, %xmm0
; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,1,3,3]		; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,1,3,3]
; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]		; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = shufflevector <16 x float> %vec, <16 x float> undef, <4 x i32> <i32 10, i32 2, i32 11, i32 6>		%res = shufflevector <16 x float> %vec, <16 x float> undef, <4 x i32> <i32 10, i32 2, i32 11, i32 6>
ret <4 x float> %res		ret <4 x float> %res
}		}
define <4 x float> @test_masked_16xfloat_to_4xfloat_perm_mask3(<16 x float> %vec, <4 x float> %vec2, <4 x float> %mask) {		define <4 x float> @test_masked_16xfloat_to_4xfloat_perm_mask3(<16 x float> %vec, <4 x float> %vec2, <4 x float> %mask) {
; CHECK-LABEL: test_masked_16xfloat_to_4xfloat_perm_mask3:		; CHECK-LABEL: test_masked_16xfloat_to_4xfloat_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovaps {{.*#+}} ymm3 = [0,2,4,6,4,6,6,7]		; CHECK-NEXT: vmovaps {{.*#+}} ymm3 = [0,2,4,6,4,6,6,7]
; CHECK-NEXT: vpermps %ymm0, %ymm3, %ymm3		; CHECK-NEXT: vpermps %ymm0, %ymm3, %ymm3
; CHECK-NEXT: vextractf64x4 $1, %zmm0, %ymm0		; CHECK-NEXT: vextractf32x4 $2, %zmm0, %xmm0
; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,1,3,3]		; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,1,3,3]
; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm3[1],xmm0[2],xmm3[3]		; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm3[1],xmm0[2],xmm3[3]
; CHECK-NEXT: vxorps %xmm3, %xmm3, %xmm3		; CHECK-NEXT: vxorps %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vcmpeqps %xmm3, %xmm2, %k1		; CHECK-NEXT: vcmpeqps %xmm3, %xmm2, %k1
; CHECK-NEXT: vblendmps %xmm0, %xmm1, %xmm0 {%k1}		; CHECK-NEXT: vblendmps %xmm0, %xmm1, %xmm0 {%k1}
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <16 x float> %vec, <16 x float> undef, <4 x i32> <i32 10, i32 2, i32 11, i32 6>		%shuf = shufflevector <16 x float> %vec, <16 x float> undef, <4 x i32> <i32 10, i32 2, i32 11, i32 6>
%cmp = fcmp oeq <4 x float> %mask, zeroinitializer		%cmp = fcmp oeq <4 x float> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x float> %shuf, <4 x float> %vec2		%res = select <4 x i1> %cmp, <4 x float> %shuf, <4 x float> %vec2
ret <4 x float> %res		ret <4 x float> %res
}		}

define <4 x float> @test_masked_z_16xfloat_to_4xfloat_perm_mask3(<16 x float> %vec, <4 x float> %mask) {		define <4 x float> @test_masked_z_16xfloat_to_4xfloat_perm_mask3(<16 x float> %vec, <4 x float> %mask) {
; CHECK-LABEL: test_masked_z_16xfloat_to_4xfloat_perm_mask3:		; CHECK-LABEL: test_masked_z_16xfloat_to_4xfloat_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]		; CHECK-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
; CHECK-NEXT: vpermps %ymm0, %ymm2, %ymm2		; CHECK-NEXT: vpermps %ymm0, %ymm2, %ymm2
; CHECK-NEXT: vextractf64x4 $1, %zmm0, %ymm0		; CHECK-NEXT: vextractf32x4 $2, %zmm0, %xmm0
; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,1,3,3]		; CHECK-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[2,1,3,3]
; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]		; CHECK-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3]
; CHECK-NEXT: vxorps %xmm2, %xmm2, %xmm2		; CHECK-NEXT: vxorps %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqps %xmm2, %xmm1, %k1		; CHECK-NEXT: vcmpeqps %xmm2, %xmm1, %k1
; CHECK-NEXT: vmovaps %xmm0, %xmm0 {%k1} {z}		; CHECK-NEXT: vmovaps %xmm0, %xmm0 {%k1} {z}
; CHECK-NEXT: vzeroupper		; CHECK-NEXT: vzeroupper
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <16 x float> %vec, <16 x float> undef, <4 x i32> <i32 10, i32 2, i32 11, i32 6>		%shuf = shufflevector <16 x float> %vec, <16 x float> undef, <4 x i32> <i32 10, i32 2, i32 11, i32 6>
▲ Show 20 Lines • Show All 565 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 2, i32 3, i32 2, i32 0>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 2, i32 3, i32 2, i32 0>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer
ret <4 x double> %res		ret <4 x double> %res
}		}
define <4 x double> @test_8xdouble_to_4xdouble_perm_mask3(<8 x double> %vec) {		define <4 x double> @test_8xdouble_to_4xdouble_perm_mask3(<8 x double> %vec) {
; CHECK-LABEL: test_8xdouble_to_4xdouble_perm_mask3:		; CHECK-LABEL: test_8xdouble_to_4xdouble_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextractf64x4 $1, %zmm0, %ymm2		; CHECK-NEXT: vextractf32x4 $2, %zmm0, %xmm1
; CHECK-NEXT: vmovapd {{.*#+}} ymm1 = [0,2,1,4]		; CHECK-NEXT: vbroadcastsd %xmm1, %ymm2
		; CHECK-NEXT: vmovapd {{.*#+}} ymm1 = [0,2,1,7]
; CHECK-NEXT: vpermi2pd %ymm2, %ymm0, %ymm1		; CHECK-NEXT: vpermi2pd %ymm2, %ymm0, %ymm1
; CHECK-NEXT: vmovapd %ymm1, %ymm0		; CHECK-NEXT: vmovapd %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 0, i32 2, i32 1, i32 4>		%res = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 0, i32 2, i32 1, i32 4>
ret <4 x double> %res		ret <4 x double> %res
}		}
define <4 x double> @test_masked_8xdouble_to_4xdouble_perm_mask3(<8 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {		define <4 x double> @test_masked_8xdouble_to_4xdouble_perm_mask3(<8 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {
; CHECK-LABEL: test_masked_8xdouble_to_4xdouble_perm_mask3:		; CHECK-LABEL: test_masked_8xdouble_to_4xdouble_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextractf64x4 $1, %zmm0, %ymm3		; CHECK-NEXT: vextractf32x4 $2, %zmm0, %xmm3
; CHECK-NEXT: vmovapd {{.*#+}} ymm4 = [0,2,1,4]		; CHECK-NEXT: vbroadcastsd %xmm3, %ymm3
		; CHECK-NEXT: vmovapd {{.*#+}} ymm4 = [0,2,1,7]
; CHECK-NEXT: vpermi2pd %ymm3, %ymm0, %ymm4		; CHECK-NEXT: vpermi2pd %ymm3, %ymm0, %ymm4
; CHECK-NEXT: vxorpd %xmm0, %xmm0, %xmm0		; CHECK-NEXT: vxorpd %xmm0, %xmm0, %xmm0
; CHECK-NEXT: vcmpeqpd %ymm0, %ymm2, %k1		; CHECK-NEXT: vcmpeqpd %ymm0, %ymm2, %k1
; CHECK-NEXT: vblendmpd %ymm4, %ymm1, %ymm0 {%k1}		; CHECK-NEXT: vblendmpd %ymm4, %ymm1, %ymm0 {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 0, i32 2, i32 1, i32 4>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 0, i32 2, i32 1, i32 4>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2
ret <4 x double> %res		ret <4 x double> %res
}		}

define <4 x double> @test_masked_z_8xdouble_to_4xdouble_perm_mask3(<8 x double> %vec, <4 x double> %mask) {		define <4 x double> @test_masked_z_8xdouble_to_4xdouble_perm_mask3(<8 x double> %vec, <4 x double> %mask) {
; CHECK-LABEL: test_masked_z_8xdouble_to_4xdouble_perm_mask3:		; CHECK-LABEL: test_masked_z_8xdouble_to_4xdouble_perm_mask3:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextractf64x4 $1, %zmm0, %ymm3		; CHECK-NEXT: vextractf32x4 $2, %zmm0, %xmm2
; CHECK-NEXT: vmovapd {{.*#+}} ymm2 = [0,2,1,4]		; CHECK-NEXT: vbroadcastsd %xmm2, %ymm3
		; CHECK-NEXT: vmovapd {{.*#+}} ymm2 = [0,2,1,7]
; CHECK-NEXT: vxorpd %xmm4, %xmm4, %xmm4		; CHECK-NEXT: vxorpd %xmm4, %xmm4, %xmm4
; CHECK-NEXT: vcmpeqpd %ymm4, %ymm1, %k1		; CHECK-NEXT: vcmpeqpd %ymm4, %ymm1, %k1
; CHECK-NEXT: vpermi2pd %ymm3, %ymm0, %ymm2 {%k1} {z}		; CHECK-NEXT: vpermi2pd %ymm3, %ymm0, %ymm2 {%k1} {z}
; CHECK-NEXT: vmovapd %ymm2, %ymm0		; CHECK-NEXT: vmovapd %ymm2, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 0, i32 2, i32 1, i32 4>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 0, i32 2, i32 1, i32 4>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer
ret <4 x double> %res		ret <4 x double> %res
}		}
define <4 x double> @test_masked_8xdouble_to_4xdouble_perm_mask4(<8 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {		define <4 x double> @test_masked_8xdouble_to_4xdouble_perm_mask4(<8 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {
; CHECK-LABEL: test_masked_8xdouble_to_4xdouble_perm_mask4:		; CHECK-LABEL: test_masked_8xdouble_to_4xdouble_perm_mask4:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextractf64x4 $1, %zmm0, %ymm3		; CHECK-NEXT: vextractf32x4 $2, %zmm0, %xmm3
; CHECK-NEXT: vmovapd {{.*#+}} ymm4 = [1,1,5,5]		; CHECK-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm0[1],xmm3[1]
; CHECK-NEXT: vpermi2pd %ymm3, %ymm0, %ymm4		; CHECK-NEXT: vxorpd %xmm3, %xmm3, %xmm3
; CHECK-NEXT: vxorpd %xmm0, %xmm0, %xmm0		; CHECK-NEXT: vcmpeqpd %ymm3, %ymm2, %k1
; CHECK-NEXT: vcmpeqpd %ymm0, %ymm2, %k1		; CHECK-NEXT: vpermpd {{.*#+}} ymm1 {%k1} = ymm0[0,0,1,1]
; CHECK-NEXT: vblendmpd %ymm4, %ymm1, %ymm0 {%k1}		; CHECK-NEXT: vmovapd %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 1, i32 1, i32 5, i32 5>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 1, i32 1, i32 5, i32 5>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> %vec2
ret <4 x double> %res		ret <4 x double> %res
}		}

define <4 x double> @test_masked_z_8xdouble_to_4xdouble_perm_mask4(<8 x double> %vec, <4 x double> %mask) {		define <4 x double> @test_masked_z_8xdouble_to_4xdouble_perm_mask4(<8 x double> %vec, <4 x double> %mask) {
; CHECK-LABEL: test_masked_z_8xdouble_to_4xdouble_perm_mask4:		; CHECK-LABEL: test_masked_z_8xdouble_to_4xdouble_perm_mask4:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vextractf64x4 $1, %zmm0, %ymm3		; CHECK-NEXT: vextractf32x4 $2, %zmm0, %xmm2
; CHECK-NEXT: vmovapd {{.*#+}} ymm2 = [1,1,5,5]		; CHECK-NEXT: vunpckhpd {{.*#+}} xmm0 = xmm0[1],xmm2[1]
; CHECK-NEXT: vxorpd %xmm4, %xmm4, %xmm4		; CHECK-NEXT: vxorpd %xmm2, %xmm2, %xmm2
; CHECK-NEXT: vcmpeqpd %ymm4, %ymm1, %k1		; CHECK-NEXT: vcmpeqpd %ymm2, %ymm1, %k1
; CHECK-NEXT: vpermi2pd %ymm3, %ymm0, %ymm2 {%k1} {z}		; CHECK-NEXT: vpermpd {{.*#+}} ymm0 {%k1} {z} = ymm0[0,0,1,1]
; CHECK-NEXT: vmovapd %ymm2, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 1, i32 1, i32 5, i32 5>		%shuf = shufflevector <8 x double> %vec, <8 x double> undef, <4 x i32> <i32 1, i32 1, i32 5, i32 5>
%cmp = fcmp oeq <4 x double> %mask, zeroinitializer		%cmp = fcmp oeq <4 x double> %mask, zeroinitializer
%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer		%res = select <4 x i1> %cmp, <4 x double> %shuf, <4 x double> zeroinitializer
ret <4 x double> %res		ret <4 x double> %res
}		}
define <4 x double> @test_masked_8xdouble_to_4xdouble_perm_mask5(<8 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {		define <4 x double> @test_masked_8xdouble_to_4xdouble_perm_mask5(<8 x double> %vec, <4 x double> %vec2, <4 x double> %mask) {
; CHECK-LABEL: test_masked_8xdouble_to_4xdouble_perm_mask5:		; CHECK-LABEL: test_masked_8xdouble_to_4xdouble_perm_mask5:
▲ Show 20 Lines • Show All 607 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/madd.ll

	Show First 20 Lines • Show All 298 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: addq $16, %rcx			; AVX512-NEXT: addq $16, %rcx
	; AVX512-NEXT: cmpq %rcx, %rax			; AVX512-NEXT: cmpq %rcx, %rax
	; AVX512-NEXT: jne .LBB2_1			; AVX512-NEXT: jne .LBB2_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body
	▲ Show 20 Lines • Show All 174 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: addq $16, %rcx			; AVX512F-NEXT: addq $16, %rcx
	; AVX512F-NEXT: cmpq %rcx, %rax			; AVX512F-NEXT: cmpq %rcx, %rax
	; AVX512F-NEXT: jne .LBB3_1			; AVX512F-NEXT: jne .LBB3_1
	; AVX512F-NEXT: # %bb.2: # %middle.block			; AVX512F-NEXT: # %bb.2: # %middle.block
	; AVX512F-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512F-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: _Z10test_shortPsS_i_1024:			; AVX512BW-LABEL: _Z10test_shortPsS_i_1024:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	Show All 10 Lines
	; AVX512BW-NEXT: addq $16, %rcx			; AVX512BW-NEXT: addq $16, %rcx
	; AVX512BW-NEXT: cmpq %rcx, %rax			; AVX512BW-NEXT: cmpq %rcx, %rax
	; AVX512BW-NEXT: jne .LBB3_1			; AVX512BW-NEXT: jne .LBB3_1
	; AVX512BW-NEXT: # %bb.2: # %middle.block			; AVX512BW-NEXT: # %bb.2: # %middle.block
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body
	▲ Show 20 Lines • Show All 343 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: addq $16, %rcx			; AVX512-NEXT: addq $16, %rcx
	; AVX512-NEXT: cmpq %rcx, %rax			; AVX512-NEXT: cmpq %rcx, %rax
	; AVX512-NEXT: jne .LBB6_1			; AVX512-NEXT: jne .LBB6_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body
	▲ Show 20 Lines • Show All 194 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: addq $32, %rcx			; AVX512F-NEXT: addq $32, %rcx
	; AVX512F-NEXT: cmpq %rcx, %rax			; AVX512F-NEXT: cmpq %rcx, %rax
	; AVX512F-NEXT: jne .LBB7_1			; AVX512F-NEXT: jne .LBB7_1
	; AVX512F-NEXT: # %bb.2: # %middle.block			; AVX512F-NEXT: # %bb.2: # %middle.block
	; AVX512F-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512F-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: _Z9test_charPcS_i_1024:			; AVX512BW-LABEL: _Z9test_charPcS_i_1024:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	Show All 11 Lines
	; AVX512BW-NEXT: addq $32, %rcx			; AVX512BW-NEXT: addq $32, %rcx
	; AVX512BW-NEXT: cmpq %rcx, %rax			; AVX512BW-NEXT: cmpq %rcx, %rax
	; AVX512BW-NEXT: jne .LBB7_1			; AVX512BW-NEXT: jne .LBB7_1
	; AVX512BW-NEXT: # %bb.2: # %middle.block			; AVX512BW-NEXT: # %bb.2: # %middle.block
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body
	▲ Show 20 Lines • Show All 368 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: addq $16, %rcx			; AVX512-NEXT: addq $16, %rcx
	; AVX512-NEXT: cmpq %rcx, %rax			; AVX512-NEXT: cmpq %rcx, %rax
	; AVX512-NEXT: jne .LBB10_1			; AVX512-NEXT: jne .LBB10_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body
	▲ Show 20 Lines • Show All 240 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: addq $16, %rcx			; AVX512-NEXT: addq $16, %rcx
	; AVX512-NEXT: cmpq %rcx, %rax			; AVX512-NEXT: cmpq %rcx, %rax
	; AVX512-NEXT: jne .LBB11_1			; AVX512-NEXT: jne .LBB11_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body
	▲ Show 20 Lines • Show All 935 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/min-legal-vector-width.ll

	Show First 20 Lines • Show All 247 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: addq $32, %rcx			; CHECK-NEXT: addq $32, %rcx
	; CHECK-NEXT: cmpq %rcx, %rax			; CHECK-NEXT: cmpq %rcx, %rax
	; CHECK-NEXT: jne .LBB9_1			; CHECK-NEXT: jne .LBB9_1
	; CHECK-NEXT: # %bb.2: # %middle.block			; CHECK-NEXT: # %bb.2: # %middle.block
	; CHECK-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; CHECK-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body
	▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1			; CHECK-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1
	; CHECK-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; CHECK-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; CHECK-NEXT: addq $4, %rax			; CHECK-NEXT: addq $4, %rax
	; CHECK-NEXT: jne .LBB11_1			; CHECK-NEXT: jne .LBB11_1
	; CHECK-NEXT: # %bb.2: # %middle.block			; CHECK-NEXT: # %bb.2: # %middle.block
	; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	▲ Show 20 Lines • Show All 316 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/sad.ll

	Show First 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1			; AVX512-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: addq $4, %rax			; AVX512-NEXT: addq $4, %rax
	; AVX512-NEXT: jne .LBB0_1			; AVX512-NEXT: jne .LBB0_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	▲ Show 20 Lines • Show All 244 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vpaddd %zmm1, %zmm2, %zmm1			; AVX512-NEXT: vpaddd %zmm1, %zmm2, %zmm1
	; AVX512-NEXT: addq $4, %rax			; AVX512-NEXT: addq $4, %rax
	; AVX512-NEXT: jne .LBB1_1			; AVX512-NEXT: jne .LBB1_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	▲ Show 20 Lines • Show All 596 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: jne .LBB2_1			; AVX512F-NEXT: jne .LBB2_1
	; AVX512F-NEXT: # %bb.2: # %middle.block			; AVX512F-NEXT: # %bb.2: # %middle.block
	; AVX512F-NEXT: vpaddd %zmm2, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm2, %zmm0, %zmm0
	; AVX512F-NEXT: vpaddd %zmm3, %zmm1, %zmm1			; AVX512F-NEXT: vpaddd %zmm3, %zmm1, %zmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: sad_avx64i8:			; AVX512BW-LABEL: sad_avx64i8:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	Show All 10 Lines
	; AVX512BW-NEXT: jne .LBB2_1			; AVX512BW-NEXT: jne .LBB2_1
	; AVX512BW-NEXT: # %bb.2: # %middle.block			; AVX512BW-NEXT: # %bb.2: # %middle.block
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	▲ Show 20 Lines • Show All 438 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovd %eax, %xmm1			; AVX512-NEXT: vmovd %eax, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovdqu (%rdx), %xmm1			; AVX512-NEXT: vmovdqu (%rdx), %xmm1
	; AVX512-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX512-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	bb:			bb:
	%tmp = load <16 x i8>, <16 x i8>* %arg, align 1			%tmp = load <16 x i8>, <16 x i8>* %arg, align 1
	%tmp4 = load <16 x i8>, <16 x i8>* %arg1, align 1			%tmp4 = load <16 x i8>, <16 x i8>* %arg1, align 1
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: vmovdqu (%rdi), %xmm0			; AVX512-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512-NEXT: vmovdqu (%rdx), %xmm1			; AVX512-NEXT: vmovdqu (%rdx), %xmm1
	; AVX512-NEXT: vpsadbw (%rsi), %xmm0, %xmm0			; AVX512-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
	; AVX512-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX512-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	bb:			bb:
	%tmp = load <16 x i8>, <16 x i8>* %arg, align 1			%tmp = load <16 x i8>, <16 x i8>* %arg, align 1
	%tmp4 = load <16 x i8>, <16 x i8>* %arg1, align 1			%tmp4 = load <16 x i8>, <16 x i8>* %arg1, align 1
	Show All 26 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-add-widen.ll

	Show First 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 221 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 375 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	▲ Show 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 27 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-add.ll

	Show First 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 219 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 367 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	▲ Show 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 27 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-and-widen.ll

	Show First 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	Show All 40 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 219 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 373 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 27 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-and.ll

	Show First 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	Show All 40 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 217 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 365 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 27 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-fadd-fast.ll

	Show First 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vaddps %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddps %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	▲ Show 20 Lines • Show All 158 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_zero:			; AVX512-LABEL: test_v16f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	▲ Show 20 Lines • Show All 158 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	Show All 25 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_zero:			; AVX512-LABEL: test_v8f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	Show All 25 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_zero:			; AVX512-LABEL: test_v16f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	Show All 25 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	Show All 9 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-fmul-fast.ll

	Show First 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vmulps %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulps %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	▲ Show 20 Lines • Show All 158 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_zero:			; AVX512-LABEL: test_v16f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	▲ Show 20 Lines • Show All 158 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	Show All 25 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_zero:			; AVX512-LABEL: test_v8f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	Show All 25 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_zero:			; AVX512-LABEL: test_v16f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	Show All 25 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	Show All 9 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-mul-widen.ll

	Show First 20 Lines • Show All 434 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v8i64:			; AVX512DQVL-LABEL: test_v8i64:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovq %xmm0, %rax			; AVX512DQVL-NEXT: vmovq %xmm0, %rax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 304 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v16i64:			; AVX512DQVL-LABEL: test_v16i64:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovq %xmm0, %rax			; AVX512DQVL-NEXT: vmovq %xmm0, %rax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 219 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 221 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v32i16:			; AVX512BW-LABEL: test_v32i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v32i16:			; AVX512BWVL-LABEL: test_v32i16:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovd %xmm0, %eax			; AVX512BWVL-NEXT: vmovd %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v32i16:			; AVX512DQ-LABEL: test_v32i16:
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v64i16:			; AVX512BW-LABEL: test_v64i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v64i16:			; AVX512BWVL-LABEL: test_v64i16:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovd %xmm0, %eax			; AVX512BWVL-NEXT: vmovd %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v64i16:			; AVX512DQ-LABEL: test_v64i16:
	▲ Show 20 Lines • Show All 1,588 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v128i8:			; AVX512BW-LABEL: test_v128i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm3			; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpmullw %zmm4, %zmm3, %zmm3			; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpmullw %zmm4, %zmm3, %zmm3			; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm3			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $al killed $al killed $eax			; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v128i8:			; AVX512BWVL-LABEL: test_v128i8:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vmovdqa64 {{.*#+}} zmm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512BWVL-NEXT: vmovdqa64 {{.*#+}} zmm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm3			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v128i8:			; AVX512DQ-LABEL: test_v128i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	▲ Show 20 Lines • Show All 166 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-mul.ll

	Show First 20 Lines • Show All 434 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v8i64:			; AVX512DQVL-LABEL: test_v8i64:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovq %xmm0, %rax			; AVX512DQVL-NEXT: vmovq %xmm0, %rax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 304 Lines • ▼ Show 20 Lines
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v16i64:			; AVX512DQVL-LABEL: test_v16i64:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovq %xmm0, %rax			; AVX512DQVL-NEXT: vmovq %xmm0, %rax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 212 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 235 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v32i16:			; AVX512BW-LABEL: test_v32i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v32i16:			; AVX512BWVL-LABEL: test_v32i16:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovd %xmm0, %eax			; AVX512BWVL-NEXT: vmovd %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v32i16:			; AVX512DQ-LABEL: test_v32i16:
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v64i16:			; AVX512BW-LABEL: test_v64i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v64i16:			; AVX512BWVL-LABEL: test_v64i16:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovd %xmm0, %eax			; AVX512BWVL-NEXT: vmovd %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v64i16:			; AVX512DQ-LABEL: test_v64i16:
	▲ Show 20 Lines • Show All 1,536 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v128i8:			; AVX512BW-LABEL: test_v128i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm3			; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpmullw %zmm4, %zmm3, %zmm3			; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BW-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BW-NEXT: vpmullw %zmm4, %zmm3, %zmm3			; AVX512BW-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BW-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BW-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm3			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX512BW-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BW-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BW-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BW-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $al killed $al killed $eax			; AVX512BW-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v128i8:			; AVX512BWVL-LABEL: test_v128i8:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vmovdqa64 {{.*#+}} zmm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512BWVL-NEXT: vmovdqa64 {{.*#+}} zmm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm3 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm2 = zmm0[8,8,9,9,10,10,11,11,12,12,13,13,14,14,15,15,24,24,25,25,26,26,27,27,28,28,29,29,30,30,31,31,40,40,41,41,42,42,43,43,44,44,45,45,46,46,47,47,56,56,57,57,58,58,59,59,60,60,61,61,62,62,63,63]
	; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]			; AVX512BWVL-NEXT: vpunpckhbw {{.*#+}} zmm4 = zmm1[8],zmm0[8],zmm1[9],zmm0[9],zmm1[10],zmm0[10],zmm1[11],zmm0[11],zmm1[12],zmm0[12],zmm1[13],zmm0[13],zmm1[14],zmm0[14],zmm1[15],zmm0[15],zmm1[24],zmm0[24],zmm1[25],zmm0[25],zmm1[26],zmm0[26],zmm1[27],zmm0[27],zmm1[28],zmm0[28],zmm1[29],zmm0[29],zmm1[30],zmm0[30],zmm1[31],zmm0[31],zmm1[40],zmm0[40],zmm1[41],zmm0[41],zmm1[42],zmm0[42],zmm1[43],zmm0[43],zmm1[44],zmm0[44],zmm1[45],zmm0[45],zmm1[46],zmm0[46],zmm1[47],zmm0[47],zmm1[56],zmm0[56],zmm1[57],zmm0[57],zmm1[58],zmm0[58],zmm1[59],zmm0[59],zmm1[60],zmm0[60],zmm1[61],zmm0[61],zmm1[62],zmm0[62],zmm1[63],zmm0[63]
	; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpmullw %zmm4, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm3, %zmm3			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm1 = zmm1[0],zmm0[0],zmm1[1],zmm0[1],zmm1[2],zmm0[2],zmm1[3],zmm0[3],zmm1[4],zmm0[4],zmm1[5],zmm0[5],zmm1[6],zmm0[6],zmm1[7],zmm0[7],zmm1[16],zmm0[16],zmm1[17],zmm0[17],zmm1[18],zmm0[18],zmm1[19],zmm0[19],zmm1[20],zmm0[20],zmm1[21],zmm0[21],zmm1[22],zmm0[22],zmm1[23],zmm0[23],zmm1[32],zmm0[32],zmm1[33],zmm0[33],zmm1[34],zmm0[34],zmm1[35],zmm0[35],zmm1[36],zmm0[36],zmm1[37],zmm0[37],zmm1[38],zmm0[38],zmm1[39],zmm0[39],zmm1[48],zmm0[48],zmm1[49],zmm0[49],zmm1[50],zmm0[50],zmm1[51],zmm0[51],zmm1[52],zmm0[52],zmm1[53],zmm0[53],zmm1[54],zmm0[54],zmm1[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512BWVL-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm3			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm3			; AVX512BWVL-NEXT: vpsrlw $8, %xmm0, %xmm2
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm0 = zmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7,16,16,17,17,18,18,19,19,20,20,21,21,22,22,23,23,32,32,33,33,34,34,35,35,36,36,37,37,38,38,39,39,48,48,49,49,50,50,51,51,52,52,53,53,54,54,55,55]
	; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm3 = zmm3[0],zmm0[0],zmm3[1],zmm0[1],zmm3[2],zmm0[2],zmm3[3],zmm0[3],zmm3[4],zmm0[4],zmm3[5],zmm0[5],zmm3[6],zmm0[6],zmm3[7],zmm0[7],zmm3[16],zmm0[16],zmm3[17],zmm0[17],zmm3[18],zmm0[18],zmm3[19],zmm0[19],zmm3[20],zmm0[20],zmm3[21],zmm0[21],zmm3[22],zmm0[22],zmm3[23],zmm0[23],zmm3[32],zmm0[32],zmm3[33],zmm0[33],zmm3[34],zmm0[34],zmm3[35],zmm0[35],zmm3[36],zmm0[36],zmm3[37],zmm0[37],zmm3[38],zmm0[38],zmm3[39],zmm0[39],zmm3[48],zmm0[48],zmm3[49],zmm0[49],zmm3[50],zmm0[50],zmm3[51],zmm0[51],zmm3[52],zmm0[52],zmm3[53],zmm0[53],zmm3[54],zmm0[54],zmm3[55],zmm0[55]			; AVX512BWVL-NEXT: vpunpcklbw {{.*#+}} zmm2 = zmm2[0],zmm0[0],zmm2[1],zmm0[1],zmm2[2],zmm0[2],zmm2[3],zmm0[3],zmm2[4],zmm0[4],zmm2[5],zmm0[5],zmm2[6],zmm0[6],zmm2[7],zmm0[7],zmm2[16],zmm0[16],zmm2[17],zmm0[17],zmm2[18],zmm0[18],zmm2[19],zmm0[19],zmm2[20],zmm0[20],zmm2[21],zmm0[21],zmm2[22],zmm0[22],zmm2[23],zmm0[23],zmm2[32],zmm0[32],zmm2[33],zmm0[33],zmm2[34],zmm0[34],zmm2[35],zmm0[35],zmm2[36],zmm0[36],zmm2[37],zmm0[37],zmm2[38],zmm0[38],zmm2[39],zmm0[39],zmm2[48],zmm0[48],zmm2[49],zmm0[49],zmm2[50],zmm0[50],zmm2[51],zmm0[51],zmm2[52],zmm0[52],zmm2[53],zmm0[53],zmm2[54],zmm0[54],zmm2[55],zmm0[55]
	; AVX512BWVL-NEXT: vpmullw %zmm3, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm2, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpandq %zmm3, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax			; AVX512BWVL-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax			; AVX512BWVL-NEXT: # kill: def $al killed $al killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v128i8:			; AVX512DQ-LABEL: test_v128i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	▲ Show 20 Lines • Show All 166 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-or-widen.ll

	Show First 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	Show All 40 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 219 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 373 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 27 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-or.ll

	Show First 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	Show All 40 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 217 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 365 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 27 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-xor-widen.ll

	Show First 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	Show All 40 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 219 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 373 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 27 Lines

llvm/trunk/test/CodeGen/X86/vector-reduce-xor.ll

	Show First 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	Show All 40 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}
	▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}
	▲ Show 20 Lines • Show All 217 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	▲ Show 20 Lines • Show All 365 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	Show All 27 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-512-v16.ll

Show First 20 Lines • Show All 332 Lines • ▼ Show 20 Lines	; ALL-NEXT: retq
%v2 = shufflevector <16 x float> %v_a, <16 x float> undef, <8 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>		%v2 = shufflevector <16 x float> %v_a, <16 x float> undef, <8 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
ret <8 x float> %v2		ret <8 x float> %v2
}		}

;FIXME: can do better with vcompressp		;FIXME: can do better with vcompressp
define <8 x float> @test_v16f32_0_1_2_3_4_6_7_10 (<16 x float> %v) {		define <8 x float> @test_v16f32_0_1_2_3_4_6_7_10 (<16 x float> %v) {
; ALL-LABEL: test_v16f32_0_1_2_3_4_6_7_10:		; ALL-LABEL: test_v16f32_0_1_2_3_4_6_7_10:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vextractf64x4 $1, %zmm0, %ymm1		; ALL-NEXT: vextractf32x4 $2, %zmm0, %xmm1
; ALL-NEXT: vmovsldup {{.*#+}} xmm1 = xmm1[0,0,2,2]		; ALL-NEXT: vmovsldup {{.*#+}} xmm1 = xmm1[0,0,2,2]
; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1		; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm1
; ALL-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,6,7,u]		; ALL-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,6,7,u]
; ALL-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7]		; ALL-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7]
; ALL-NEXT: retq		; ALL-NEXT: retq
%res = shufflevector <16 x float> %v, <16 x float> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 6, i32 7, i32 10>		%res = shufflevector <16 x float> %v, <16 x float> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 6, i32 7, i32 10>
ret <8 x float> %res		ret <8 x float> %res
}		}
▲ Show 20 Lines • Show All 377 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombiner] fold extract_subvector of extract_subvectorClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 184133

llvm/trunk/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/trunk/test/CodeGen/X86/avx512-hadd-hsub.ll

llvm/trunk/test/CodeGen/X86/avx512-shuffles/partial_permute.ll

llvm/trunk/test/CodeGen/X86/madd.ll

llvm/trunk/test/CodeGen/X86/min-legal-vector-width.ll

llvm/trunk/test/CodeGen/X86/sad.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-add-widen.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-add.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-and-widen.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-and.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-fadd-fast.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-fmul-fast.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-mul-widen.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-mul.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-or-widen.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-or.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-xor-widen.ll

llvm/trunk/test/CodeGen/X86/vector-reduce-xor.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-512-v16.ll

[DAGCombiner] fold extract_subvector of extract_subvector
ClosedPublic