This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombiner] narrow vector binops when extraction is cheap
ClosedPublic

Authored by spatel on Oct 26 2018, 4:26 PM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
efriedma

Commits

rG8b207defeac4: [DAGCombiner] narrow vector binops when extraction is cheap
rL345602: [DAGCombiner] narrow vector binops when extraction is cheap

Summary

Narrowing vector binops came up in the demanded bits discussion in D52912.

I don't think we're going to be able to do this transform in IR as a canonicalization because of the risk of creating unsupported widths for vector ops, but we already have a DAG TLI hook to allow what I was hoping for: isExtractSubvectorCheap(). This is currently enabled for x86, ARM, and AArch64 (although only x86 has existing regression test diffs).

This is artificially limited to not look through bitcasts because there are so many test diffs already, but that's marked with a TODO and is a small follow-up.

Diff Detail

Event Timeline

spatel created this revision.Oct 26 2018, 4:26 PM

Herald added subscribers: kristof.beyls, javed.absar, mcrosier. · View Herald TranscriptOct 26 2018, 4:26 PM

RKSimon added inline comments.Oct 27 2018, 12:02 AM

test/CodeGen/X86/avx2-schedule.ll
238	This needs looking at - its supposed to test the schedule of the vextracti128 rr/mr ops - the add/sub are purely there to keep the correct domain. If all else fails you can convert it to inline asm.

spatel mentioned this in rL345455: [x86] make test immune to improved extraction in D53784; NFC.Oct 27 2018, 9:48 AM

spatel added inline comments.Oct 27 2018, 9:50 AM

test/CodeGen/X86/avx2-schedule.ll
238	Updated here: rL345455

Patch updated:
No code changes; made the avx2-sched.ll test file independent of this patch.

RKSimon added inline comments.Oct 27 2018, 12:21 PM

test/CodeGen/X86/vector-reduce-xor.ll
236	There's still a lot of logic ops happening at full width - is this to do with the bitcasts?

spatel added inline comments.Oct 28 2018, 7:59 AM

test/CodeGen/X86/vector-reduce-xor.ll
236	Yes: t5: v8i32 = xor t2, t30 t24: v4i64 = bitcast t5 t34: v2i64 = extract_subvector t24, Constant:i64<0> ...so we should pick that up in the follow-up, or if we want to go big, I can add those diffs to this patch.

spatel added inline comments.Oct 29 2018, 7:04 AM

test/CodeGen/X86/vector-reduce-xor.ll
236	Looking a bit closer here, the bitcast enhancement is probably not enough. If there are multiple uses of a binop, we have to be careful, or we'll break a single wide op into multiple narrow ops. There are still several patches to go before we get optimal codegen for reductions, so I'd rather not risk it by adding more patterns to this basic patch.

LGTM as a first step

This revision is now accepted and ready to land.Oct 30 2018, 4:41 AM

Closed by commit rL345602: [DAGCombiner] narrow vector binops when extraction is cheap (authored by spatel). · Explain WhyOct 30 2018, 7:17 AM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in D54073: [x86] allow vector load narrowing with multi-use values.Nov 3 2018, 10:26 AM

This change appears to have injected a regression into Halide -- as of this change, we are no longer correctly generating psubusb/psubusw instructions in Halide-generated code.

@steven-johnson do you have an IR test case? There might be some X86 specific change I can make.

spatel mentioned this in rL346595: [x86] allow vector load narrowing with multi-use values.Nov 10 2018, 12:08 PM

spatel mentioned this in D54392: [DAGCombiner] look through bitcasts when trying to narrow vector binops.Nov 11 2018, 8:29 AM

spatel mentioned this in rL347356: [DAGCombiner] look through bitcasts when trying to narrow vector binops.Nov 20 2018, 2:29 PM

spatel mentioned this in D36650: [X86] WIP support narrowing operations when only a subvector is demanded.Jan 9 2019, 9:56 AM

Revision Contents

Path

Size

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

41 lines

test/

CodeGen/

X86/

20 lines

32 lines

6 lines

42 lines

56 lines

avx512-insert-extract.ll

8 lines

avx512-skx-insert-subvec.ll

4 lines

known-signbits-vector.ll

12 lines

madd.ll

36 lines

min-legal-vector-width.ll

8 lines

sad.ll

22 lines

shrink_vmul.ll

4 lines

vec_int_to_fp.ll

36 lines

vector-compare-all_of.ll

16 lines

vector-compare-any_of.ll

16 lines

vector-reduce-add.ll

48 lines

vector-reduce-and.ll

72 lines

vector-reduce-fadd-fast.ll

90 lines

vector-reduce-fmul-fast.ll

90 lines

60 lines

72 lines

72 lines

12 lines

16 lines

Diff 171373

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 16,666 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitCONCAT_VECTORS(SDNode *N) {
}		}

if (SingleSource.getNode())		if (SingleSource.getNode())
return SingleSource;		return SingleSource;

return SDValue();		return SDValue();
}		}

/// If we are extracting a subvector produced by a wide binary operator with at		/// If we are extracting a subvector produced by a wide binary operator try
/// at least one operand that was the result of a vector concatenation, then try		/// to use a narrow binary operator and/or avoid concatenation and extraction.
/// to use the narrow vector operands directly to avoid the concatenation and
/// extraction.
static SDValue narrowExtractedVectorBinOp(SDNode *Extract, SelectionDAG &DAG) {		static SDValue narrowExtractedVectorBinOp(SDNode *Extract, SelectionDAG &DAG) {
// TODO: Refactor with the caller (visitEXTRACT_SUBVECTOR), so we can share		// TODO: Refactor with the caller (visitEXTRACT_SUBVECTOR), so we can share
// some of these bailouts with other transforms.		// some of these bailouts with other transforms.

// The extract index must be a constant, so we can map it to a concat operand.		// The extract index must be a constant, so we can map it to a concat operand.
auto *ExtractIndexC = dyn_cast<ConstantSDNode>(Extract->getOperand(1));		auto *ExtractIndexC = dyn_cast<ConstantSDNode>(Extract->getOperand(1));
if (!ExtractIndexC)		if (!ExtractIndexC)
return SDValue();		return SDValue();

// We are looking for an optionally bitcasted wide vector binary operator		// We are looking for an optionally bitcasted wide vector binary operator
// feeding an extract subvector.		// feeding an extract subvector.
SDValue BinOp = peekThroughBitcasts(Extract->getOperand(0));		SDValue BinOp = peekThroughBitcasts(Extract->getOperand(0));
if (!ISD::isBinaryOp(BinOp.getNode()))		if (!ISD::isBinaryOp(BinOp.getNode()))
return SDValue();		return SDValue();

// The binop must be a vector type, so we can chop it in half.		// The binop must be a vector type, so we can chop it in half.
EVT WideBVT = BinOp.getValueType();		EVT WideBVT = BinOp.getValueType();
if (!WideBVT.isVector())		if (!WideBVT.isVector())
return SDValue();		return SDValue();

		EVT VT = Extract->getValueType(0);
		unsigned NumElems = VT.getVectorNumElements();
		unsigned ExtractIndex = ExtractIndexC->getZExtValue();
		assert(ExtractIndex % NumElems == 0 &&
		"Extract index is not a multiple of the vector length.");
		EVT SrcVT = Extract->getOperand(0).getValueType();
		unsigned NumSrcElems = SrcVT.getVectorNumElements();
		unsigned NarrowingRatio = NumSrcElems / NumElems;

// Bail out if the target does not support a narrower version of the binop.		// Bail out if the target does not support a narrower version of the binop.
unsigned BOpcode = BinOp.getOpcode();		unsigned BOpcode = BinOp.getOpcode();
		unsigned WideNumElts = WideBVT.getVectorNumElements();
EVT NarrowBVT = EVT::getVectorVT(*DAG.getContext(), WideBVT.getScalarType(),		EVT NarrowBVT = EVT::getVectorVT(*DAG.getContext(), WideBVT.getScalarType(),
WideBVT.getVectorNumElements() / 2);		WideNumElts / NarrowingRatio);
const TargetLowering &TLI = DAG.getTargetLoweringInfo();		const TargetLowering &TLI = DAG.getTargetLoweringInfo();
if (!TLI.isOperationLegalOrCustomOrPromote(BOpcode, NarrowBVT))		if (!TLI.isOperationLegalOrCustomOrPromote(BOpcode, NarrowBVT))
return SDValue();		return SDValue();

		// If extraction is cheap, we don't need to look at the binop operands
		// for concat ops. The narrow binop alone makes this transform profitable.
		// TODO: We're not dealing with the bitcasted pattern here. That limitation
		// should be lifted.
		if (Extract->getOperand(0) == BinOp && BinOp.hasOneUse() &&
		TLI.isExtractSubvectorCheap(NarrowBVT, WideBVT, ExtractIndex)) {
		// extract (binop B0, B1), N --> binop (extract B0, N), (extract B1, N)
		SDLoc DL(Extract);
		SDValue X = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, NarrowBVT,
		BinOp.getOperand(0), Extract->getOperand(1));
		SDValue Y = DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, NarrowBVT,
		BinOp.getOperand(1), Extract->getOperand(1));
		return DAG.getNode(BOpcode, DL, NarrowBVT, X, Y,
		BinOp.getNode()->getFlags());
		}

// Only handle the case where we are doubling and then halving. A larger ratio		// Only handle the case where we are doubling and then halving. A larger ratio
// may require more than two narrow binops to replace the wide binop.		// may require more than two narrow binops to replace the wide binop.
EVT VT = Extract->getValueType(0);		if (NarrowingRatio != 2)
unsigned NumElems = VT.getVectorNumElements();
unsigned ExtractIndex = ExtractIndexC->getZExtValue();
assert(ExtractIndex % NumElems == 0 &&
"Extract index is not a multiple of the vector length.");
if (Extract->getOperand(0).getValueSizeInBits() != VT.getSizeInBits() * 2)
return SDValue();		return SDValue();

// TODO: The motivating case for this transform is an x86 AVX1 target. That		// TODO: The motivating case for this transform is an x86 AVX1 target. That
// target has temptingly almost legal versions of bitwise logic ops in 256-bit		// target has temptingly almost legal versions of bitwise logic ops in 256-bit
// flavors, but no other 256-bit integer support. This could be extended to		// flavors, but no other 256-bit integer support. This could be extended to
// handle any binop, but that may require fixing/adding other folds to avoid		// handle any binop, but that may require fixing/adding other folds to avoid
// codegen regressions.		// codegen regressions.
if (BOpcode != ISD::AND && BOpcode != ISD::OR && BOpcode != ISD::XOR)		if (BOpcode != ISD::AND && BOpcode != ISD::OR && BOpcode != ISD::XOR)
▲ Show 20 Lines • Show All 2,344 Lines • Show Last 20 Lines

test/CodeGen/X86/2012-04-26-sdglue.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=core-avx2 \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=core-avx2 \| FileCheck %s

	; rdar://11314175: SD Scheduler, BuildSchedUnits assert:			; rdar://11314175: SD Scheduler, BuildSchedUnits assert:
	; N->getNodeId() == -1 && "Node already inserted!			; N->getNodeId() == -1 && "Node already inserted!

	define void @func(<4 x float> %a, <16 x i8> %b, <16 x i8> %c, <8 x float> %d, <8 x float> %e, <8 x float>* %f) nounwind ssp {			define void @func(<4 x float> %a, <16 x i8> %b, <16 x i8> %c, <8 x float> %d, <8 x float> %e, <8 x float>* %f) nounwind ssp {
	; CHECK-LABEL: func:			; CHECK-LABEL: func:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vmovdqu 0, %xmm3			; CHECK-NEXT: vmovdqu 0, %xmm0
	; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm3, %ymm0			; CHECK-NEXT: vpalignr {{.*#+}} xmm1 = xmm0[4,5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3]
	; CHECK-NEXT: vpalignr {{.*#+}} xmm1 = xmm3[4,5,6,7,8,9,10,11,12,13,14,15],xmm1[0,1,2,3]			; CHECK-NEXT: vxorps %xmm2, %xmm2, %xmm2
	; CHECK-NEXT: vmovdqu 32, %xmm3			; CHECK-NEXT: vmulps %xmm1, %xmm1, %xmm1
	; CHECK-NEXT: vpalignr {{.*#+}} xmm2 = xmm2[4,5,6,7,8,9,10,11,12,13,14,15],xmm3[0,1,2,3]			; CHECK-NEXT: vmulps %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; CHECK-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vmulps %ymm0, %ymm0, %ymm0			; CHECK-NEXT: vaddps %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vmulps %ymm1, %ymm1, %ymm1
	; CHECK-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vaddps %ymm0, %ymm0, %ymm0
	; CHECK-NEXT: vmulps %xmm0, %xmm0, %xmm0			; CHECK-NEXT: vmulps %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vperm2f128 {{.*#+}} ymm0 = zero,zero,ymm0[0,1]			; CHECK-NEXT: vperm2f128 {{.*#+}} ymm0 = zero,zero,ymm0[0,1]
	; CHECK-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; CHECK-NEXT: vaddps %ymm0, %ymm0, %ymm0			; CHECK-NEXT: vaddps %ymm0, %ymm0, %ymm0
	; CHECK-NEXT: vhaddps %ymm4, %ymm0, %ymm0			; CHECK-NEXT: vhaddps %ymm4, %ymm0, %ymm0
	; CHECK-NEXT: vsubps %ymm0, %ymm0, %ymm0			; CHECK-NEXT: vsubps %ymm0, %ymm0, %ymm0
	; CHECK-NEXT: vhaddps %ymm0, %ymm1, %ymm0			; CHECK-NEXT: vhaddps %ymm0, %ymm2, %ymm0
	; CHECK-NEXT: vmovaps %ymm0, (%rdi)			; CHECK-NEXT: vmovaps %ymm0, (%rdi)
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%tmp = load <4 x float>, <4 x float>* null, align 1			%tmp = load <4 x float>, <4 x float>* null, align 1
	%tmp14 = getelementptr <4 x float>, <4 x float>* null, i32 2			%tmp14 = getelementptr <4 x float>, <4 x float>* null, i32 2
	%tmp15 = load <4 x float>, <4 x float>* %tmp14, align 1			%tmp15 = load <4 x float>, <4 x float>* %tmp14, align 1
	%tmp16 = shufflevector <4 x float> %tmp, <4 x float> <float 0.000000e+00, float undef, float undef, float undef>, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 4, i32 4, i32 4>			%tmp16 = shufflevector <4 x float> %tmp, <4 x float> <float 0.000000e+00, float undef, float undef, float undef>, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 4, i32 4, i32 4>
	%tmp17 = call <8 x float> @llvm.x86.avx.vinsertf128.ps.256(<8 x float> %tmp16, <4 x float> %a, i8 1)			%tmp17 = call <8 x float> @llvm.x86.avx.vinsertf128.ps.256(<8 x float> %tmp16, <4 x float> %a, i8 1)
	Show All 26 Lines

test/CodeGen/X86/avx-logic.ll

Show First 20 Lines • Show All 332 Lines • ▼ Show 20 Lines	; INT256-NEXT: retq
%l = and <8 x i32> %a, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>		%l = and <8 x i32> %a, <i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255, i32 255>
%t = add <8 x i32> %l, %z		%t = add <8 x i32> %l, %z
ret <8 x i32> %t		ret <8 x i32> %t
}		}

define <8 x i32> @andn_disguised_i8_elts(<8 x i32> %x, <8 x i32> %y, <8 x i32> %z) {		define <8 x i32> @andn_disguised_i8_elts(<8 x i32> %x, <8 x i32> %y, <8 x i32> %z) {
; AVX1-LABEL: andn_disguised_i8_elts:		; AVX1-LABEL: andn_disguised_i8_elts:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3		; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm3
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vpaddd %xmm3, %xmm4, %xmm3		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0		; AVX1-NEXT: vpaddd %xmm0, %xmm1, %xmm0
; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [255,255,255,255]		; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [255,255,255,255]
; AVX1-NEXT: vpandn %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpandn %xmm1, %xmm0, %xmm0
		; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
		; AVX1-NEXT: vpaddd %xmm4, %xmm0, %xmm0
; AVX1-NEXT: vpandn %xmm1, %xmm3, %xmm1		; AVX1-NEXT: vpandn %xmm1, %xmm3, %xmm1
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3		; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; INT256-LABEL: andn_disguised_i8_elts:		; INT256-LABEL: andn_disguised_i8_elts:
; INT256: # %bb.0:		; INT256: # %bb.0:
; INT256-NEXT: vpaddd %ymm0, %ymm1, %ymm0		; INT256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
; INT256-NEXT: vpandn {{.*}}(%rip), %ymm0, %ymm0		; INT256-NEXT: vpandn {{.*}}(%rip), %ymm0, %ymm0
; INT256-NEXT: vpaddd %ymm2, %ymm0, %ymm0		; INT256-NEXT: vpaddd %ymm2, %ymm0, %ymm0
; INT256-NEXT: retq		; INT256-NEXT: retq
▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines	; INT256-NEXT: retq
ret <8 x i32> %r		ret <8 x i32> %r
}		}

; This is a close call, but we split the 'andn' to reduce the insert/extract.		; This is a close call, but we split the 'andn' to reduce the insert/extract.

define <8 x i32> @andn_variable_mask_operand_concat(<8 x i32> %x, <8 x i32> %y, <8 x i32> %z, <8 x i32> %w) {		define <8 x i32> @andn_variable_mask_operand_concat(<8 x i32> %x, <8 x i32> %y, <8 x i32> %z, <8 x i32> %w) {
; AVX1-LABEL: andn_variable_mask_operand_concat:		; AVX1-LABEL: andn_variable_mask_operand_concat:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm4
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5		; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
; AVX1-NEXT: vpaddd %xmm4, %xmm5, %xmm4		; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpandn %xmm2, %xmm0, %xmm0
; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm1		; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm1
; AVX1-NEXT: vpandn %xmm1, %xmm4, %xmm1		; AVX1-NEXT: vpandn %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm2		; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm1
; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1		; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm0		; AVX1-NEXT: vpandn %xmm2, %xmm4, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm1
		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; INT256-LABEL: andn_variable_mask_operand_concat:		; INT256-LABEL: andn_variable_mask_operand_concat:
; INT256: # %bb.0:		; INT256: # %bb.0:
; INT256-NEXT: vpaddd %ymm1, %ymm0, %ymm0		; INT256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
; INT256-NEXT: vpandn %ymm2, %ymm0, %ymm0		; INT256-NEXT: vpandn %ymm2, %ymm0, %ymm0
; INT256-NEXT: vpaddd %ymm3, %ymm0, %ymm0		; INT256-NEXT: vpaddd %ymm3, %ymm0, %ymm0
; INT256-NEXT: retq		; INT256-NEXT: retq
▲ Show 20 Lines • Show All 152 Lines • Show Last 20 Lines

test/CodeGen/X86/avx-vzeroupper.ll

Show First 20 Lines • Show All 75 Lines • ▼ Show 20 Lines	; BTVER2-NEXT: retq
ret <8 x float> %c		ret <8 x float> %c
}		}

;; Check that vzeroupper is emitted for tail calls.		;; Check that vzeroupper is emitted for tail calls.

define <4 x float> @test02(<8 x float> %a, <8 x float> %b) nounwind {		define <4 x float> @test02(<8 x float> %a, <8 x float> %b) nounwind {
; VZ-LABEL: test02:		; VZ-LABEL: test02:
; VZ: # %bb.0:		; VZ: # %bb.0:
; VZ-NEXT: vaddps %ymm1, %ymm0, %ymm0		; VZ-NEXT: vaddps %xmm1, %xmm0, %xmm0
; VZ-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; VZ-NEXT: vzeroupper		; VZ-NEXT: vzeroupper
; VZ-NEXT: jmp do_sse # TAILCALL		; VZ-NEXT: jmp do_sse # TAILCALL
;		;
; NO-VZ-LABEL: test02:		; NO-VZ-LABEL: test02:
; NO-VZ: # %bb.0:		; NO-VZ: # %bb.0:
; NO-VZ-NEXT: vaddps %ymm1, %ymm0, %ymm0		; NO-VZ-NEXT: vaddps %xmm1, %xmm0, %xmm0
; NO-VZ-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; NO-VZ-NEXT: jmp do_sse # TAILCALL		; NO-VZ-NEXT: jmp do_sse # TAILCALL
%add.i = fadd <8 x float> %a, %b		%add.i = fadd <8 x float> %a, %b
%add.low = call <4 x float> @llvm.x86.avx.vextractf128.ps.256(<8 x float> %add.i, i8 0)		%add.low = call <4 x float> @llvm.x86.avx.vextractf128.ps.256(<8 x float> %add.i, i8 0)
%call3 = tail call <4 x float> @do_sse(<4 x float> %add.low) nounwind		%call3 = tail call <4 x float> @do_sse(<4 x float> %add.low) nounwind
ret <4 x float> %call3		ret <4 x float> %call3
}		}

;; Test the pass convergence and also that vzeroupper is only issued when necessary,		;; Test the pass convergence and also that vzeroupper is only issued when necessary,
▲ Show 20 Lines • Show All 147 Lines • Show Last 20 Lines

test/CodeGen/X86/avx2-schedule.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 168 Lines • ▼ Show 20 Lines	; ZNVER1-NEXT: retq # sched: [1:0.50]
%1 = shufflevector <4 x float> %a0, <4 x float> undef, <8 x i32> zeroinitializer		%1 = shufflevector <4 x float> %a0, <4 x float> undef, <8 x i32> zeroinitializer
%2 = fadd <8 x float> %1, %1		%2 = fadd <8 x float> %1, %1
ret <8 x float> %2		ret <8 x float> %2
}		}

define <4 x i32> @test_extracti128(<8 x i32> %a0, <8 x i32> %a1, <4 x i32> *%a2) {		define <4 x i32> @test_extracti128(<8 x i32> %a0, <8 x i32> %a1, <4 x i32> *%a2) {
; GENERIC-LABEL: test_extracti128:		; GENERIC-LABEL: test_extracti128:
; GENERIC: # %bb.0:		; GENERIC: # %bb.0:
; GENERIC-NEXT: vpaddd %ymm1, %ymm0, %ymm2 # sched: [1:0.50]		; GENERIC-NEXT: vextracti128 $1, %ymm1, %xmm1 # sched: [1:1.00]
; GENERIC-NEXT: vpsubd %ymm1, %ymm0, %ymm0 # sched: [1:0.50]
; GENERIC-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [1:1.00]		; GENERIC-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [1:1.00]
; GENERIC-NEXT: vextracti128 $1, %ymm2, (%rdi) # sched: [1:1.00]		; GENERIC-NEXT: vpaddd %xmm1, %xmm0, %xmm2 # sched: [1:0.50]
		; GENERIC-NEXT: vpsubd %xmm1, %xmm0, %xmm0 # sched: [1:0.50]
		; GENERIC-NEXT: vmovdqa %xmm2, (%rdi) # sched: [1:1.00]
; GENERIC-NEXT: vzeroupper # sched: [100:0.33]		; GENERIC-NEXT: vzeroupper # sched: [100:0.33]
; GENERIC-NEXT: retq # sched: [1:1.00]		; GENERIC-NEXT: retq # sched: [1:1.00]
;		;
; HASWELL-LABEL: test_extracti128:		; HASWELL-LABEL: test_extracti128:
; HASWELL: # %bb.0:		; HASWELL: # %bb.0:
; HASWELL-NEXT: vpaddd %ymm1, %ymm0, %ymm2 # sched: [1:0.50]		; HASWELL-NEXT: vextracti128 $1, %ymm1, %xmm1 # sched: [3:1.00]
; HASWELL-NEXT: vpsubd %ymm1, %ymm0, %ymm0 # sched: [1:0.50]
; HASWELL-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [3:1.00]		; HASWELL-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [3:1.00]
; HASWELL-NEXT: vextracti128 $1, %ymm2, (%rdi) # sched: [1:1.00]		; HASWELL-NEXT: vpaddd %xmm1, %xmm0, %xmm2 # sched: [1:0.50]
		; HASWELL-NEXT: vpsubd %xmm1, %xmm0, %xmm0 # sched: [1:0.50]
		; HASWELL-NEXT: vmovdqa %xmm2, (%rdi) # sched: [1:1.00]
; HASWELL-NEXT: vzeroupper # sched: [4:1.00]		; HASWELL-NEXT: vzeroupper # sched: [4:1.00]
; HASWELL-NEXT: retq # sched: [7:1.00]		; HASWELL-NEXT: retq # sched: [7:1.00]
;		;
; BROADWELL-LABEL: test_extracti128:		; BROADWELL-LABEL: test_extracti128:
; BROADWELL: # %bb.0:		; BROADWELL: # %bb.0:
; BROADWELL-NEXT: vpaddd %ymm1, %ymm0, %ymm2 # sched: [1:0.50]		; BROADWELL-NEXT: vextracti128 $1, %ymm1, %xmm1 # sched: [3:1.00]
; BROADWELL-NEXT: vpsubd %ymm1, %ymm0, %ymm0 # sched: [1:0.50]
; BROADWELL-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [3:1.00]		; BROADWELL-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [3:1.00]
; BROADWELL-NEXT: vextracti128 $1, %ymm2, (%rdi) # sched: [1:1.00]		; BROADWELL-NEXT: vpaddd %xmm1, %xmm0, %xmm2 # sched: [1:0.50]
		; BROADWELL-NEXT: vpsubd %xmm1, %xmm0, %xmm0 # sched: [1:0.50]
		; BROADWELL-NEXT: vmovdqa %xmm2, (%rdi) # sched: [1:1.00]
; BROADWELL-NEXT: vzeroupper # sched: [4:1.00]		; BROADWELL-NEXT: vzeroupper # sched: [4:1.00]
; BROADWELL-NEXT: retq # sched: [7:1.00]		; BROADWELL-NEXT: retq # sched: [7:1.00]
;		;
; SKYLAKE-LABEL: test_extracti128:		; SKYLAKE-LABEL: test_extracti128:
; SKYLAKE: # %bb.0:		; SKYLAKE: # %bb.0:
; SKYLAKE-NEXT: vpaddd %ymm1, %ymm0, %ymm2 # sched: [1:0.33]		; SKYLAKE-NEXT: vextracti128 $1, %ymm1, %xmm1 # sched: [3:1.00]
; SKYLAKE-NEXT: vpsubd %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
; SKYLAKE-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [3:1.00]		; SKYLAKE-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [3:1.00]
; SKYLAKE-NEXT: vextracti128 $1, %ymm2, (%rdi) # sched: [1:1.00]		; SKYLAKE-NEXT: vpaddd %xmm1, %xmm0, %xmm2 # sched: [1:0.33]
		; SKYLAKE-NEXT: vpsubd %xmm1, %xmm0, %xmm0 # sched: [1:0.33]
		; SKYLAKE-NEXT: vmovdqa %xmm2, (%rdi) # sched: [1:1.00]
; SKYLAKE-NEXT: vzeroupper # sched: [4:1.00]		; SKYLAKE-NEXT: vzeroupper # sched: [4:1.00]
; SKYLAKE-NEXT: retq # sched: [7:1.00]		; SKYLAKE-NEXT: retq # sched: [7:1.00]
;		;
; SKX-LABEL: test_extracti128:		; SKX-LABEL: test_extracti128:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpaddd %ymm1, %ymm0, %ymm2 # sched: [1:0.33]		; SKX-NEXT: vextracti128 $1, %ymm1, %xmm1 # sched: [3:1.00]
; SKX-NEXT: vpsubd %ymm1, %ymm0, %ymm0 # sched: [1:0.33]
; SKX-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [3:1.00]		; SKX-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [3:1.00]
; SKX-NEXT: vextracti128 $1, %ymm2, (%rdi) # sched: [1:1.00]		; SKX-NEXT: vpaddd %xmm1, %xmm0, %xmm2 # sched: [1:0.33]
		; SKX-NEXT: vpsubd %xmm1, %xmm0, %xmm0 # sched: [1:0.33]
		; SKX-NEXT: vmovdqa %xmm2, (%rdi) # sched: [1:1.00]
; SKX-NEXT: vzeroupper # sched: [4:1.00]		; SKX-NEXT: vzeroupper # sched: [4:1.00]
; SKX-NEXT: retq # sched: [7:1.00]		; SKX-NEXT: retq # sched: [7:1.00]
;		;
; ZNVER1-LABEL: test_extracti128:		; ZNVER1-LABEL: test_extracti128:
; ZNVER1: # %bb.0:		; ZNVER1: # %bb.0:
; ZNVER1-NEXT: vpaddd %ymm1, %ymm0, %ymm2 # sched: [1:0.25]		; ZNVER1-NEXT: vextracti128 $1, %ymm1, %xmm1 # sched: [2:0.25]
; ZNVER1-NEXT: vpsubd %ymm1, %ymm0, %ymm0 # sched: [1:0.25]
; ZNVER1-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [2:0.25]		; ZNVER1-NEXT: vextracti128 $1, %ymm0, %xmm0 # sched: [2:0.25]
; ZNVER1-NEXT: vextracti128 $1, %ymm2, (%rdi) # sched: [1:0.50]		; ZNVER1-NEXT: vpaddd %xmm1, %xmm0, %xmm2 # sched: [1:0.25]
		; ZNVER1-NEXT: vpsubd %xmm1, %xmm0, %xmm0 # sched: [1:0.25]
		; ZNVER1-NEXT: vmovdqa %xmm2, (%rdi) # sched: [1:0.50]
; ZNVER1-NEXT: vzeroupper # sched: [100:0.25]		; ZNVER1-NEXT: vzeroupper # sched: [100:0.25]
; ZNVER1-NEXT: retq # sched: [1:0.50]		; ZNVER1-NEXT: retq # sched: [1:0.50]
%1 = add <8 x i32> %a0, %a1		%1 = add <8 x i32> %a0, %a1
%2 = sub <8 x i32> %a0, %a1		%2 = sub <8 x i32> %a0, %a1
%3 = shufflevector <8 x i32> %1, <8 x i32> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%3 = shufflevector <8 x i32> %1, <8 x i32> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
%4 = shufflevector <8 x i32> %2, <8 x i32> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%4 = shufflevector <8 x i32> %2, <8 x i32> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
store <4 x i32> %3, <4 x i32> *%a2		store <4 x i32> %3, <4 x i32> *%a2
		RKSimonUnsubmitted Not Done Reply Inline Actions This needs looking at - its supposed to test the schedule of the vextracti128 rr/mr ops - the add/sub are purely there to keep the correct domain. If all else fails you can convert it to inline asm. RKSimon: This needs looking at - its supposed to test the schedule of the vextracti128 rr/mr ops - the…
		spatelAuthorUnsubmitted Not Done Reply Inline Actions Updated here: rL345455 spatel: Updated here: rL345455
ret <4 x i32> %4		ret <4 x i32> %4
}		}

define <2 x double> @test_gatherdpd(<2 x double> %a0, i8* %a1, <4 x i32> %a2, <2 x double> %a3) {		define <2 x double> @test_gatherdpd(<2 x double> %a0, i8* %a1, <4 x i32> %a2, <2 x double> %a3) {
; GENERIC-LABEL: test_gatherdpd:		; GENERIC-LABEL: test_gatherdpd:
; GENERIC: # %bb.0:		; GENERIC: # %bb.0:
; GENERIC-NEXT: vgatherdpd %xmm2, (%rdi,%xmm1,2), %xmm0 # sched: [5:0.50]		; GENERIC-NEXT: vgatherdpd %xmm2, (%rdi,%xmm1,2), %xmm0 # sched: [5:0.50]
; GENERIC-NEXT: retq # sched: [1:1.00]		; GENERIC-NEXT: retq # sched: [1:1.00]
▲ Show 20 Lines • Show All 6,879 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-hadd-hsub.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=knl \| FileCheck %s --check-prefix=KNL		;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=knl \| FileCheck %s --check-prefix=KNL
;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skx \| FileCheck %s --check-prefix=SKX		;RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skx \| FileCheck %s --check-prefix=SKX

define i32 @hadd_16(<16 x i32> %x225) {		define i32 @hadd_16(<16 x i32> %x225) {
; KNL-LABEL: hadd_16:		; KNL-LABEL: hadd_16:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; KNL-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; KNL-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; KNL-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; KNL-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; KNL-NEXT: vmovd %xmm0, %eax		; KNL-NEXT: vmovd %xmm0, %eax
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: hadd_16:		; SKX-LABEL: hadd_16:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SKX-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; SKX-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; SKX-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; SKX-NEXT: vpaddd %xmm1, %xmm0, %xmm0
; SKX-NEXT: vmovd %xmm0, %eax		; SKX-NEXT: vmovd %xmm0, %eax
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x i32> %x225, <16 x i32> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x226 = shufflevector <16 x i32> %x225, <16 x i32> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x227 = add <16 x i32> %x225, %x226		%x227 = add <16 x i32> %x225, %x226
%x228 = shufflevector <16 x i32> %x227, <16 x i32> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x228 = shufflevector <16 x i32> %x227, <16 x i32> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x229 = add <16 x i32> %x227, %x228		%x229 = add <16 x i32> %x227, %x228
%x230 = extractelement <16 x i32> %x229, i32 0		%x230 = extractelement <16 x i32> %x229, i32 0
ret i32 %x230		ret i32 %x230
}		}

define i32 @hsub_16(<16 x i32> %x225) {		define i32 @hsub_16(<16 x i32> %x225) {
; KNL-LABEL: hsub_16:		; KNL-LABEL: hsub_16:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; KNL-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; KNL-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; KNL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; KNL-NEXT: vpsubd %zmm1, %zmm0, %zmm0		; KNL-NEXT: vpsubd %xmm1, %xmm0, %xmm0
; KNL-NEXT: vmovd %xmm0, %eax		; KNL-NEXT: vmovd %xmm0, %eax
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: hsub_16:		; SKX-LABEL: hsub_16:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]		; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
; SKX-NEXT: vpaddd %zmm1, %zmm0, %zmm0		; SKX-NEXT: vpaddd %zmm1, %zmm0, %zmm0
; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]		; SKX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
; SKX-NEXT: vpsubd %zmm1, %zmm0, %zmm0		; SKX-NEXT: vpsubd %xmm1, %xmm0, %xmm0
; SKX-NEXT: vmovd %xmm0, %eax		; SKX-NEXT: vmovd %xmm0, %eax
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x i32> %x225, <16 x i32> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x226 = shufflevector <16 x i32> %x225, <16 x i32> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x227 = add <16 x i32> %x225, %x226		%x227 = add <16 x i32> %x225, %x226
%x228 = shufflevector <16 x i32> %x227, <16 x i32> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x228 = shufflevector <16 x i32> %x227, <16 x i32> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x229 = sub <16 x i32> %x227, %x228		%x229 = sub <16 x i32> %x227, %x228
%x230 = extractelement <16 x i32> %x229, i32 0		%x230 = extractelement <16 x i32> %x229, i32 0
ret i32 %x230		ret i32 %x230
}		}

define float @fhadd_16(<16 x float> %x225) {		define float @fhadd_16(<16 x float> %x225) {
; KNL-LABEL: fhadd_16:		; KNL-LABEL: fhadd_16:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; KNL-NEXT: vaddps %zmm1, %zmm0, %zmm0		; KNL-NEXT: vaddps %zmm1, %zmm0, %zmm0
; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; KNL-NEXT: vaddps %zmm1, %zmm0, %zmm0		; KNL-NEXT: vaddps %xmm1, %xmm0, %xmm0
; KNL-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fhadd_16:		; SKX-LABEL: fhadd_16:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; SKX-NEXT: vaddps %zmm1, %zmm0, %zmm0		; SKX-NEXT: vaddps %zmm1, %zmm0, %zmm0
; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; SKX-NEXT: vaddps %zmm1, %zmm0, %zmm0		; SKX-NEXT: vaddps %xmm1, %xmm0, %xmm0
; SKX-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x227 = fadd <16 x float> %x225, %x226		%x227 = fadd <16 x float> %x225, %x226
%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x229 = fadd <16 x float> %x227, %x228		%x229 = fadd <16 x float> %x227, %x228
%x230 = extractelement <16 x float> %x229, i32 0		%x230 = extractelement <16 x float> %x229, i32 0
ret float %x230		ret float %x230
}		}

define float @fhsub_16(<16 x float> %x225) {		define float @fhsub_16(<16 x float> %x225) {
; KNL-LABEL: fhsub_16:		; KNL-LABEL: fhsub_16:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; KNL-NEXT: vaddps %zmm1, %zmm0, %zmm0		; KNL-NEXT: vaddps %zmm1, %zmm0, %zmm0
; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; KNL-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; KNL-NEXT: vsubps %zmm1, %zmm0, %zmm0		; KNL-NEXT: vsubps %xmm1, %xmm0, %xmm0
; KNL-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fhsub_16:		; SKX-LABEL: fhsub_16:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; SKX-NEXT: vaddps %zmm1, %zmm0, %zmm0		; SKX-NEXT: vaddps %zmm1, %zmm0, %zmm0
; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]		; SKX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
; SKX-NEXT: vsubps %zmm1, %zmm0, %zmm0		; SKX-NEXT: vsubps %xmm1, %xmm0, %xmm0
; SKX-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x226 = shufflevector <16 x float> %x225, <16 x float> undef, <16 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x227 = fadd <16 x float> %x225, %x226		%x227 = fadd <16 x float> %x225, %x226
%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>		%x228 = shufflevector <16 x float> %x227, <16 x float> undef, <16 x i32> <i32 1, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
%x229 = fsub <16 x float> %x227, %x228		%x229 = fsub <16 x float> %x227, %x228
%x230 = extractelement <16 x float> %x229, i32 0		%x230 = extractelement <16 x float> %x229, i32 0
ret float %x230		ret float %x230
▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
ret <8 x double> %x229		ret <8 x double> %x229
}		}

define <4 x double> @fadd_noundef_low(<8 x double> %x225, <8 x double> %x227) {		define <4 x double> @fadd_noundef_low(<8 x double> %x225, <8 x double> %x227) {
; KNL-LABEL: fadd_noundef_low:		; KNL-LABEL: fadd_noundef_low:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]		; KNL-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
; KNL-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]		; KNL-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
; KNL-NEXT: vaddpd %zmm0, %zmm2, %zmm0		; KNL-NEXT: vaddpd %ymm0, %ymm2, %ymm0
; KNL-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fadd_noundef_low:		; SKX-LABEL: fadd_noundef_low:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]		; SKX-NEXT: vunpcklpd {{.*#+}} ymm2 = ymm0[0],ymm1[0],ymm0[2],ymm1[2]
; SKX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]		; SKX-NEXT: vunpckhpd {{.*#+}} ymm0 = ymm0[1],ymm1[1],ymm0[3],ymm1[3]
; SKX-NEXT: vaddpd %zmm0, %zmm2, %zmm0		; SKX-NEXT: vaddpd %ymm0, %ymm2, %ymm0
; SKX-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>		%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>
%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>		%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>
%x229 = fadd <8 x double> %x226, %x228		%x229 = fadd <8 x double> %x226, %x228
%x230 = shufflevector <8 x double> %x229, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>		%x230 = shufflevector <8 x double> %x229, <8 x double> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
ret <4 x double> %x230		ret <4 x double> %x230
}		}

define <4 x double> @fadd_noundef_high(<8 x double> %x225, <8 x double> %x227) {		define <4 x double> @fadd_noundef_high(<8 x double> %x225, <8 x double> %x227) {
; KNL-LABEL: fadd_noundef_high:		; KNL-LABEL: fadd_noundef_high:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vunpcklpd {{.*#+}} zmm2 = zmm0[0],zmm1[0],zmm0[2],zmm1[2],zmm0[4],zmm1[4],zmm0[6],zmm1[6]		; KNL-NEXT: vunpcklpd {{.*#+}} zmm2 = zmm0[0],zmm1[0],zmm0[2],zmm1[2],zmm0[4],zmm1[4],zmm0[6],zmm1[6]
; KNL-NEXT: vunpckhpd {{.*#+}} zmm0 = zmm0[1],zmm1[1],zmm0[3],zmm1[3],zmm0[5],zmm1[5],zmm0[7],zmm1[7]		; KNL-NEXT: vunpckhpd {{.*#+}} zmm0 = zmm0[1],zmm1[1],zmm0[3],zmm1[3],zmm0[5],zmm1[5],zmm0[7],zmm1[7]
; KNL-NEXT: vaddpd %zmm0, %zmm2, %zmm0
; KNL-NEXT: vextractf64x4 $1, %zmm0, %ymm0		; KNL-NEXT: vextractf64x4 $1, %zmm0, %ymm0
		; KNL-NEXT: vextractf64x4 $1, %zmm2, %ymm1
		; KNL-NEXT: vaddpd %ymm0, %ymm1, %ymm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fadd_noundef_high:		; SKX-LABEL: fadd_noundef_high:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vunpcklpd {{.*#+}} zmm2 = zmm0[0],zmm1[0],zmm0[2],zmm1[2],zmm0[4],zmm1[4],zmm0[6],zmm1[6]		; SKX-NEXT: vunpcklpd {{.*#+}} zmm2 = zmm0[0],zmm1[0],zmm0[2],zmm1[2],zmm0[4],zmm1[4],zmm0[6],zmm1[6]
; SKX-NEXT: vunpckhpd {{.*#+}} zmm0 = zmm0[1],zmm1[1],zmm0[3],zmm1[3],zmm0[5],zmm1[5],zmm0[7],zmm1[7]		; SKX-NEXT: vunpckhpd {{.*#+}} zmm0 = zmm0[1],zmm1[1],zmm0[3],zmm1[3],zmm0[5],zmm1[5],zmm0[7],zmm1[7]
; SKX-NEXT: vaddpd %zmm0, %zmm2, %zmm0
; SKX-NEXT: vextractf64x4 $1, %zmm0, %ymm0		; SKX-NEXT: vextractf64x4 $1, %zmm0, %ymm0
		; SKX-NEXT: vextractf64x4 $1, %zmm2, %ymm1
		; SKX-NEXT: vaddpd %ymm0, %ymm1, %ymm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>		%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>
%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>		%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>
%x229 = fadd <8 x double> %x226, %x228		%x229 = fadd <8 x double> %x226, %x228
%x230 = shufflevector <8 x double> %x229, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>		%x230 = shufflevector <8 x double> %x229, <8 x double> undef, <4 x i32> <i32 4, i32 5, i32 6, i32 7>
ret <4 x double> %x230		ret <4 x double> %x230
}		}


define <8 x i32> @hadd_16_3_sv(<16 x i32> %x225, <16 x i32> %x227) {		define <8 x i32> @hadd_16_3_sv(<16 x i32> %x225, <16 x i32> %x227) {
; KNL-LABEL: hadd_16_3_sv:		; KNL-LABEL: hadd_16_3_sv:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]		; KNL-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]
; KNL-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]		; KNL-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]
; KNL-NEXT: vpaddd %zmm0, %zmm2, %zmm0		; KNL-NEXT: vpaddd %ymm0, %ymm2, %ymm0
; KNL-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: hadd_16_3_sv:		; SKX-LABEL: hadd_16_3_sv:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]		; SKX-NEXT: vshufps {{.*#+}} ymm2 = ymm0[0,2],ymm1[0,2],ymm0[4,6],ymm1[4,6]
; SKX-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]		; SKX-NEXT: vshufps {{.*#+}} ymm0 = ymm0[1,3],ymm1[1,3],ymm0[5,7],ymm1[5,7]
; SKX-NEXT: vpaddd %zmm0, %zmm2, %zmm0		; SKX-NEXT: vpaddd %ymm0, %ymm2, %ymm0
; SKX-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 0, i32 2, i32 16, i32 18		%x226 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 0, i32 2, i32 16, i32 18
, i32 4, i32 6, i32 20, i32 22, i32 8, i32 10, i32 24, i32 26, i32 12, i32 14, i32 28, i32 30>		, i32 4, i32 6, i32 20, i32 22, i32 8, i32 10, i32 24, i32 26, i32 12, i32 14, i32 28, i32 30>
%x228 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 1, i32 3, i32 17, i32 19		%x228 = shufflevector <16 x i32> %x225, <16 x i32> %x227, <16 x i32> <i32 1, i32 3, i32 17, i32 19
, i32 5 , i32 7, i32 21, i32 23, i32 9, i32 11, i32 25, i32 27, i32 13, i32 15,		, i32 5 , i32 7, i32 21, i32 23, i32 9, i32 11, i32 25, i32 27, i32 13, i32 15,
i32 29, i32 31>		i32 29, i32 31>
%x229 = add <16 x i32> %x226, %x228		%x229 = add <16 x i32> %x226, %x228
%x230 = shufflevector <16 x i32> %x229, <16 x i32> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4 ,i32 5, i32 6, i32 7>		%x230 = shufflevector <16 x i32> %x229, <16 x i32> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4 ,i32 5, i32 6, i32 7>
ret <8 x i32> %x230		ret <8 x i32> %x230
}		}


define double @fadd_noundef_eel(<8 x double> %x225, <8 x double> %x227) {		define double @fadd_noundef_eel(<8 x double> %x225, <8 x double> %x227) {
; KNL-LABEL: fadd_noundef_eel:		; KNL-LABEL: fadd_noundef_eel:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; KNL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; KNL-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; KNL-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; KNL-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fadd_noundef_eel:		; SKX-LABEL: fadd_noundef_eel:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; SKX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; SKX-NEXT: vaddpd %zmm1, %zmm0, %zmm0		; SKX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
; SKX-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>		%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>
%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>		%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>
%x229 = fadd <8 x double> %x226, %x228		%x229 = fadd <8 x double> %x226, %x228
%x230 = extractelement <8 x double> %x229, i32 0		%x230 = extractelement <8 x double> %x229, i32 0
ret double %x230		ret double %x230
}		}



define double @fsub_noundef_ee (<8 x double> %x225, <8 x double> %x227) {		define double @fsub_noundef_ee (<8 x double> %x225, <8 x double> %x227) {
; KNL-LABEL: fsub_noundef_ee:		; KNL-LABEL: fsub_noundef_ee:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vextractf32x4 $2, %zmm1, %xmm0		; KNL-NEXT: vextractf32x4 $2, %zmm1, %xmm0
; KNL-NEXT: vbroadcastsd %xmm0, %zmm0		; KNL-NEXT: vbroadcastsd %xmm0, %zmm1
; KNL-NEXT: vsubpd %zmm1, %zmm0, %zmm0		; KNL-NEXT: vextractf32x4 $2, %zmm1, %xmm1
; KNL-NEXT: vextractf32x4 $2, %zmm0, %xmm0		; KNL-NEXT: vsubpd %xmm0, %xmm1, %xmm0
; KNL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; KNL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: fsub_noundef_ee:		; SKX-LABEL: fsub_noundef_ee:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vextractf32x4 $2, %zmm1, %xmm0		; SKX-NEXT: vextractf32x4 $2, %zmm1, %xmm0
; SKX-NEXT: vbroadcastsd %xmm0, %zmm0		; SKX-NEXT: vbroadcastsd %xmm0, %zmm1
; SKX-NEXT: vsubpd %zmm1, %zmm0, %zmm0		; SKX-NEXT: vextractf32x4 $2, %zmm1, %xmm1
; SKX-NEXT: vextractf32x4 $2, %zmm0, %xmm0		; SKX-NEXT: vsubpd %xmm0, %xmm1, %xmm0
; SKX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; SKX-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>		%x226 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 0, i32 8, i32 2, i32 10, i32 4, i32 12, i32 6, i32 14>
%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>		%x228 = shufflevector <8 x double> %x225, <8 x double> %x227, <8 x i32> <i32 1, i32 9, i32 3, i32 11, i32 5 ,i32 13, i32 7, i32 15>
%x229 = fsub <8 x double> %x226, %x228		%x229 = fsub <8 x double> %x226, %x228
%x230 = extractelement <8 x double> %x229, i32 5		%x230 = extractelement <8 x double> %x229, i32 5
ret double %x230		ret double %x230
}		}

test/CodeGen/X86/avx512-insert-extract.ll

Show First 20 Lines • Show All 845 Lines • ▼ Show 20 Lines
; SKX-NEXT: cmpl %esi, %edi		; SKX-NEXT: cmpl %esi, %edi
; SKX-NEXT: setb %al		; SKX-NEXT: setb %al
; SKX-NEXT: vpcmpltud %xmm1, %xmm0, %k0		; SKX-NEXT: vpcmpltud %xmm1, %xmm0, %k0
; SKX-NEXT: kshiftrb $2, %k0, %k1		; SKX-NEXT: kshiftrb $2, %k0, %k1
; SKX-NEXT: kmovd %eax, %k2		; SKX-NEXT: kmovd %eax, %k2
; SKX-NEXT: kxorb %k2, %k1, %k1		; SKX-NEXT: kxorb %k2, %k1, %k1
; SKX-NEXT: kshiftlb $7, %k1, %k1		; SKX-NEXT: kshiftlb $7, %k1, %k1
; SKX-NEXT: kshiftrb $5, %k1, %k1		; SKX-NEXT: kshiftrb $5, %k1, %k1
; SKX-NEXT: kxorb %k1, %k0, %k0		; SKX-NEXT: kxorw %k1, %k0, %k0
; SKX-NEXT: kmovd %k0, %eax		; SKX-NEXT: kmovd %k0, %eax
; SKX-NEXT: ## kill: def $al killed $al killed $eax		; SKX-NEXT: ## kill: def $al killed $al killed $eax
; SKX-NEXT: retq		; SKX-NEXT: retq
%cmp_res_i1 = icmp ult i32 %a, %b		%cmp_res_i1 = icmp ult i32 %a, %b
%cmp_cmp_vec = icmp ult <4 x i32> %x, %y		%cmp_cmp_vec = icmp ult <4 x i32> %x, %y
%maskv = insertelement <4 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 2		%maskv = insertelement <4 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 2
%res0 = shufflevector <4 x i1> %maskv, <4 x i1> undef , <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 4, i32 4, i32 4>		%res0 = shufflevector <4 x i1> %maskv, <4 x i1> undef , <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 4, i32 4, i32 4>
%res = bitcast <8 x i1> %res0 to i8		%res = bitcast <8 x i1> %res0 to i8
Show All 22 Lines
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: cmpl %esi, %edi		; SKX-NEXT: cmpl %esi, %edi
; SKX-NEXT: setb %al		; SKX-NEXT: setb %al
; SKX-NEXT: vpcmpltuq %xmm1, %xmm0, %k0		; SKX-NEXT: vpcmpltuq %xmm1, %xmm0, %k0
; SKX-NEXT: kshiftlb $7, %k0, %k0		; SKX-NEXT: kshiftlb $7, %k0, %k0
; SKX-NEXT: kshiftrb $7, %k0, %k0		; SKX-NEXT: kshiftrb $7, %k0, %k0
; SKX-NEXT: kmovd %eax, %k1		; SKX-NEXT: kmovd %eax, %k1
; SKX-NEXT: kshiftlb $1, %k1, %k1		; SKX-NEXT: kshiftlb $1, %k1, %k1
; SKX-NEXT: korb %k1, %k0, %k0		; SKX-NEXT: korw %k1, %k0, %k0
; SKX-NEXT: kmovd %k0, %eax		; SKX-NEXT: kmovd %k0, %eax
; SKX-NEXT: ## kill: def $al killed $al killed $eax		; SKX-NEXT: ## kill: def $al killed $al killed $eax
; SKX-NEXT: retq		; SKX-NEXT: retq
%cmp_res_i1 = icmp ult i32 %a, %b		%cmp_res_i1 = icmp ult i32 %a, %b
%cmp_cmp_vec = icmp ult <2 x i64> %x, %y		%cmp_cmp_vec = icmp ult <2 x i64> %x, %y
%maskv = insertelement <2 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 1		%maskv = insertelement <2 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 1
%res0 = shufflevector <2 x i1> %maskv, <2 x i1> undef , <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2>		%res0 = shufflevector <2 x i1> %maskv, <2 x i1> undef , <8 x i32> <i32 0, i32 1, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2>
%res = bitcast <8 x i1> %res0 to i8		%res = bitcast <8 x i1> %res0 to i8
▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
ret i8 %res		ret i8 %res
}		}

define zeroext i8 @test_extractelement_v64i1(<64 x i8> %a, <64 x i8> %b) {		define zeroext i8 @test_extractelement_v64i1(<64 x i8> %a, <64 x i8> %b) {
; KNL-LABEL: test_extractelement_v64i1:		; KNL-LABEL: test_extractelement_v64i1:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vpminub %ymm3, %ymm1, %ymm0		; KNL-NEXT: vpminub %ymm3, %ymm1, %ymm0
; KNL-NEXT: vpcmpeqb %ymm0, %ymm1, %ymm0		; KNL-NEXT: vpcmpeqb %ymm0, %ymm1, %ymm0
; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0		; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0
		; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: vpmovsxbd %xmm0, %zmm0		; KNL-NEXT: vpmovsxbd %xmm0, %zmm0
; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0		; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0
; KNL-NEXT: kshiftrw $15, %k0, %k0		; KNL-NEXT: kshiftrw $15, %k0, %k0
; KNL-NEXT: kmovw %k0, %eax		; KNL-NEXT: kmovw %k0, %eax
; KNL-NEXT: andb $1, %al		; KNL-NEXT: andb $1, %al
; KNL-NEXT: movb $4, %cl		; KNL-NEXT: movb $4, %cl
; KNL-NEXT: subb %al, %cl		; KNL-NEXT: subb %al, %cl
; KNL-NEXT: movzbl %cl, %eax		; KNL-NEXT: movzbl %cl, %eax
Show All 17 Lines	; SKX-NEXT: retq
ret i8 %res		ret i8 %res
}		}

define zeroext i8 @extractelement_v64i1_alt(<64 x i8> %a, <64 x i8> %b) {		define zeroext i8 @extractelement_v64i1_alt(<64 x i8> %a, <64 x i8> %b) {
; KNL-LABEL: extractelement_v64i1_alt:		; KNL-LABEL: extractelement_v64i1_alt:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vpminub %ymm3, %ymm1, %ymm0		; KNL-NEXT: vpminub %ymm3, %ymm1, %ymm0
; KNL-NEXT: vpcmpeqb %ymm0, %ymm1, %ymm0		; KNL-NEXT: vpcmpeqb %ymm0, %ymm1, %ymm0
; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0		; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0
		; KNL-NEXT: vpternlogq $15, %zmm0, %zmm0, %zmm0
; KNL-NEXT: vpmovsxbd %xmm0, %zmm0		; KNL-NEXT: vpmovsxbd %xmm0, %zmm0
; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0		; KNL-NEXT: vptestmd %zmm0, %zmm0, %k0
; KNL-NEXT: kshiftrw $15, %k0, %k0		; KNL-NEXT: kshiftrw $15, %k0, %k0
; KNL-NEXT: kmovw %k0, %eax		; KNL-NEXT: kmovw %k0, %eax
; KNL-NEXT: andb $1, %al		; KNL-NEXT: andb $1, %al
; KNL-NEXT: movb $4, %cl		; KNL-NEXT: movb $4, %cl
; KNL-NEXT: subb %al, %cl		; KNL-NEXT: subb %al, %cl
; KNL-NEXT: movzbl %cl, %eax		; KNL-NEXT: movzbl %cl, %eax
▲ Show 20 Lines • Show All 1,209 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-skx-insert-subvec.ll

	Show First 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	define <4 x i1> @test5(<2 x i1> %a, <2 x i1>%b) {			define <4 x i1> @test5(<2 x i1> %a, <2 x i1>%b) {
	; CHECK-LABEL: test5:			; CHECK-LABEL: test5:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpsllq $63, %xmm1, %xmm1			; CHECK-NEXT: vpsllq $63, %xmm1, %xmm1
	; CHECK-NEXT: vpmovq2m %xmm1, %k0			; CHECK-NEXT: vpmovq2m %xmm1, %k0
	; CHECK-NEXT: vpsllq $63, %xmm0, %xmm0			; CHECK-NEXT: vpsllq $63, %xmm0, %xmm0
	; CHECK-NEXT: vpmovq2m %xmm0, %k1			; CHECK-NEXT: vpmovq2m %xmm0, %k1
	; CHECK-NEXT: kshiftlb $2, %k0, %k0			; CHECK-NEXT: kshiftlb $2, %k0, %k0
	; CHECK-NEXT: korb %k0, %k1, %k0			; CHECK-NEXT: korw %k0, %k1, %k0
	; CHECK-NEXT: vpmovm2d %k0, %xmm0			; CHECK-NEXT: vpmovm2d %k0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq

	%res = shufflevector <2 x i1> %a, <2 x i1> %b, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%res = shufflevector <2 x i1> %a, <2 x i1> %b, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	ret <4 x i1> %res			ret <4 x i1> %res
	}			}

	define <16 x i1> @test6(<2 x i1> %a, <2 x i1>%b) {			define <16 x i1> @test6(<2 x i1> %a, <2 x i1>%b) {
	; CHECK-LABEL: test6:			; CHECK-LABEL: test6:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpsllq $63, %xmm1, %xmm1			; CHECK-NEXT: vpsllq $63, %xmm1, %xmm1
	; CHECK-NEXT: vpmovq2m %xmm1, %k0			; CHECK-NEXT: vpmovq2m %xmm1, %k0
	; CHECK-NEXT: vpsllq $63, %xmm0, %xmm0			; CHECK-NEXT: vpsllq $63, %xmm0, %xmm0
	; CHECK-NEXT: vpmovq2m %xmm0, %k1			; CHECK-NEXT: vpmovq2m %xmm0, %k1
	; CHECK-NEXT: kshiftlb $2, %k0, %k0			; CHECK-NEXT: kshiftlb $2, %k0, %k0
	; CHECK-NEXT: korb %k0, %k1, %k0			; CHECK-NEXT: korw %k0, %k1, %k0
	; CHECK-NEXT: vpmovm2b %k0, %xmm0			; CHECK-NEXT: vpmovm2b %k0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq

	%res = shufflevector <2 x i1> %a, <2 x i1> %b, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%res = shufflevector <2 x i1> %a, <2 x i1> %b, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <16 x i1> %res			ret <16 x i1> %res
	}			}

	define <32 x i1> @test7(<4 x i1> %a, <4 x i1>%b) {			define <32 x i1> @test7(<4 x i1> %a, <4 x i1>%b) {
	▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

test/CodeGen/X86/known-signbits-vector.ll

Show First 20 Lines • Show All 234 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%2 = shufflevector <4 x i64> %1, <4 x i64>%a1, <4 x i32> <i32 3, i32 2, i32 1, i32 0>		%2 = shufflevector <4 x i64> %1, <4 x i64>%a1, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
%3 = sitofp <4 x i64> %2 to <4 x double>		%3 = sitofp <4 x i64> %2 to <4 x double>
ret <4 x double> %3		ret <4 x double> %3
}		}

define <2 x double> @signbits_ashr_concat_ashr_extract_sitofp(<2 x i64> %a0, <4 x i64> %a1) nounwind {		define <2 x double> @signbits_ashr_concat_ashr_extract_sitofp(<2 x i64> %a0, <4 x i64> %a1) nounwind {
; X32-LABEL: signbits_ashr_concat_ashr_extract_sitofp:		; X32-LABEL: signbits_ashr_concat_ashr_extract_sitofp:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: vpsrad $16, %xmm0, %xmm1		; X32-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
; X32-NEXT: vpsrlq $16, %xmm0, %xmm0
; X32-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
; X32-NEXT: vpsrlq $16, %xmm0, %xmm0
; X32-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X32-NEXT: vcvtdq2pd %xmm0, %xmm0		; X32-NEXT: vcvtdq2pd %xmm0, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: signbits_ashr_concat_ashr_extract_sitofp:		; X64-LABEL: signbits_ashr_concat_ashr_extract_sitofp:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: vpsrad $16, %xmm0, %xmm1		; X64-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[1,3,2,3]
; X64-NEXT: vpsrlq $16, %xmm0, %xmm0
; X64-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
; X64-NEXT: vpsrlq $16, %xmm0, %xmm0
; X64-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
; X64-NEXT: vcvtdq2pd %xmm0, %xmm0		; X64-NEXT: vcvtdq2pd %xmm0, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%1 = ashr <2 x i64> %a0, <i64 16, i64 16>		%1 = ashr <2 x i64> %a0, <i64 16, i64 16>
%2 = shufflevector <2 x i64> %1, <2 x i64> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>		%2 = shufflevector <2 x i64> %1, <2 x i64> undef, <4 x i32> <i32 0, i32 1, i32 undef, i32 undef>
%3 = shufflevector <4 x i64> %a1, <4 x i64> %2, <4 x i32> <i32 0, i32 1, i32 4, i32 5>		%3 = shufflevector <4 x i64> %a1, <4 x i64> %2, <4 x i32> <i32 0, i32 1, i32 4, i32 5>
%4 = ashr <4 x i64> %3, <i64 16, i64 16, i64 16, i64 16>		%4 = ashr <4 x i64> %3, <i64 16, i64 16, i64 16, i64 16>
%5 = shufflevector <4 x i64> %4, <4 x i64> undef, <2 x i32> <i32 2, i32 3>		%5 = shufflevector <4 x i64> %4, <4 x i64> undef, <2 x i32> <i32 2, i32 3>
%6 = sitofp <2 x i64> %5 to <2 x double>		%6 = sitofp <2 x i64> %5 to <2 x double>
▲ Show 20 Lines • Show All 191 Lines • Show Last 20 Lines

test/CodeGen/X86/madd.ll

	Show First 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	; AVX256-NEXT: cmpq %rcx, %rax			; AVX256-NEXT: cmpq %rcx, %rax
	; AVX256-NEXT: jne .LBB1_1			; AVX256-NEXT: jne .LBB1_1
	; AVX256-NEXT: # %bb.2: # %middle.block			; AVX256-NEXT: # %bb.2: # %middle.block
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: jne .LBB2_1			; AVX2-NEXT: jne .LBB2_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: _Z10test_shortPsS_i_512:			; AVX512-LABEL: _Z10test_shortPsS_i_512:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: movl %edx, %eax			; AVX512-NEXT: movl %edx, %eax
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 10 Lines
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: _Z10test_shortPsS_i_1024:			; AVX512F-LABEL: _Z10test_shortPsS_i_1024:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: movl %edx, %eax			; AVX512F-NEXT: movl %edx, %eax
	; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 15 Lines
	; AVX512F-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512F-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: _Z10test_shortPsS_i_1024:			; AVX512BW-LABEL: _Z10test_shortPsS_i_1024:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	; AVX512BW-NEXT: movl %edx, %eax			; AVX512BW-NEXT: movl %edx, %eax
	; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 12 Lines
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 185 Lines • ▼ Show 20 Lines
	; AVX256-NEXT: cmpq %rcx, %rax			; AVX256-NEXT: cmpq %rcx, %rax
	; AVX256-NEXT: jne .LBB5_1			; AVX256-NEXT: jne .LBB5_1
	; AVX256-NEXT: # %bb.2: # %middle.block			; AVX256-NEXT: # %bb.2: # %middle.block
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: jne .LBB6_1			; AVX2-NEXT: jne .LBB6_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: _Z9test_charPcS_i_512:			; AVX512-LABEL: _Z9test_charPcS_i_512:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: movl %edx, %eax			; AVX512-NEXT: movl %edx, %eax
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 11 Lines
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 167 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: _Z9test_charPcS_i_1024:			; AVX512F-LABEL: _Z9test_charPcS_i_1024:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: movl %edx, %eax			; AVX512F-NEXT: movl %edx, %eax
	; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 17 Lines
	; AVX512F-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512F-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: _Z9test_charPcS_i_1024:			; AVX512BW-LABEL: _Z9test_charPcS_i_1024:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	; AVX512BW-NEXT: movl %edx, %eax			; AVX512BW-NEXT: movl %edx, %eax
	; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 13 Lines
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 187 Lines • ▼ Show 20 Lines
	; AVX256-NEXT: cmpq %rcx, %rax			; AVX256-NEXT: cmpq %rcx, %rax
	; AVX256-NEXT: jne .LBB9_1			; AVX256-NEXT: jne .LBB9_1
	; AVX256-NEXT: # %bb.2: # %middle.block			; AVX256-NEXT: # %bb.2: # %middle.block
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: jne .LBB10_1			; AVX2-NEXT: jne .LBB10_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_unsigned_short_512:			; AVX512-LABEL: test_unsigned_short_512:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: movl %edx, %eax			; AVX512-NEXT: movl %edx, %eax
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 11 Lines
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_unsigned_short_1024:			; AVX512-LABEL: test_unsigned_short_1024:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: movl %edx, %eax			; AVX512-NEXT: movl %edx, %eax
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	Show All 17 Lines
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 916 Lines • ▼ Show 20 Lines
	; AVX256-NEXT: vpmaddwd (%rsi), %xmm0, %xmm0			; AVX256-NEXT: vpmaddwd (%rsi), %xmm0, %xmm0
	; AVX256-NEXT: vpmaddwd (%rcx), %xmm1, %xmm1			; AVX256-NEXT: vpmaddwd (%rcx), %xmm1, %xmm1
	; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX256-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX256-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX256-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX256-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX256-NEXT: vmovd %xmm0, %eax			; AVX256-NEXT: vmovd %xmm0, %eax
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	%tmp = load <8 x i16>, <8 x i16>* %arg, align 1			%tmp = load <8 x i16>, <8 x i16>* %arg, align 1
	%tmp6 = load <8 x i16>, <8 x i16>* %arg1, align 1			%tmp6 = load <8 x i16>, <8 x i16>* %arg1, align 1
	%tmp7 = sext <8 x i16> %tmp to <8 x i32>			%tmp7 = sext <8 x i16> %tmp to <8 x i32>
	%tmp17 = sext <8 x i16> %tmp6 to <8 x i32>			%tmp17 = sext <8 x i16> %tmp6 to <8 x i32>
	%tmp19 = mul nsw <8 x i32> %tmp7, %tmp17			%tmp19 = mul nsw <8 x i32> %tmp7, %tmp17
	Show All 15 Lines

test/CodeGen/X86/min-legal-vector-width.ll

	Show First 20 Lines • Show All 185 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; CHECK-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; CHECK-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; CHECK-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%3 = zext i32 %2 to i64			%3 = zext i32 %2 to i64
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: jne .LBB10_1			; CHECK-NEXT: jne .LBB10_1
	; CHECK-NEXT: # %bb.2: # %middle.block			; CHECK-NEXT: # %bb.2: # %middle.block
	; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; CHECK-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; CHECK-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: # %bb.2: # %middle.block			; CHECK-NEXT: # %bb.2: # %middle.block
	; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; CHECK-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; CHECK-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; CHECK-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; CHECK-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vmovd %xmm0, %eax			; CHECK-NEXT: vmovd %xmm0, %eax
	; CHECK-NEXT: vzeroupper			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	▲ Show 20 Lines • Show All 254 Lines • Show Last 20 Lines

test/CodeGen/X86/sad.ll

	Show First 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: jne .LBB0_1			; AVX2-NEXT: jne .LBB0_1
	; AVX2-NEXT: # %bb.2: # %middle.block			; AVX2-NEXT: # %bb.2: # %middle.block
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_16i8:			; AVX512-LABEL: sad_16i8:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512-NEXT: movq $-1024, %rax # imm = 0xFC00
	; AVX512-NEXT: .p2align 4, 0x90			; AVX512-NEXT: .p2align 4, 0x90
	; AVX512-NEXT: .LBB0_1: # %vector.body			; AVX512-NEXT: .LBB0_1: # %vector.body
	; AVX512-NEXT: # =>This Inner Loop Header: Depth=1			; AVX512-NEXT: # =>This Inner Loop Header: Depth=1
	; AVX512-NEXT: vmovdqu a+1024(%rax), %xmm1			; AVX512-NEXT: vmovdqu a+1024(%rax), %xmm1
	; AVX512-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1			; AVX512-NEXT: vpsadbw b+1024(%rax), %xmm1, %xmm1
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: addq $4, %rax			; AVX512-NEXT: addq $4, %rax
	; AVX512-NEXT: jne .LBB0_1			; AVX512-NEXT: jne .LBB0_1
	; AVX512-NEXT: # %bb.2: # %middle.block			; AVX512-NEXT: # %bb.2: # %middle.block
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	▲ Show 20 Lines • Show All 223 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm0, %ymm0
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_32i8:			; AVX512-LABEL: sad_32i8:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512-NEXT: movq $-1024, %rax # imm = 0xFC00
	Show All 10 Lines
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	▲ Show 20 Lines • Show All 550 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddd %ymm5, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm5, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: sad_avx64i8:			; AVX512F-LABEL: sad_avx64i8:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512F-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512F-NEXT: movq $-1024, %rax # imm = 0xFC00
	Show All 31 Lines
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512F-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512F-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512F-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: sad_avx64i8:			; AVX512BW-LABEL: sad_avx64i8:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0			; AVX512BW-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00			; AVX512BW-NEXT: movq $-1024, %rax # imm = 0xFC00
	Show All 12 Lines
	; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body:			vector.body:
	%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i64 [ 0, %entry ], [ %index.next, %vector.body ]
	▲ Show 20 Lines • Show All 421 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vmovdqu (%rdx), %xmm1			; AVX2-NEXT: vmovdqu (%rdx), %xmm1
	; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_unroll_nonzero_initial:			; AVX512-LABEL: sad_unroll_nonzero_initial:
	; AVX512: # %bb.0: # %bb			; AVX512: # %bb.0: # %bb
	; AVX512-NEXT: vmovdqu (%rdi), %xmm0			; AVX512-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512-NEXT: vpsadbw (%rsi), %xmm0, %xmm0			; AVX512-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
	; AVX512-NEXT: movl $1, %eax			; AVX512-NEXT: movl $1, %eax
	; AVX512-NEXT: vmovd %eax, %xmm1			; AVX512-NEXT: vmovd %eax, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovdqu (%rdx), %xmm1			; AVX512-NEXT: vmovdqu (%rdx), %xmm1
	; AVX512-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX512-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	bb:			bb:
	%tmp = load <16 x i8>, <16 x i8>* %arg, align 1			%tmp = load <16 x i8>, <16 x i8>* %arg, align 1
	%tmp4 = load <16 x i8>, <16 x i8>* %arg1, align 1			%tmp4 = load <16 x i8>, <16 x i8>* %arg1, align 1
	%tmp5 = zext <16 x i8> %tmp to <16 x i32>			%tmp5 = zext <16 x i8> %tmp to <16 x i32>
	%tmp6 = zext <16 x i8> %tmp4 to <16 x i32>			%tmp6 = zext <16 x i8> %tmp4 to <16 x i32>
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpsadbw (%rsi), %xmm0, %xmm0			; AVX2-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
	; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX2-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpaddd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: sad_double_reduction:			; AVX512-LABEL: sad_double_reduction:
	; AVX512: # %bb.0: # %bb			; AVX512: # %bb.0: # %bb
	; AVX512-NEXT: vmovdqu (%rdi), %xmm0			; AVX512-NEXT: vmovdqu (%rdi), %xmm0
	; AVX512-NEXT: vmovdqu (%rdx), %xmm1			; AVX512-NEXT: vmovdqu (%rdx), %xmm1
	; AVX512-NEXT: vpsadbw (%rsi), %xmm0, %xmm0			; AVX512-NEXT: vpsadbw (%rsi), %xmm0, %xmm0
	; AVX512-NEXT: vpsadbw (%rcx), %xmm1, %xmm1			; AVX512-NEXT: vpsadbw (%rcx), %xmm1, %xmm1
	; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vpaddd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	bb:			bb:
	%tmp = load <16 x i8>, <16 x i8>* %arg, align 1			%tmp = load <16 x i8>, <16 x i8>* %arg, align 1
	%tmp4 = load <16 x i8>, <16 x i8>* %arg1, align 1			%tmp4 = load <16 x i8>, <16 x i8>* %arg1, align 1
	%tmp5 = zext <16 x i8> %tmp to <16 x i32>			%tmp5 = zext <16 x i8> %tmp to <16 x i32>
	%tmp6 = zext <16 x i8> %tmp4 to <16 x i32>			%tmp6 = zext <16 x i8> %tmp4 to <16 x i32>
	Show All 24 Lines

test/CodeGen/X86/shrink_vmul.ll

	Show First 20 Lines • Show All 2,469 Lines • ▼ Show 20 Lines
	; X86-AVX2-NEXT: vmovd %xmm0, %eax			; X86-AVX2-NEXT: vmovd %xmm0, %eax
	; X86-AVX2-NEXT: xorl %edx, %edx			; X86-AVX2-NEXT: xorl %edx, %edx
	; X86-AVX2-NEXT: divl 32(%esi)			; X86-AVX2-NEXT: divl 32(%esi)
	; X86-AVX2-NEXT: vmovd %edx, %xmm0			; X86-AVX2-NEXT: vmovd %edx, %xmm0
	; X86-AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [8199,8199,8199,8199,8199,8199,8199,8199]			; X86-AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [8199,8199,8199,8199,8199,8199,8199,8199]
	; X86-AVX2-NEXT: vpmulld %ymm2, %ymm1, %ymm1			; X86-AVX2-NEXT: vpmulld %ymm2, %ymm1, %ymm1
	; X86-AVX2-NEXT: movl $8199, %eax # imm = 0x2007			; X86-AVX2-NEXT: movl $8199, %eax # imm = 0x2007
	; X86-AVX2-NEXT: vmovd %eax, %xmm2			; X86-AVX2-NEXT: vmovd %eax, %xmm2
	; X86-AVX2-NEXT: vpmulld %ymm2, %ymm0, %ymm0			; X86-AVX2-NEXT: vpmulld %xmm2, %xmm0, %xmm0
	; X86-AVX2-NEXT: vmovd %xmm0, (%eax)			; X86-AVX2-NEXT: vmovd %xmm0, (%eax)
	; X86-AVX2-NEXT: vmovdqa %ymm1, (%eax)			; X86-AVX2-NEXT: vmovdqa %ymm1, (%eax)
	; X86-AVX2-NEXT: popl %esi			; X86-AVX2-NEXT: popl %esi
	; X86-AVX2-NEXT: .cfi_def_cfa_offset 8			; X86-AVX2-NEXT: .cfi_def_cfa_offset 8
	; X86-AVX2-NEXT: popl %edi			; X86-AVX2-NEXT: popl %edi
	; X86-AVX2-NEXT: .cfi_def_cfa_offset 4			; X86-AVX2-NEXT: .cfi_def_cfa_offset 4
	; X86-AVX2-NEXT: vzeroupper			; X86-AVX2-NEXT: vzeroupper
	; X86-AVX2-NEXT: retl			; X86-AVX2-NEXT: retl
	▲ Show 20 Lines • Show All 231 Lines • ▼ Show 20 Lines
	; X64-AVX2-NEXT: vmovd %xmm0, %eax			; X64-AVX2-NEXT: vmovd %xmm0, %eax
	; X64-AVX2-NEXT: xorl %edx, %edx			; X64-AVX2-NEXT: xorl %edx, %edx
	; X64-AVX2-NEXT: divl 32(%rsi)			; X64-AVX2-NEXT: divl 32(%rsi)
	; X64-AVX2-NEXT: vmovd %edx, %xmm0			; X64-AVX2-NEXT: vmovd %edx, %xmm0
	; X64-AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [8199,8199,8199,8199,8199,8199,8199,8199]			; X64-AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [8199,8199,8199,8199,8199,8199,8199,8199]
	; X64-AVX2-NEXT: vpmulld %ymm2, %ymm1, %ymm1			; X64-AVX2-NEXT: vpmulld %ymm2, %ymm1, %ymm1
	; X64-AVX2-NEXT: movl $8199, %eax # imm = 0x2007			; X64-AVX2-NEXT: movl $8199, %eax # imm = 0x2007
	; X64-AVX2-NEXT: vmovd %eax, %xmm2			; X64-AVX2-NEXT: vmovd %eax, %xmm2
	; X64-AVX2-NEXT: vpmulld %ymm2, %ymm0, %ymm0			; X64-AVX2-NEXT: vpmulld %xmm2, %xmm0, %xmm0
	; X64-AVX2-NEXT: vmovd %xmm0, (%rax)			; X64-AVX2-NEXT: vmovd %xmm0, (%rax)
	; X64-AVX2-NEXT: vmovdqa %ymm1, (%rax)			; X64-AVX2-NEXT: vmovdqa %ymm1, (%rax)
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	%a0 = load <9 x i16>, <9 x i16>* %p0, align 64			%a0 = load <9 x i16>, <9 x i16>* %p0, align 64
	%a1 = load <9 x i32>, <9 x i32>* %p1, align 64			%a1 = load <9 x i32>, <9 x i32>* %p1, align 64
	%ext0 = zext <9 x i16> %a0 to <9 x i32>			%ext0 = zext <9 x i16> %a0 to <9 x i32>
	%rem = urem <9 x i32> %ext0, %a1			%rem = urem <9 x i32> %ext0, %a1
	%mul = mul <9 x i32> <i32 8199, i32 8199, i32 8199, i32 8199, i32 8199, i32 8199, i32 8199, i32 8199, i32 8199>, %rem			%mul = mul <9 x i32> <i32 8199, i32 8199, i32 8199, i32 8199, i32 8199, i32 8199, i32 8199, i32 8199, i32 8199>, %rem
	store <9 x i32> %mul, <9 x i32>* undef, align 64			store <9 x i32> %mul, <9 x i32>* undef, align 64
	ret void			ret void
	}			}

test/CodeGen/X86/vec_int_to_fp.ll

	Show First 20 Lines • Show All 657 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
	; SSE41-NEXT: cvtdq2pd %xmm1, %xmm1			; SSE41-NEXT: cvtdq2pd %xmm1, %xmm1
	; SSE41-NEXT: psrld $16, %xmm0			; SSE41-NEXT: psrld $16, %xmm0
	; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0			; SSE41-NEXT: cvtdq2pd %xmm0, %xmm0
	; SSE41-NEXT: mulpd {{.*}}(%rip), %xmm0			; SSE41-NEXT: mulpd {{.*}}(%rip), %xmm0
	; SSE41-NEXT: addpd %xmm1, %xmm0			; SSE41-NEXT: addpd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: uitofp_4i32_to_2f64:			; VEX-LABEL: uitofp_4i32_to_2f64:
	; AVX1: # %bb.0:			; VEX: # %bb.0:
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; VEX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]			; VEX-NEXT: vpblendw {{.*#+}} xmm1 = xmm0[0],xmm1[1],xmm0[2],xmm1[3],xmm0[4],xmm1[5],xmm0[6],xmm1[7]
	; AVX1-NEXT: vcvtdq2pd %xmm1, %ymm1			; VEX-NEXT: vpsrld $16, %xmm0, %xmm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm0			; VEX-NEXT: vcvtdq2pd %xmm1, %xmm1
	; AVX1-NEXT: vcvtdq2pd %xmm0, %ymm0			; VEX-NEXT: vcvtdq2pd %xmm0, %xmm0
	; AVX1-NEXT: vmulpd {{.*}}(%rip), %ymm0, %ymm0			; VEX-NEXT: vmulpd {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; VEX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; VEX-NEXT: retq
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq
	;
	; AVX2-LABEL: uitofp_4i32_to_2f64:
	; AVX2: # %bb.0:
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vcvtdq2pd %xmm1, %ymm1
	; AVX2-NEXT: vbroadcastsd {{.*#+}} ymm2 = [65536,65536,65536,65536]
	; AVX2-NEXT: vmulpd %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vxorpd %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
	; AVX2-NEXT: vcvtdq2pd %xmm0, %ymm0
	; AVX2-NEXT: vaddpd %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: uitofp_4i32_to_2f64:			; AVX512F-LABEL: uitofp_4i32_to_2f64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $ymm0
	; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0			; AVX512F-NEXT: vcvtudq2pd %ymm0, %zmm0
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	▲ Show 20 Lines • Show All 5,142 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-compare-all_of.ll

	Show First 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_sext:			; AVX512-LABEL: test_v4f64_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vandpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vandpd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vandpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vandpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = fcmp ogt <4 x double> %a0, %a1			%c = fcmp ogt <4 x double> %a0, %a1
	%s = sext <4 x i1> %c to <4 x i64>			%s = sext <4 x i1> %c to <4 x i64>
	%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%2 = and <4 x i64> %s, %1			%2 = and <4 x i64> %s, %1
	%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; AVX512-LABEL: test_v8f32_sext:			; AVX512-LABEL: test_v8f32_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vcmpltps %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vcmpltps %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = fcmp ogt <8 x float> %a0, %a1			%c = fcmp ogt <8 x float> %a0, %a1
	%s = sext <8 x i1> %c to <8 x i32>			%s = sext <8 x i1> %c to <8 x i32>
	%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = and <8 x i32> %s, %1			%2 = and <8 x i32> %s, %1
	%3 = shufflevector <8 x i32> %2, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%3 = shufflevector <8 x i32> %2, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64_sext:			; AVX512-LABEL: test_v4i64_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <4 x i64> %a0, %a1			%c = icmp sgt <4 x i64> %a0, %a1
	%s = sext <4 x i1> %c to <4 x i64>			%s = sext <4 x i1> %c to <4 x i64>
	%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%2 = and <4 x i64> %s, %1			%2 = and <4 x i64> %s, %1
	%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; AVX512-LABEL: test_v8i32_sext:			; AVX512-LABEL: test_v8i32_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <8 x i32> %a0, %a1			%c = icmp sgt <8 x i32> %a0, %a1
	%s = sext <8 x i1> %c to <8 x i32>			%s = sext <8 x i1> %c to <8 x i32>
	%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = and <8 x i32> %s, %1			%2 = and <8 x i32> %s, %1
	%3 = shufflevector <8 x i32> %2, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%3 = shufflevector <8 x i32> %2, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 141 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16_sext:			; AVX2-LABEL: test_v16i16_sext:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0
	Show All 10 Lines
	; AVX512-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <16 x i16> %a0, %a1			%c = icmp sgt <16 x i16> %a0, %a1
	%s = sext <16 x i1> %c to <16 x i16>			%s = sext <16 x i1> %c to <16 x i16>
	%1 = shufflevector <16 x i16> %s, <16 x i16> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <16 x i16> %s, <16 x i16> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = and <16 x i16> %s, %1			%2 = and <16 x i16> %s, %1
	▲ Show 20 Lines • Show All 158 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8_sext:			; AVX2-LABEL: test_v32i8_sext:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0
	Show All 12 Lines
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <32 x i8> %a0, %a1			%c = icmp sgt <32 x i8> %a0, %a1
	%s = sext <32 x i1> %c to <32 x i8>			%s = sext <32 x i1> %c to <32 x i8>
	%1 = shufflevector <32 x i8> %s, <32 x i8> undef, <32 x i32> <i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <32 x i8> %s, <32 x i8> undef, <32 x i32> <i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = and <32 x i8> %s, %1			%2 = and <32 x i8> %s, %1
	Show All 11 Lines

test/CodeGen/X86/vector-compare-any_of.ll

	Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_sext:			; AVX512-LABEL: test_v4f64_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vcmpltpd %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vorpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vorpd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vorpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vorpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = fcmp ogt <4 x double> %a0, %a1			%c = fcmp ogt <4 x double> %a0, %a1
	%s = sext <4 x i1> %c to <4 x i64>			%s = sext <4 x i1> %c to <4 x i64>
	%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%2 = or <4 x i64> %s, %1			%2 = or <4 x i64> %s, %1
	%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; AVX512-LABEL: test_v8f32_sext:			; AVX512-LABEL: test_v8f32_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vcmpltps %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vcmpltps %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = fcmp ogt <8 x float> %a0, %a1			%c = fcmp ogt <8 x float> %a0, %a1
	%s = sext <8 x i1> %c to <8 x i32>			%s = sext <8 x i1> %c to <8 x i32>
	%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = or <8 x i32> %s, %1			%2 = or <8 x i32> %s, %1
	%3 = shufflevector <8 x i32> %2, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%3 = shufflevector <8 x i32> %2, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64_sext:			; AVX512-LABEL: test_v4i64_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <4 x i64> %a0, %a1			%c = icmp sgt <4 x i64> %a0, %a1
	%s = sext <4 x i1> %c to <4 x i64>			%s = sext <4 x i1> %c to <4 x i64>
	%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>			%1 = shufflevector <4 x i64> %s, <4 x i64> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
	%2 = or <4 x i64> %s, %1			%2 = or <4 x i64> %s, %1
	%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>			%3 = shufflevector <4 x i64> %2, <4 x i64> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	; AVX512-LABEL: test_v8i32_sext:			; AVX512-LABEL: test_v8i32_sext:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpgtd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <8 x i32> %a0, %a1			%c = icmp sgt <8 x i32> %a0, %a1
	%s = sext <8 x i1> %c to <8 x i32>			%s = sext <8 x i1> %c to <8 x i32>
	%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <8 x i32> %s, <8 x i32> undef, <8 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = or <8 x i32> %s, %1			%2 = or <8 x i32> %s, %1
	%3 = shufflevector <8 x i32> %2, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%3 = shufflevector <8 x i32> %2, <8 x i32> undef, <8 x i32> <i32 2, i32 3, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	▲ Show 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpgtw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vorps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16_sext:			; AVX2-LABEL: test_v16i16_sext:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0
	Show All 9 Lines
	; AVX512-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpcmpgtw %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <16 x i16> %a0, %a1			%c = icmp sgt <16 x i16> %a0, %a1
	%s = sext <16 x i1> %c to <16 x i16>			%s = sext <16 x i1> %c to <16 x i16>
	%1 = shufflevector <16 x i16> %s, <16 x i16> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <16 x i16> %s, <16 x i16> undef, <16 x i32> <i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = or <16 x i16> %s, %1			%2 = or <16 x i16> %s, %1
	▲ Show 20 Lines • Show All 146 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vorps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8_sext:			; AVX2-LABEL: test_v32i8_sext:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpcmpgtb %ymm1, %ymm0, %ymm0
	Show All 11 Lines
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%c = icmp sgt <32 x i8> %a0, %a1			%c = icmp sgt <32 x i8> %a0, %a1
	%s = sext <32 x i1> %c to <32 x i8>			%s = sext <32 x i1> %c to <32 x i8>
	%1 = shufflevector <32 x i8> %s, <32 x i8> undef, <32 x i32> <i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%1 = shufflevector <32 x i8> %s, <32 x i8> undef, <32 x i32> <i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%2 = or <32 x i8> %s, %1			%2 = or <32 x i8> %s, %1
	Show All 11 Lines

test/CodeGen/X86/vector-reduce-add.ll

	Show First 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	Show All 21 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v16i64(<16 x i64> %a0) {			define i64 @test_v16i64(<16 x i64> %a0) {
	Show All 33 Lines
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddq %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddq %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddq %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.add.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v16i32(<16 x i32> %a0) {			define i32 @test_v16i32(<16 x i32> %a0) {
	Show All 27 Lines
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v32i32(<32 x i32> %a0) {			define i32 @test_v32i32(<32 x i32> %a0) {
	Show All 39 Lines
	; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpaddd %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.add.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	Show All 37 Lines
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddw %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.add.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.add.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	Show All 19 Lines

test/CodeGen/X86/vector-reduce-and.ll

	Show First 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movq %xmm1, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	; SSE-LABEL: test_v8i64:			; SSE-LABEL: test_v8i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pand %xmm3, %xmm1			; SSE-NEXT: pand %xmm3, %xmm1
	; SSE-NEXT: pand %xmm2, %xmm1			; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: pand %xmm0, %xmm1			; SSE-NEXT: pand %xmm0, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: pand %xmm1, %xmm0			; SSE-NEXT: pand %xmm1, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v16i64(<16 x i64> %a0) {			define i64 @test_v16i64(<16 x i64> %a0) {
	Show All 14 Lines
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.and.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	;			;
	; AVX1-LABEL: test_v8i32:			; AVX1-LABEL: test_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v16i32(<16 x i32> %a0) {			define i32 @test_v16i32(<16 x i32> %a0) {
	Show All 12 Lines
	; AVX1-LABEL: test_v16i32:			; AVX1-LABEL: test_v16i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v32i32(<32 x i32> %a0) {			define i32 @test_v32i32(<32 x i32> %a0) {
	Show All 18 Lines
	; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vandps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.and.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	Show All 19 Lines
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	Show All 25 Lines
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.and.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i8:			; AVX2-LABEL: test_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v128i8:			; AVX2-LABEL: test_v128i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.and.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	Show All 19 Lines

test/CodeGen/X86/vector-reduce-fadd-fast.ll

	Show First 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vaddps %ymm0, %ymm1, %ymm0			; AVX-NEXT: vaddps %ymm0, %ymm1, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vaddps %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vaddps %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	Show All 24 Lines
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm0			; AVX-NEXT: vaddps %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vaddps %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddps %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (zero)			; vXf32 (zero)
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	;			;
	; AVX-LABEL: test_v8f32_zero:			; AVX-LABEL: test_v8f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_zero:			; AVX512-LABEL: test_v8f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float 0.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	Show All 25 Lines
	; AVX-LABEL: test_v16f32_zero:			; AVX-LABEL: test_v16f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_zero:			; AVX512-LABEL: test_v16f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float 0.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	;			;
	; AVX-LABEL: test_v8f32_undef:			; AVX-LABEL: test_v8f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	Show All 25 Lines
	; AVX-LABEL: test_v16f32_undef:			; AVX-LABEL: test_v16f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vaddps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vaddps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	Show All 31 Lines
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vaddpd %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm4, %xmm2			; SSE-NEXT: addpd %xmm4, %xmm2
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm1			; SSE-NEXT: addpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	Show All 13 Lines
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm4, %ymm2, %ymm0			; AVX-NEXT: vaddpd %ymm4, %ymm2, %ymm0
	; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vaddpd %ymm0, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vaddpd %zmm2, %zmm1, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (zero)			; vXf64 (zero)
	Show All 33 Lines
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_zero:			; AVX-LABEL: test_v4f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double 0.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_zero:			; AVX-LABEL: test_v8f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_zero:			; AVX512-LABEL: test_v8f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double 0.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	Show All 13 Lines
	; AVX-LABEL: test_v16f64_zero:			; AVX-LABEL: test_v16f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_zero:			; AVX512-LABEL: test_v16f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double 0.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	Show All 33 Lines
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_undef:			; AVX-LABEL: test_v4f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: addpd %xmm3, %xmm1			; SSE-NEXT: addpd %xmm3, %xmm1
	; SSE-NEXT: addpd %xmm2, %xmm0			; SSE-NEXT: addpd %xmm2, %xmm0
	; SSE-NEXT: addpd %xmm1, %xmm0			; SSE-NEXT: addpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: addpd %xmm0, %xmm1			; SSE-NEXT: addpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_undef:			; AVX-LABEL: test_v8f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	Show All 13 Lines
	; AVX-LABEL: test_v16f64_undef:			; AVX-LABEL: test_v16f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vaddpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vaddpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vaddpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.fadd.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.fadd.f64.f64.v16f64(double, <16 x double>)

test/CodeGen/X86/vector-reduce-fmul-fast.ll

	Show First 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	;			;
	; AVX-LABEL: test_v8f32:			; AVX-LABEL: test_v8f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vmulps %ymm0, %ymm1, %ymm0			; AVX-NEXT: vmulps %ymm0, %ymm1, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32:			; AVX512-LABEL: test_v8f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vmulps %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vmulps %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float %a0, <8 x float> %a1)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32(float %a0, <16 x float> %a1) {			define float @test_v16f32(float %a0, <16 x float> %a1) {
	; SSE2-LABEL: test_v16f32:			; SSE2-LABEL: test_v16f32:
	Show All 24 Lines
	; AVX-LABEL: test_v16f32:			; AVX-LABEL: test_v16f32:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm0			; AVX-NEXT: vmulps %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32:			; AVX512-LABEL: test_v16f32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vmulps %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulps %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float %a0, <16 x float> %a1)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (one)			; vXf32 (one)
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	;			;
	; AVX-LABEL: test_v8f32_zero:			; AVX-LABEL: test_v8f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_zero:			; AVX512-LABEL: test_v8f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float 1.0, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_zero(<16 x float> %a0) {			define float @test_v16f32_zero(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_zero:			; SSE2-LABEL: test_v16f32_zero:
	Show All 25 Lines
	; AVX-LABEL: test_v16f32_zero:			; AVX-LABEL: test_v16f32_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_zero:			; AVX512-LABEL: test_v16f32_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float 1.0, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf32 (undef)			; vXf32 (undef)
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	;			;
	; AVX-LABEL: test_v8f32_undef:			; AVX-LABEL: test_v8f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f32_undef:			; AVX512-LABEL: test_v8f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float undef, <8 x float> %a0)
	ret float %1			ret float %1
	}			}

	define float @test_v16f32_undef(<16 x float> %a0) {			define float @test_v16f32_undef(<16 x float> %a0) {
	; SSE2-LABEL: test_v16f32_undef:			; SSE2-LABEL: test_v16f32_undef:
	Show All 25 Lines
	; AVX-LABEL: test_v16f32_undef:			; AVX-LABEL: test_v16f32_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX-NEXT: vmulps %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f32_undef:			; AVX512-LABEL: test_v16f32_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]			; AVX512-NEXT: vmovshdup {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; AVX512-NEXT: vmulps %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulps %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)			%1 = call fast float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float undef, <16 x float> %a0)
	ret float %1			ret float %1
	}			}

	;			;
	; vXf64 (accum)			; vXf64 (accum)
	Show All 31 Lines
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64:			; AVX-LABEL: test_v4f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64:			; AVX512-LABEL: test_v4f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm1, %xmm0
	; AVX512-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; AVX512-NEXT: vmulpd %ymm0, %ymm1, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double %a0, <4 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64(double %a0, <8 x double> %a1) {			define double @test_v8f64(double %a0, <8 x double> %a1) {
	; SSE-LABEL: test_v8f64:			; SSE-LABEL: test_v8f64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm4, %xmm2			; SSE-NEXT: mulpd %xmm4, %xmm2
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm1			; SSE-NEXT: mulpd %xmm2, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64:			; AVX-LABEL: test_v8f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64:			; AVX512-LABEL: test_v8f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0			; AVX512-NEXT: vextractf64x4 $1, %zmm1, %ymm0
	; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm0, %zmm1, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double %a0, <8 x double> %a1)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64(double %a0, <16 x double> %a1) {			define double @test_v16f64(double %a0, <16 x double> %a1) {
	; SSE-LABEL: test_v16f64:			; SSE-LABEL: test_v16f64:
	Show All 13 Lines
	; AVX-LABEL: test_v16f64:			; AVX-LABEL: test_v16f64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm0			; AVX-NEXT: vmulpd %ymm4, %ymm2, %ymm0
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0			; AVX-NEXT: vmulpd %ymm0, %ymm1, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64:			; AVX512-LABEL: test_v16f64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm0			; AVX512-NEXT: vmulpd %zmm2, %zmm1, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double %a0, <16 x double> %a1)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (one)			; vXf64 (one)
	Show All 33 Lines
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_zero:			; AVX-LABEL: test_v4f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_zero:			; AVX512-LABEL: test_v4f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double 1.0, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_zero(<8 x double> %a0) {			define double @test_v8f64_zero(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_zero:			; SSE-LABEL: test_v8f64_zero:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_zero:			; AVX-LABEL: test_v8f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_zero:			; AVX512-LABEL: test_v8f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double 1.0, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_zero(<16 x double> %a0) {			define double @test_v16f64_zero(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_zero:			; SSE-LABEL: test_v16f64_zero:
	Show All 13 Lines
	; AVX-LABEL: test_v16f64_zero:			; AVX-LABEL: test_v16f64_zero:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_zero:			; AVX512-LABEL: test_v16f64_zero:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double 1.0, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	;			;
	; vXf64 (undef)			; vXf64 (undef)
	Show All 33 Lines
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v4f64_undef:			; AVX-LABEL: test_v4f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4f64_undef:			; AVX512-LABEL: test_v4f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double undef, <4 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v8f64_undef(<8 x double> %a0) {			define double @test_v8f64_undef(<8 x double> %a0) {
	; SSE-LABEL: test_v8f64_undef:			; SSE-LABEL: test_v8f64_undef:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: mulpd %xmm3, %xmm1			; SSE-NEXT: mulpd %xmm3, %xmm1
	; SSE-NEXT: mulpd %xmm2, %xmm0			; SSE-NEXT: mulpd %xmm2, %xmm0
	; SSE-NEXT: mulpd %xmm1, %xmm0			; SSE-NEXT: mulpd %xmm1, %xmm0
	; SSE-NEXT: movapd %xmm0, %xmm1			; SSE-NEXT: movapd %xmm0, %xmm1
	; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]			; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm0[1]
	; SSE-NEXT: mulpd %xmm0, %xmm1			; SSE-NEXT: mulpd %xmm0, %xmm1
	; SSE-NEXT: movapd %xmm1, %xmm0			; SSE-NEXT: movapd %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v8f64_undef:			; AVX-LABEL: test_v8f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8f64_undef:			; AVX512-LABEL: test_v8f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double undef, <8 x double> %a0)
	ret double %1			ret double %1
	}			}

	define double @test_v16f64_undef(<16 x double> %a0) {			define double @test_v16f64_undef(<16 x double> %a0) {
	; SSE-LABEL: test_v16f64_undef:			; SSE-LABEL: test_v16f64_undef:
	Show All 13 Lines
	; AVX-LABEL: test_v16f64_undef:			; AVX-LABEL: test_v16f64_undef:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1			; AVX-NEXT: vmulpd %ymm3, %ymm1, %ymm1
	; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm2, %ymm0, %ymm0
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0
	; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX-NEXT: vmulpd %ymm1, %ymm0, %ymm0			; AVX-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX-NEXT: vzeroupper			; AVX-NEXT: vzeroupper
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16f64_undef:			; AVX512-LABEL: test_v16f64_undef:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: vmulpd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vmulpd %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)			%1 = call fast double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double undef, <16 x double> %a0)
	ret double %1			ret double %1
	}			}

	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float, <2 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v2f32(float, <2 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float, <4 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v4f32(float, <4 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float, <8 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v8f32(float, <8 x float>)
	declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float, <16 x float>)			declare float @llvm.experimental.vector.reduce.fmul.f32.f32.v16f32(float, <16 x float>)

	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double, <2 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v2f64(double, <2 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double, <4 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v4f64(double, <4 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double, <8 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v8f64(double, <8 x double>)
	declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double, <16 x double>)			declare double @llvm.experimental.vector.reduce.fmul.f64.f64.v16f64(double, <16 x double>)

test/CodeGen/X86/vector-reduce-mul.ll

	Show First 20 Lines • Show All 154 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v4i64:			; AVX512BW-LABEL: test_v4i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm2			; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX512BW-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512BW-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX512BW-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512BW-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX512BW-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX512BW-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX512BW-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX512BW-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX512BW-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX512BW-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX512BW-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX512BW-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX512BW-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v4i64:			; AVX512BWVL-LABEL: test_v4i64:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm0, %ymm2			; AVX512BWVL-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX512BWVL-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512BWVL-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX512BWVL-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX512BWVL-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX512BWVL-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm0, %ymm2			; AVX512BWVL-NEXT: vpsrlq $32, %ymm0, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm2, %ymm2			; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpsrlq $32, %ymm1, %ymm3			; AVX512BWVL-NEXT: vpsrlq $32, %ymm1, %ymm3
	; AVX512BWVL-NEXT: vpmuludq %ymm3, %ymm0, %ymm3			; AVX512BWVL-NEXT: vpmuludq %ymm3, %ymm0, %ymm3
	; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm3, %ymm2			; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm3, %ymm2
	; AVX512BWVL-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX512BWVL-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX512BWVL-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX512BWVL-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovq %xmm0, %rax			; AVX512BWVL-NEXT: vmovq %xmm0, %rax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v4i64:			; AVX512DQ-LABEL: test_v4i64:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512DQ-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vmovq %xmm0, %rax			; AVX512DQ-NEXT: vmovq %xmm0, %rax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v4i64:			; AVX512DQVL-LABEL: test_v4i64:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullq %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullq %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullq %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovq %xmm0, %rax			; AVX512DQVL-NEXT: vmovq %xmm0, %rax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v8i64:			; AVX512BW-LABEL: test_v8i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	Show All 16 Lines
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v8i64:			; AVX512BWVL-LABEL: test_v8i64:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	Show All 16 Lines
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovq %xmm0, %rax			; AVX512BWVL-NEXT: vmovq %xmm0, %rax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v8i64:			; AVX512DQ-LABEL: test_v8i64:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512DQ-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vmovq %xmm0, %rax			; AVX512DQ-NEXT: vmovq %xmm0, %rax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v8i64:			; AVX512DQVL-LABEL: test_v8i64:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovq %xmm0, %rax			; AVX512DQVL-NEXT: vmovq %xmm0, %rax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v16i64(<16 x i64> %a0) {			define i64 @test_v16i64(<16 x i64> %a0) {
	▲ Show 20 Lines • Show All 196 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-NEXT: vpsrldq {{.*#+}} ymm2 = ymm0[12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,ymm0[28,29,30,31],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2			; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3			; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm3
	; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3			; AVX2-NEXT: vpmuludq %ymm1, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2			; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
	; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v16i64:			; AVX512BW-LABEL: test_v16i64:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	Show All 24 Lines
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BW-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BW-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BW-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovq %xmm0, %rax			; AVX512BW-NEXT: vmovq %xmm0, %rax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v16i64:			; AVX512BWVL-LABEL: test_v16i64:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	Show All 24 Lines
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2			; AVX512BWVL-NEXT: vpsrlq $32, %zmm0, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3			; AVX512BWVL-NEXT: vpsrlq $32, %zmm1, %zmm3
	; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3			; AVX512BWVL-NEXT: vpmuludq %zmm3, %zmm0, %zmm3
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2			; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm3, %zmm2
	; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2			; AVX512BWVL-NEXT: vpsllq $32, %zmm2, %zmm2
	; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmuludq %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpaddq %zmm2, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpaddq %xmm2, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovq %xmm0, %rax			; AVX512BWVL-NEXT: vmovq %xmm0, %rax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v16i64:			; AVX512DQ-LABEL: test_v16i64:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQ-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512DQ-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	Show All 9 Lines
	; AVX512DQVL-LABEL: test_v16i64:			; AVX512DQVL-LABEL: test_v16i64:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512DQVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullq %zmm1, %zmm0, %zmm0			; AVX512DQVL-NEXT: vpmullq %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovq %xmm0, %rax			; AVX512DQVL-NEXT: vmovq %xmm0, %rax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.mul.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v16i32(<16 x i32> %a0) {			define i32 @test_v16i32(<16 x i32> %a0) {
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v32i32(<32 x i32> %a0) {			define i32 @test_v32i32(<32 x i32> %a0) {
	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmulld %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpmulld %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpmulld %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmulld %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.mul.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	Show All 37 Lines
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v32i16:			; AVX512BW-LABEL: test_v32i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v32i16:			; AVX512BWVL-LABEL: test_v32i16:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovd %xmm0, %eax			; AVX512BWVL-NEXT: vmovd %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v32i16:			; AVX512DQ-LABEL: test_v32i16:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vmovd %xmm0, %eax			; AVX512DQ-NEXT: vmovd %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v32i16:			; AVX512DQVL-LABEL: test_v32i16:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovd %xmm0, %eax			; AVX512DQVL-NEXT: vmovd %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v64i16:			; AVX512BW-LABEL: test_v64i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BW-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BW-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vmovd %xmm0, %eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
	; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512BWVL-LABEL: test_v64i16:			; AVX512BWVL-LABEL: test_v64i16:
	; AVX512BWVL: # %bb.0:			; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512BWVL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512BWVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512BWVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512BWVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BWVL-NEXT: vpmullw %zmm1, %zmm0, %zmm0			; AVX512BWVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vmovd %xmm0, %eax			; AVX512BWVL-NEXT: vmovd %xmm0, %eax
	; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BWVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512BWVL-NEXT: vzeroupper			; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq			; AVX512BWVL-NEXT: retq
	;			;
	; AVX512DQ-LABEL: test_v64i16:			; AVX512DQ-LABEL: test_v64i16:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpmullw %ymm3, %ymm1, %ymm1			; AVX512DQ-NEXT: vpmullw %ymm3, %ymm1, %ymm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm2, %ymm1			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm2, %ymm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQ-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQ-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQ-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQ-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQ-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQ-NEXT: vmovd %xmm0, %eax			; AVX512DQ-NEXT: vmovd %xmm0, %eax
	; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQ-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512DQVL-LABEL: test_v64i16:			; AVX512DQVL-LABEL: test_v64i16:
	; AVX512DQVL: # %bb.0:			; AVX512DQVL: # %bb.0:
	; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm1, %ymm1			; AVX512DQVL-NEXT: vpmullw %ymm3, %ymm1, %ymm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm2, %ymm1			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm2, %ymm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512DQVL-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512DQVL-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0
	; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512DQVL-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512DQVL-NEXT: vpmullw %ymm1, %ymm0, %ymm0			; AVX512DQVL-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512DQVL-NEXT: vmovd %xmm0, %eax			; AVX512DQVL-NEXT: vmovd %xmm0, %eax
	; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512DQVL-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512DQVL-NEXT: vzeroupper			; AVX512DQVL-NEXT: vzeroupper
	; AVX512DQVL-NEXT: retq			; AVX512DQVL-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.mul.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	▲ Show 20 Lines • Show All 1,678 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-or.ll

	Show First 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movq %xmm1, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	; SSE-LABEL: test_v8i64:			; SSE-LABEL: test_v8i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: por %xmm3, %xmm1			; SSE-NEXT: por %xmm3, %xmm1
	; SSE-NEXT: por %xmm2, %xmm1			; SSE-NEXT: por %xmm2, %xmm1
	; SSE-NEXT: por %xmm0, %xmm1			; SSE-NEXT: por %xmm0, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: por %xmm1, %xmm0			; SSE-NEXT: por %xmm1, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v16i64(<16 x i64> %a0) {			define i64 @test_v16i64(<16 x i64> %a0) {
	Show All 14 Lines
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.or.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	;			;
	; AVX1-LABEL: test_v8i32:			; AVX1-LABEL: test_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v16i32(<16 x i32> %a0) {			define i32 @test_v16i32(<16 x i32> %a0) {
	Show All 12 Lines
	; AVX1-LABEL: test_v16i32:			; AVX1-LABEL: test_v16i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v32i32(<32 x i32> %a0) {			define i32 @test_v32i32(<32 x i32> %a0) {
	Show All 18 Lines
	; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.or.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	Show All 19 Lines
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	Show All 25 Lines
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.or.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i8:			; AVX2-LABEL: test_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v128i8:			; AVX2-LABEL: test_v128i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.or.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	Show All 19 Lines

test/CodeGen/X86/vector-reduce-xor.ll

	Show First 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movq %xmm1, %rax			; SSE-NEXT: movq %xmm1, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v4i64:			; AVX2-LABEL: test_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v4i64:			; AVX512-LABEL: test_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v4i64(<4 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v4i64(<4 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v8i64(<8 x i64> %a0) {			define i64 @test_v8i64(<8 x i64> %a0) {
	; SSE-LABEL: test_v8i64:			; SSE-LABEL: test_v8i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pxor %xmm3, %xmm1			; SSE-NEXT: pxor %xmm3, %xmm1
	; SSE-NEXT: pxor %xmm2, %xmm1			; SSE-NEXT: pxor %xmm2, %xmm1
	; SSE-NEXT: pxor %xmm0, %xmm1			; SSE-NEXT: pxor %xmm0, %xmm1
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm1[2,3,0,1]
	; SSE-NEXT: pxor %xmm1, %xmm0			; SSE-NEXT: pxor %xmm1, %xmm0
	; SSE-NEXT: movq %xmm0, %rax			; SSE-NEXT: movq %xmm0, %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i64:			; AVX2-LABEL: test_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i64:			; AVX512-LABEL: test_v8i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v8i64(<8 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v8i64(<8 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	define i64 @test_v16i64(<16 x i64> %a0) {			define i64 @test_v16i64(<16 x i64> %a0) {
	Show All 14 Lines
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i64:			; AVX2-LABEL: test_v16i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i64:			; AVX512-LABEL: test_v16i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovq %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v16i64(<16 x i64> %a0)			%1 = call i64 @llvm.experimental.vector.reduce.xor.i64.v16i64(<16 x i64> %a0)
	ret i64 %1			ret i64 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movd %xmm0, %eax			; SSE-NEXT: movd %xmm0, %eax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i32:			; AVX1-LABEL: test_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
				RKSimonUnsubmitted Not Done Reply Inline Actions There's still a lot of logic ops happening at full width - is this to do with the bitcasts? RKSimon: There's still a lot of logic ops happening at full width - is this to do with the bitcasts?
				spatelAuthorUnsubmitted Not Done Reply Inline Actions Yes: t5: v8i32 = xor t2, t30 t24: v4i64 = bitcast t5 t34: v2i64 = extract_subvector t24, Constant:i64<0> ...so we should pick that up in the follow-up, or if we want to go big, I can add those diffs to this patch. spatel: Yes: t5: v8i32 = xor t2, t30 t24: v4i64 = bitcast t5 t34: v2i64…
				spatelAuthorUnsubmitted Not Done Reply Inline Actions Looking a bit closer here, the bitcast enhancement is probably not enough. If there are multiple uses of a binop, we have to be careful, or we'll break a single wide op into multiple narrow ops. There are still several patches to go before we get optimal codegen for reductions, so I'd rather not risk it by adding more patterns to this basic patch. spatel: Looking a bit closer here, the bitcast enhancement is probably not enough. If there are…
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v8i32:			; AVX2-LABEL: test_v8i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v8i32:			; AVX512-LABEL: test_v8i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v8i32(<8 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v8i32(<8 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v16i32(<16 x i32> %a0) {			define i32 @test_v16i32(<16 x i32> %a0) {
	Show All 12 Lines
	; AVX1-LABEL: test_v16i32:			; AVX1-LABEL: test_v16i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i32:			; AVX2-LABEL: test_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i32:			; AVX512-LABEL: test_v16i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v16i32(<16 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v16i32(<16 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	define i32 @test_v32i32(<32 x i32> %a0) {			define i32 @test_v32i32(<32 x i32> %a0) {
	Show All 18 Lines
	; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1			; AVX1-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1			; AVX1-NEXT: vxorps %ymm1, %ymm2, %ymm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i32:			; AVX2-LABEL: test_v32i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i32:			; AVX512-LABEL: test_v32i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v32i32(<32 x i32> %a0)			%1 = call i32 @llvm.experimental.vector.reduce.xor.i32.v32i32(<32 x i32> %a0)
	ret i32 %1			ret i32 %1
	}			}

	;			;
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v16i16:			; AVX2-LABEL: test_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v16i16:			; AVX512-LABEL: test_v16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v16i16(<16 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v16i16(<16 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	Show All 19 Lines
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i16:			; AVX2-LABEL: test_v32i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i16:			; AVX512-LABEL: test_v32i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v32i16(<32 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v32i16(<32 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	Show All 25 Lines
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %eax			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: # kill: def $ax killed $ax killed $eax			; AVX1-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i16:			; AVX2-LABEL: test_v64i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %xmm0, %eax			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i16:			; AVX512-LABEL: test_v64i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vmovd %xmm0, %eax			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v64i16(<64 x i16> %a0)			%1 = call i16 @llvm.experimental.vector.reduce.xor.i16.v64i16(<64 x i16> %a0)
	ret i16 %1			ret i16 %1
	}			}

	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v32i8:			; AVX2-LABEL: test_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v32i8:			; AVX512-LABEL: test_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v32i8(<32 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v32i8(<32 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v64i8:			; AVX2-LABEL: test_v64i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v64i8:			; AVX512-LABEL: test_v64i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v64i8(<64 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v64i8(<64 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX1-NEXT: vpermilps {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX1-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX1-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: # kill: def $al killed $al killed $eax			; AVX1-NEXT: # kill: def $al killed $al killed $eax
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: test_v128i8:			; AVX2-LABEL: test_v128i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpxor %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX2-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX2-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpextrb $0, %xmm0, %eax			; AVX2-NEXT: vpextrb $0, %xmm0, %eax
	; AVX2-NEXT: # kill: def $al killed $al killed $eax			; AVX2-NEXT: # kill: def $al killed $al killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test_v128i8:			; AVX512-LABEL: test_v128i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[1,1,2,3]
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1			; AVX512-NEXT: vpsrlw $8, %xmm0, %xmm1
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; AVX512-NEXT: vpextrb $0, %xmm0, %eax			; AVX512-NEXT: vpextrb $0, %xmm0, %eax
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v128i8(<128 x i8> %a0)			%1 = call i8 @llvm.experimental.vector.reduce.xor.i8.v128i8(<128 x i8> %a0)
	ret i8 %1			ret i8 %1
	}			}

	Show All 19 Lines

test/CodeGen/X86/vector-rotate-256.ll

	Show First 20 Lines • Show All 684 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: splatvar_rotate_v16i16:			; AVX2-LABEL: splatvar_rotate_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpbroadcastw %xmm1, %ymm2			; AVX2-NEXT: vpbroadcastw %xmm1, %ymm2
	; AVX2-NEXT: vpmovzxwq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero			; AVX2-NEXT: vpmovzxwq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero
	; AVX2-NEXT: vpsllw %xmm1, %ymm0, %ymm1			; AVX2-NEXT: vpsllw %xmm1, %ymm0, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [16,16,16,16,16,16,16,16]
	; AVX2-NEXT: vpsubw %ymm2, %ymm3, %ymm2			; AVX2-NEXT: vpsubw %xmm2, %xmm3, %xmm2
	; AVX2-NEXT: vpmovzxwq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero			; AVX2-NEXT: vpmovzxwq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero
	; AVX2-NEXT: vpsrlw %xmm2, %ymm0, %ymm0			; AVX2-NEXT: vpsrlw %xmm2, %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: splatvar_rotate_v16i16:			; AVX512F-LABEL: splatvar_rotate_v16i16:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpbroadcastw %xmm1, %ymm2			; AVX512F-NEXT: vpbroadcastw %xmm1, %ymm2
	; AVX512F-NEXT: vpmovzxwq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero			; AVX512F-NEXT: vpmovzxwq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero
	; AVX512F-NEXT: vpsllw %xmm1, %ymm0, %ymm1			; AVX512F-NEXT: vpsllw %xmm1, %ymm0, %ymm1
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512F-NEXT: vmovdqa {{.*#+}} xmm3 = [16,16,16,16,16,16,16,16]
	; AVX512F-NEXT: vpsubw %ymm2, %ymm3, %ymm2			; AVX512F-NEXT: vpsubw %xmm2, %xmm3, %xmm2
	; AVX512F-NEXT: vpmovzxwq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero			; AVX512F-NEXT: vpmovzxwq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero
	; AVX512F-NEXT: vpsrlw %xmm2, %ymm0, %ymm0			; AVX512F-NEXT: vpsrlw %xmm2, %ymm0, %ymm0
	; AVX512F-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512F-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: splatvar_rotate_v16i16:			; AVX512VL-LABEL: splatvar_rotate_v16i16:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpbroadcastw %xmm1, %ymm2			; AVX512VL-NEXT: vpbroadcastw %xmm1, %ymm2
	; AVX512VL-NEXT: vpmovzxwq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero			; AVX512VL-NEXT: vpmovzxwq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero
	; AVX512VL-NEXT: vpsllw %xmm1, %ymm0, %ymm1			; AVX512VL-NEXT: vpsllw %xmm1, %ymm0, %ymm1
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm3 = [16,16,16,16,16,16,16,16]
	; AVX512VL-NEXT: vpsubw %ymm2, %ymm3, %ymm2			; AVX512VL-NEXT: vpsubw %xmm2, %xmm3, %xmm2
	; AVX512VL-NEXT: vpmovzxwq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero			; AVX512VL-NEXT: vpmovzxwq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero
	; AVX512VL-NEXT: vpsrlw %xmm2, %ymm0, %ymm0			; AVX512VL-NEXT: vpsrlw %xmm2, %ymm0, %ymm0
	; AVX512VL-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: splatvar_rotate_v16i16:			; AVX512BW-LABEL: splatvar_rotate_v16i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	▲ Show 20 Lines • Show All 1,134 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-rotate-512.ll

	Show First 20 Lines • Show All 310 Lines • ▼ Show 20 Lines
	}			}

	define <32 x i16> @splatvar_rotate_v32i16(<32 x i16> %a, <32 x i16> %b) nounwind {			define <32 x i16> @splatvar_rotate_v32i16(<32 x i16> %a, <32 x i16> %b) nounwind {
	; AVX512F-LABEL: splatvar_rotate_v32i16:			; AVX512F-LABEL: splatvar_rotate_v32i16:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpbroadcastw %xmm2, %ymm3			; AVX512F-NEXT: vpbroadcastw %xmm2, %ymm3
	; AVX512F-NEXT: vpmovzxwq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero			; AVX512F-NEXT: vpmovzxwq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero
	; AVX512F-NEXT: vpsllw %xmm2, %ymm0, %ymm4			; AVX512F-NEXT: vpsllw %xmm2, %ymm0, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512F-NEXT: vmovdqa {{.*#+}} xmm5 = [16,16,16,16,16,16,16,16]
	; AVX512F-NEXT: vpsubw %ymm3, %ymm5, %ymm3			; AVX512F-NEXT: vpsubw %xmm3, %xmm5, %xmm3
	; AVX512F-NEXT: vpmovzxwq {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero			; AVX512F-NEXT: vpmovzxwq {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
	; AVX512F-NEXT: vpsrlw %xmm3, %ymm0, %ymm0			; AVX512F-NEXT: vpsrlw %xmm3, %ymm0, %ymm0
	; AVX512F-NEXT: vpor %ymm0, %ymm4, %ymm0			; AVX512F-NEXT: vpor %ymm0, %ymm4, %ymm0
	; AVX512F-NEXT: vpsllw %xmm2, %ymm1, %ymm2			; AVX512F-NEXT: vpsllw %xmm2, %ymm1, %ymm2
	; AVX512F-NEXT: vpsrlw %xmm3, %ymm1, %ymm1			; AVX512F-NEXT: vpsrlw %xmm3, %ymm1, %ymm1
	; AVX512F-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX512F-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: splatvar_rotate_v32i16:			; AVX512VL-LABEL: splatvar_rotate_v32i16:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpbroadcastw %xmm2, %ymm3			; AVX512VL-NEXT: vpbroadcastw %xmm2, %ymm3
	; AVX512VL-NEXT: vpmovzxwq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero			; AVX512VL-NEXT: vpmovzxwq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero
	; AVX512VL-NEXT: vpsllw %xmm2, %ymm0, %ymm4			; AVX512VL-NEXT: vpsllw %xmm2, %ymm0, %ymm4
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm5 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm5 = [16,16,16,16,16,16,16,16]
	; AVX512VL-NEXT: vpsubw %ymm3, %ymm5, %ymm3			; AVX512VL-NEXT: vpsubw %xmm3, %xmm5, %xmm3
	; AVX512VL-NEXT: vpmovzxwq {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero			; AVX512VL-NEXT: vpmovzxwq {{.*#+}} xmm3 = xmm3[0],zero,zero,zero,xmm3[1],zero,zero,zero
	; AVX512VL-NEXT: vpsrlw %xmm3, %ymm0, %ymm0			; AVX512VL-NEXT: vpsrlw %xmm3, %ymm0, %ymm0
	; AVX512VL-NEXT: vpor %ymm0, %ymm4, %ymm0			; AVX512VL-NEXT: vpor %ymm0, %ymm4, %ymm0
	; AVX512VL-NEXT: vpsllw %xmm2, %ymm1, %ymm2			; AVX512VL-NEXT: vpsllw %xmm2, %ymm1, %ymm2
	; AVX512VL-NEXT: vpsrlw %xmm3, %ymm1, %ymm1			; AVX512VL-NEXT: vpsrlw %xmm3, %ymm1, %ymm1
	; AVX512VL-NEXT: vpor %ymm1, %ymm2, %ymm1			; AVX512VL-NEXT: vpor %ymm1, %ymm2, %ymm1
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpaddb %ymm1, %ymm1, %ymm3			; AVX512VL-NEXT: vpaddb %ymm1, %ymm1, %ymm3
	; AVX512VL-NEXT: vpor %ymm2, %ymm3, %ymm2			; AVX512VL-NEXT: vpor %ymm2, %ymm3, %ymm2
	; AVX512VL-NEXT: vpblendvb %ymm10, %ymm2, %ymm1, %ymm1			; AVX512VL-NEXT: vpblendvb %ymm10, %ymm2, %ymm1, %ymm1
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: splatvar_rotate_v64i8:			; AVX512BW-LABEL: splatvar_rotate_v64i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpbroadcastb %xmm1, %zmm2			; AVX512BW-NEXT: vpbroadcastb %xmm1, %zmm2
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; AVX512BW-NEXT: vpsubb %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpmovzxbq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,zero,zero,zero,zero,xmm1[1],zero,zero,zero,zero,zero,zero,zero			; AVX512BW-NEXT: vpmovzxbq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,zero,zero,zero,zero,xmm1[1],zero,zero,zero,zero,zero,zero,zero
	; AVX512BW-NEXT: vpsllw %xmm1, %zmm0, %zmm3			; AVX512BW-NEXT: vpsllw %xmm1, %zmm0, %zmm3
	; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4			; AVX512BW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4
	; AVX512BW-NEXT: vpsllw %xmm1, %zmm4, %zmm1			; AVX512BW-NEXT: vpsllw %xmm1, %zmm4, %zmm1
	; AVX512BW-NEXT: vpbroadcastb %xmm1, %zmm1			; AVX512BW-NEXT: vpbroadcastb %xmm1, %zmm1
	; AVX512BW-NEXT: vpandq %zmm1, %zmm3, %zmm1			; AVX512BW-NEXT: vpandq %zmm1, %zmm3, %zmm1
				; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
				; AVX512BW-NEXT: vpsubb %xmm2, %xmm3, %xmm2
	; AVX512BW-NEXT: vpmovzxbq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,zero,zero,zero,zero,xmm2[1],zero,zero,zero,zero,zero,zero,zero			; AVX512BW-NEXT: vpmovzxbq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,zero,zero,zero,zero,xmm2[1],zero,zero,zero,zero,zero,zero,zero
	; AVX512BW-NEXT: vpsrlw %xmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw %xmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw %xmm2, %zmm4, %zmm2			; AVX512BW-NEXT: vpsrlw %xmm2, %zmm4, %zmm2
	; AVX512BW-NEXT: vpsrlw $8, %zmm2, %zmm2			; AVX512BW-NEXT: vpsrlw $8, %zmm2, %zmm2
	; AVX512BW-NEXT: vpbroadcastb %xmm2, %zmm2			; AVX512BW-NEXT: vpbroadcastb %xmm2, %zmm2
	; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vporq %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: splatvar_rotate_v64i8:			; AVX512VLBW-LABEL: splatvar_rotate_v64i8:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpbroadcastb %xmm1, %zmm2			; AVX512VLBW-NEXT: vpbroadcastb %xmm1, %zmm2
	; AVX512VLBW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; AVX512VLBW-NEXT: vpsubb %zmm2, %zmm3, %zmm2
	; AVX512VLBW-NEXT: vpmovzxbq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,zero,zero,zero,zero,xmm1[1],zero,zero,zero,zero,zero,zero,zero			; AVX512VLBW-NEXT: vpmovzxbq {{.*#+}} xmm1 = xmm1[0],zero,zero,zero,zero,zero,zero,zero,xmm1[1],zero,zero,zero,zero,zero,zero,zero
	; AVX512VLBW-NEXT: vpsllw %xmm1, %zmm0, %zmm3			; AVX512VLBW-NEXT: vpsllw %xmm1, %zmm0, %zmm3
	; AVX512VLBW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4			; AVX512VLBW-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4
	; AVX512VLBW-NEXT: vpsllw %xmm1, %zmm4, %zmm1			; AVX512VLBW-NEXT: vpsllw %xmm1, %zmm4, %zmm1
	; AVX512VLBW-NEXT: vpbroadcastb %xmm1, %zmm1			; AVX512VLBW-NEXT: vpbroadcastb %xmm1, %zmm1
	; AVX512VLBW-NEXT: vpandq %zmm1, %zmm3, %zmm1			; AVX512VLBW-NEXT: vpandq %zmm1, %zmm3, %zmm1
				; AVX512VLBW-NEXT: vmovdqa {{.*#+}} xmm3 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
				; AVX512VLBW-NEXT: vpsubb %xmm2, %xmm3, %xmm2
	; AVX512VLBW-NEXT: vpmovzxbq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,zero,zero,zero,zero,xmm2[1],zero,zero,zero,zero,zero,zero,zero			; AVX512VLBW-NEXT: vpmovzxbq {{.*#+}} xmm2 = xmm2[0],zero,zero,zero,zero,zero,zero,zero,xmm2[1],zero,zero,zero,zero,zero,zero,zero
	; AVX512VLBW-NEXT: vpsrlw %xmm2, %zmm0, %zmm0			; AVX512VLBW-NEXT: vpsrlw %xmm2, %zmm0, %zmm0
	; AVX512VLBW-NEXT: vpsrlw %xmm2, %zmm4, %zmm2			; AVX512VLBW-NEXT: vpsrlw %xmm2, %zmm4, %zmm2
	; AVX512VLBW-NEXT: vpsrlw $8, %zmm2, %zmm2			; AVX512VLBW-NEXT: vpsrlw $8, %zmm2, %zmm2
	; AVX512VLBW-NEXT: vpbroadcastb %xmm2, %zmm2			; AVX512VLBW-NEXT: vpbroadcastb %xmm2, %zmm2
	; AVX512VLBW-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512VLBW-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512VLBW-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512VLBW-NEXT: vporq %zmm0, %zmm1, %zmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	▲ Show 20 Lines • Show All 497 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombiner] narrow vector binops when extraction is cheapClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 171373

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

test/CodeGen/X86/2012-04-26-sdglue.ll

test/CodeGen/X86/avx-logic.ll

test/CodeGen/X86/avx-vzeroupper.ll

test/CodeGen/X86/avx2-schedule.ll

test/CodeGen/X86/avx512-hadd-hsub.ll

test/CodeGen/X86/avx512-insert-extract.ll

test/CodeGen/X86/avx512-skx-insert-subvec.ll

test/CodeGen/X86/known-signbits-vector.ll

test/CodeGen/X86/madd.ll

test/CodeGen/X86/min-legal-vector-width.ll

test/CodeGen/X86/sad.ll

test/CodeGen/X86/shrink_vmul.ll

test/CodeGen/X86/vec_int_to_fp.ll

test/CodeGen/X86/vector-compare-all_of.ll

test/CodeGen/X86/vector-compare-any_of.ll

test/CodeGen/X86/vector-reduce-add.ll

test/CodeGen/X86/vector-reduce-and.ll

test/CodeGen/X86/vector-reduce-fadd-fast.ll

test/CodeGen/X86/vector-reduce-fmul-fast.ll

test/CodeGen/X86/vector-reduce-mul.ll

test/CodeGen/X86/vector-reduce-or.ll

test/CodeGen/X86/vector-reduce-xor.ll

test/CodeGen/X86/vector-rotate-256.ll

test/CodeGen/X86/vector-rotate-512.ll

[DAGCombiner] narrow vector binops when extraction is cheap
ClosedPublic