This is an archive of the discontinued LLVM Phabricator instance.

[x86] split more v8f32/v8i32 shuffles in lowering
ClosedPublic

Authored by spatel on Feb 13 2019, 7:30 AM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
andreadb

Commits

rGfff628274d46: [x86] split more v8f32/v8i32 shuffles in lowering
rL354279: [x86] split more v8f32/v8i32 shuffles in lowering

Summary

Similar to D57867 - this is a 1-line patch with lots of test diffs.
In most cases with half-vector-width narrowing potential, using an extract + 128-bit vshufps is a win because it replaces a 256-bit shuffle with a 128-bit shufle.

There's 1 potentially controversial diff pattern for a target with "fast-variable-shuffle".
We are changing:

vmovaps {{.*#+}} ymm1 = [load 256-bit constant permute mask]
vpermps %ymm0, %ymm1, %ymm0

to:

vextractf128 $1, %ymm0, %xmm1
vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]

That could be a regression if the permute mask load could be moved out of a loop and the 256-bit op is executed at the same speed/power as a 128-bit op. But I think the extract+shufps combo is the right default choice at this level because it removes a ymm instruction. We should form 256-bit vpermps from the extract+shufps as a later optimization within a loop if that would be profitable.

Diff Detail

Repository: rL LLVM

Event Timeline

spatel created this revision.Feb 13 2019, 7:30 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 13 2019, 7:30 AM

Herald added subscribers: hiraditya, mcrosier. · View Herald Transcript

Better to stage this in 2 parts?
I can add a check for fast-variable-shuffle, so we get the clear improvements. Then, a follow-up can remove that check and see if that results in any real-world fallout.

In D58181#1399533, @spatel wrote:

Better to stage this in 2 parts?
I can add a check for fast-variable-shuffle, so we get the clear improvements. Then, a follow-up can remove that check and see if that results in any real-world fallout.

Yes, please can you update this patch for just the slow path?

Patch updated:
Restrict the change to targets without fast-variable-shuffle.

LGTM - cheers.

This revision is now accepted and ready to land.Feb 18 2019, 3:36 AM

Closed by commit rL354279: [x86] split more v8f32/v8i32 shuffles in lowering (authored by spatel). · Explain WhyFeb 18 2019, 8:46 AM

This revision was automatically updated to reflect the committed changes.

spatel mentioned this in D58361: [x86] allow more 128-bit extract+shufps formation to avoid 256-bit shuffles.Feb 18 2019, 4:23 PM

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

9 lines

test/

CodeGen/

X86/

avx2-conversions.ll

10 lines

avx2-vector-shifts.ll

16 lines

6 lines

14 lines

10 lines

20 lines

5 lines

shuffle-vs-trunc-256-widen.ll

13 lines

shuffle-vs-trunc-256.ll

35 lines

vector-trunc-math-widen.ll

485 lines

vector-trunc-math.ll

485 lines

vector-trunc-packus-widen.ll

27 lines

vector-trunc-packus.ll

27 lines

vector-trunc-ssat-widen.ll

21 lines

vector-trunc-ssat.ll

21 lines

vector-trunc-usat-widen.ll

21 lines

vector-trunc-usat.ll

21 lines

vector-trunc-widen.ll

46 lines

vector-trunc.ll

62 lines

Diff 187253

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 14,599 Lines • ▼ Show 20 Lines	if (!UndefLower) {
// Always extract lowers when setting lower - these are all free subreg ops.		// Always extract lowers when setting lower - these are all free subreg ops.
if (NumUpperHalves == 0)		if (NumUpperHalves == 0)
return getShuffleHalfVectors(DL, V1, V2, HalfMask, HalfIdx1, HalfIdx2,		return getShuffleHalfVectors(DL, V1, V2, HalfMask, HalfIdx1, HalfIdx2,
UndefLower, DAG);		UndefLower, DAG);

if (NumUpperHalves == 1) {		if (NumUpperHalves == 1) {
// AVX2 has efficient 32/64-bit element cross-lane shuffles.		// AVX2 has efficient 32/64-bit element cross-lane shuffles.
if (Subtarget.hasAVX2()) {		if (Subtarget.hasAVX2()) {
// extract128 + vunpckhps, is better than vblend + vpermps.		// extract128 + vunpckhps/vshufps, is better than vblend + vpermps.
// TODO: Refine to account for unary shuffle, splat, and other masks?		if (EltWidth == 32 && NumLowerHalves && HalfVT.is128BitVector() &&
if (EltWidth == 32 && NumLowerHalves &&		!is128BitUnpackShuffleMask(HalfMask) &&
HalfVT.is128BitVector() && !is128BitUnpackShuffleMask(HalfMask))		(!isSingleSHUFPSMask(HalfMask) \|\|
		Subtarget.hasFastVariableShuffle()))
return SDValue();		return SDValue();
// If this is a unary shuffle (assume that the 2nd operand is		// If this is a unary shuffle (assume that the 2nd operand is
// canonicalized to undef), then we can use vpermpd. Otherwise, we		// canonicalized to undef), then we can use vpermpd. Otherwise, we
// are better off extracting the upper half of 1 operand and using a		// are better off extracting the upper half of 1 operand and using a
// narrow shuffle.		// narrow shuffle.
if (EltWidth == 64 && V2.isUndef())		if (EltWidth == 64 && V2.isUndef())
return SDValue();		return SDValue();
}		}
▲ Show 20 Lines • Show All 28,746 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx2-conversions.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=X32,X32-SLOW			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=X32,X32-SLOW
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx2,+fast-variable-shuffle \| FileCheck %s --check-prefixes=X32,X32-FAST			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx2,+fast-variable-shuffle \| FileCheck %s --check-prefixes=X32,X32-FAST
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=X64,X64-SLOW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=X64,X64-SLOW
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+fast-variable-shuffle \| FileCheck %s --check-prefixes=X64,X64-FAST			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+fast-variable-shuffle \| FileCheck %s --check-prefixes=X64,X64-FAST

	define <4 x i32> @trunc4(<4 x i64> %A) nounwind {			define <4 x i32> @trunc4(<4 x i64> %A) nounwind {
	; X32-SLOW-LABEL: trunc4:			; X32-SLOW-LABEL: trunc4:
	; X32-SLOW: # %bb.0:			; X32-SLOW: # %bb.0:
	; X32-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; X32-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X32-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; X32-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; X32-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; X32-SLOW-NEXT: vzeroupper			; X32-SLOW-NEXT: vzeroupper
	; X32-SLOW-NEXT: retl			; X32-SLOW-NEXT: retl
	;			;
	; X32-FAST-LABEL: trunc4:			; X32-FAST-LABEL: trunc4:
	; X32-FAST: # %bb.0:			; X32-FAST: # %bb.0:
	; X32-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; X32-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; X32-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; X32-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	; X32-FAST-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; X32-FAST-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; X32-FAST-NEXT: vzeroupper			; X32-FAST-NEXT: vzeroupper
	; X32-FAST-NEXT: retl			; X32-FAST-NEXT: retl
	;			;
	; X64-SLOW-LABEL: trunc4:			; X64-SLOW-LABEL: trunc4:
	; X64-SLOW: # %bb.0:			; X64-SLOW: # %bb.0:
	; X64-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; X64-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; X64-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; X64-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; X64-SLOW-NEXT: vzeroupper			; X64-SLOW-NEXT: vzeroupper
	; X64-SLOW-NEXT: retq			; X64-SLOW-NEXT: retq
	;			;
	; X64-FAST-LABEL: trunc4:			; X64-FAST-LABEL: trunc4:
	; X64-FAST: # %bb.0:			; X64-FAST: # %bb.0:
	; X64-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; X64-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; X64-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; X64-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	; X64-FAST-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; X64-FAST-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	▲ Show 20 Lines • Show All 225 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx2-vector-shifts.ll

	Show First 20 Lines • Show All 370 Lines • ▼ Show 20 Lines
	entry:			entry:
	%shl = lshr <4 x i64> %InVec, <i64 63, i64 63, i64 63, i64 63>			%shl = lshr <4 x i64> %InVec, <i64 63, i64 63, i64 63, i64 63>
	ret <4 x i64> %shl			ret <4 x i64> %shl
	}			}

	define <4 x i32> @srl_trunc_and_v4i64(<4 x i32> %x, <4 x i64> %y) nounwind {			define <4 x i32> @srl_trunc_and_v4i64(<4 x i32> %x, <4 x i64> %y) nounwind {
	; X32-SLOW-LABEL: srl_trunc_and_v4i64:			; X32-SLOW-LABEL: srl_trunc_and_v4i64:
	; X32-SLOW: # %bb.0:			; X32-SLOW: # %bb.0:
	; X32-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; X32-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; X32-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; X32-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; X32-SLOW-NEXT: vpbroadcastd {{.*#+}} xmm2 = [8,8,8,8]			; X32-SLOW-NEXT: vbroadcastss {{.*#+}} xmm2 = [8,8,8,8]
	; X32-SLOW-NEXT: vpand %xmm2, %xmm1, %xmm1			; X32-SLOW-NEXT: vandps %xmm2, %xmm1, %xmm1
	; X32-SLOW-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0			; X32-SLOW-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0
	; X32-SLOW-NEXT: vzeroupper			; X32-SLOW-NEXT: vzeroupper
	; X32-SLOW-NEXT: retl			; X32-SLOW-NEXT: retl
	;			;
	; X32-FAST-LABEL: srl_trunc_and_v4i64:			; X32-FAST-LABEL: srl_trunc_and_v4i64:
	; X32-FAST: # %bb.0:			; X32-FAST: # %bb.0:
	; X32-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; X32-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; X32-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1			; X32-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; X32-FAST-NEXT: vpbroadcastd {{.*#+}} xmm2 = [8,8,8,8]			; X32-FAST-NEXT: vpbroadcastd {{.*#+}} xmm2 = [8,8,8,8]
	; X32-FAST-NEXT: vpand %xmm2, %xmm1, %xmm1			; X32-FAST-NEXT: vpand %xmm2, %xmm1, %xmm1
	; X32-FAST-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0			; X32-FAST-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0
	; X32-FAST-NEXT: vzeroupper			; X32-FAST-NEXT: vzeroupper
	; X32-FAST-NEXT: retl			; X32-FAST-NEXT: retl
	;			;
	; X64-SLOW-LABEL: srl_trunc_and_v4i64:			; X64-SLOW-LABEL: srl_trunc_and_v4i64:
	; X64-SLOW: # %bb.0:			; X64-SLOW: # %bb.0:
	; X64-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; X64-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; X64-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; X64-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; X64-SLOW-NEXT: vpbroadcastd {{.*#+}} xmm2 = [8,8,8,8]			; X64-SLOW-NEXT: vbroadcastss {{.*#+}} xmm2 = [8,8,8,8]
	; X64-SLOW-NEXT: vpand %xmm2, %xmm1, %xmm1			; X64-SLOW-NEXT: vandps %xmm2, %xmm1, %xmm1
	; X64-SLOW-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0			; X64-SLOW-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0
	; X64-SLOW-NEXT: vzeroupper			; X64-SLOW-NEXT: vzeroupper
	; X64-SLOW-NEXT: retq			; X64-SLOW-NEXT: retq
	;			;
	; X64-FAST-LABEL: srl_trunc_and_v4i64:			; X64-FAST-LABEL: srl_trunc_and_v4i64:
	; X64-FAST: # %bb.0:			; X64-FAST: # %bb.0:
	; X64-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; X64-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; X64-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1			; X64-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 316 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/combine-shl.ll

	Show First 20 Lines • Show All 132 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pslld $23, %xmm1			; SSE41-NEXT: pslld $23, %xmm1
	; SSE41-NEXT: paddd {{.*}}(%rip), %xmm1			; SSE41-NEXT: paddd {{.*}}(%rip), %xmm1
	; SSE41-NEXT: cvttps2dq %xmm1, %xmm1			; SSE41-NEXT: cvttps2dq %xmm1, %xmm1
	; SSE41-NEXT: pmulld %xmm1, %xmm0			; SSE41-NEXT: pmulld %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-SLOW-LABEL: combine_vec_shl_trunc_and:			; AVX-SLOW-LABEL: combine_vec_shl_trunc_and:
	; AVX-SLOW: # %bb.0:			; AVX-SLOW: # %bb.0:
	; AVX-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX-SLOW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX-SLOW-NEXT: vandps {{.*}}(%rip), %xmm1, %xmm1
	; AVX-SLOW-NEXT: vpsllvd %xmm1, %xmm0, %xmm0			; AVX-SLOW-NEXT: vpsllvd %xmm1, %xmm0, %xmm0
	; AVX-SLOW-NEXT: vzeroupper			; AVX-SLOW-NEXT: vzeroupper
	; AVX-SLOW-NEXT: retq			; AVX-SLOW-NEXT: retq
	;			;
	; AVX-FAST-LABEL: combine_vec_shl_trunc_and:			; AVX-FAST-LABEL: combine_vec_shl_trunc_and:
	; AVX-FAST: # %bb.0:			; AVX-FAST: # %bb.0:
	; AVX-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 671 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/combine-sra.ll

	Show First 20 Lines • Show All 162 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm2[0,1,1,1,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm2[0,1,1,1,4,5,6,7]
	; SSE-NEXT: psrad %xmm1, %xmm0			; SSE-NEXT: psrad %xmm1, %xmm0
	; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm3[0,1,2,3],xmm0[4,5,6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm3[0,1,2,3],xmm0[4,5,6,7]
	; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm5[2,3],xmm0[4,5],xmm5[6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm5[2,3],xmm0[4,5],xmm5[6,7]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: combine_vec_ashr_trunc_and:			; AVX2-SLOW-LABEL: combine_vec_ashr_trunc_and:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX2-SLOW-NEXT: vandps {{.*}}(%rip), %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vpsravd %xmm1, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsravd %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: combine_vec_ashr_trunc_and:			; AVX2-FAST-LABEL: combine_vec_ashr_trunc_and:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	Show All 22 Lines
	; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm0[4,5,6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm0[4,5,6,7]
	; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: combine_vec_ashr_trunc_lshr:			; AVX2-SLOW-LABEL: combine_vec_ashr_trunc_lshr:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpsrlq $32, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: combine_vec_ashr_trunc_lshr:			; AVX2-FAST-LABEL: combine_vec_ashr_trunc_lshr:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpsrlq $32, %ymm0, %ymm0			; AVX2-FAST-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	Show All 21 Lines
	; SSE-NEXT: psrad $1, %xmm2			; SSE-NEXT: psrad $1, %xmm2
	; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm0[4,5,6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm0[4,5,6,7]
	; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: combine_vec_ashr_trunc_ashr:			; AVX2-SLOW-LABEL: combine_vec_ashr_trunc_ashr:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm1[1,3]
	; AVX2-SLOW-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: combine_vec_ashr_trunc_ashr:			; AVX2-FAST-LABEL: combine_vec_ashr_trunc_ashr:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [1,3,5,7,5,7,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [1,3,5,7,5,7,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/combine-srl.ll

	Show First 20 Lines • Show All 199 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psrld $16, %xmm0			; SSE-NEXT: psrld $16, %xmm0
	; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,3],xmm0[4,5],xmm2[6,7]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: combine_vec_lshr_trunc_lshr1:			; AVX2-SLOW-LABEL: combine_vec_lshr_trunc_lshr1:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpsrlvq {{.*}}(%rip), %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpsrlvq {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpsrlvd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsrlvd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: combine_vec_lshr_trunc_lshr1:			; AVX2-FAST-LABEL: combine_vec_lshr_trunc_lshr1:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpsrlvq {{.*}}(%rip), %ymm0, %ymm0			; AVX2-FAST-NEXT: vpsrlvq {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	▲ Show 20 Lines • Show All 194 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm2[0,1,1,1,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm2[0,1,1,1,4,5,6,7]
	; SSE-NEXT: psrld %xmm1, %xmm0			; SSE-NEXT: psrld %xmm1, %xmm0
	; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm3[0,1,2,3],xmm0[4,5,6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm3[0,1,2,3],xmm0[4,5,6,7]
	; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm5[2,3],xmm0[4,5],xmm5[6,7]			; SSE-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm5[2,3],xmm0[4,5],xmm5[6,7]
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: combine_vec_lshr_trunc_and:			; AVX2-SLOW-LABEL: combine_vec_lshr_trunc_and:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX2-SLOW-NEXT: vandps {{.*}}(%rip), %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: combine_vec_lshr_trunc_and:			; AVX2-FAST-LABEL: combine_vec_lshr_trunc_and:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	Show All 9 Lines

llvm/trunk/test/CodeGen/X86/oddshuffles.ll

	Show First 20 Lines • Show All 615 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2],xmm1[3]			; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2],xmm1[3]
	; AVX1-NEXT: vmovaps %xmm0, 32(%rdi)			; AVX1-NEXT: vmovaps %xmm0, 32(%rdi)
	; AVX1-NEXT: vmovaps %ymm2, (%rdi)			; AVX1-NEXT: vmovaps %ymm2, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: v12i32:			; AVX2-SLOW-LABEL: v12i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm2 = xmm1[2,3,2,3]			; AVX2-SLOW-NEXT: vmovaps {{.*#+}} ymm2 = <0,4,u,1,5,u,2,6>
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm3 = ymm0[3,3,2,3,7,7,6,7]			; AVX2-SLOW-NEXT: vpermps %ymm0, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vbroadcastsd %xmm1, %ymm3
	; AVX2-SLOW-NEXT: vblendps {{.*#+}} xmm2 = xmm2[0],xmm3[1,2],xmm2[3]			; AVX2-SLOW-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4],ymm3[5],ymm2[6,7]
	; AVX2-SLOW-NEXT: vmovaps {{.*#+}} ymm3 = <0,4,u,1,5,u,2,6>			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX2-SLOW-NEXT: vpermps %ymm0, %ymm3, %ymm0			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,3],xmm3[3,3]
	; AVX2-SLOW-NEXT: vbroadcastsd %xmm1, %ymm1			; AVX2-SLOW-NEXT: vpermilps {{.*#+}} xmm1 = xmm1[2,3,2,3]
	; AVX2-SLOW-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]			; AVX2-SLOW-NEXT: vblendps {{.*#+}} xmm0 = xmm1[0],xmm0[1,2],xmm1[3]
	; AVX2-SLOW-NEXT: vmovaps %ymm0, (%rdi)			; AVX2-SLOW-NEXT: vmovaps %xmm0, 32(%rdi)
	; AVX2-SLOW-NEXT: vmovaps %xmm2, 32(%rdi)			; AVX2-SLOW-NEXT: vmovaps %ymm2, (%rdi)
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: v12i32:			; AVX2-FAST-LABEL: v12i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = <0,4,u,1,5,u,2,6>			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = <0,4,u,1,5,u,2,6>
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm2			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vbroadcastsd %xmm1, %ymm3			; AVX2-FAST-NEXT: vbroadcastsd %xmm1, %ymm3
	▲ Show 20 Lines • Show All 1,128 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/reduce-trunc-shl.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+sse2 \| FileCheck %s --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+sse2 \| FileCheck %s --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+avx2 \| FileCheck %s --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+avx2 \| FileCheck %s --check-prefix=AVX2

	define void @trunc_shl_7_v4i32_v4i64(<4 x i32> addrspace(1)* %out, <4 x i64> addrspace(1)* %in) {			define void @trunc_shl_7_v4i32_v4i64(<4 x i32> addrspace(1)* %out, <4 x i64> addrspace(1)* %in) {
	; SSE2-LABEL: trunc_shl_7_v4i32_v4i64:			; SSE2-LABEL: trunc_shl_7_v4i32_v4i64:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movaps (%rsi), %xmm0			; SSE2-NEXT: movaps (%rsi), %xmm0
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
	; SSE2-NEXT: pslld $7, %xmm0			; SSE2-NEXT: pslld $7, %xmm0
	; SSE2-NEXT: movdqa %xmm0, (%rdi)			; SSE2-NEXT: movdqa %xmm0, (%rdi)
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_shl_7_v4i32_v4i64:			; AVX2-LABEL: trunc_shl_7_v4i32_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufd {{.*#+}} ymm0 = mem[0,2,2,3,4,6,6,7]			; AVX2-NEXT: vmovaps (%rsi), %xmm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
	; AVX2-NEXT: vpslld $7, %xmm0, %xmm0			; AVX2-NEXT: vpslld $7, %xmm0, %xmm0
	; AVX2-NEXT: vmovdqa %xmm0, (%rdi)			; AVX2-NEXT: vmovdqa %xmm0, (%rdi)
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%val = load <4 x i64>, <4 x i64> addrspace(1)* %in			%val = load <4 x i64>, <4 x i64> addrspace(1)* %in
	%shl = shl <4 x i64> %val, <i64 7, i64 7, i64 7, i64 7>			%shl = shl <4 x i64> %val, <i64 7, i64 7, i64 7, i64 7>
	%trunc = trunc <4 x i64> %shl to <4 x i32>			%trunc = trunc <4 x i64> %shl to <4 x i32>
	store <4 x i32> %trunc, <4 x i32> addrspace(1)* %out			store <4 x i32> %trunc, <4 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 166 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-256-widen.ll

	Show First 20 Lines • Show All 219 Lines • ▼ Show 20 Lines
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovaps (%rdi), %xmm0			; AVX1-NEXT: vmovaps (%rdi), %xmm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
	; AVX1-NEXT: vmovaps %xmm0, (%rsi)			; AVX1-NEXT: vmovaps %xmm0, (%rsi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i32:			; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = mem[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vmovaps (%rdi), %xmm0
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
	; AVX2-SLOW-NEXT: vmovaps %xmm0, (%rsi)			; AVX2-SLOW-NEXT: vmovaps %xmm0, (%rsi)
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_v4i64_to_v4i32:			; AVX2-FAST-LABEL: trunc_v4i64_to_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm0 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm0 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps (%rdi), %ymm0, %ymm0			; AVX2-FAST-NEXT: vpermps (%rdi), %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovaps %xmm0, (%rsi)			; AVX2-FAST-NEXT: vmovaps %xmm0, (%rsi)
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 461 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_with_zext_return_v8i16:			; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_with_zext_return_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_with_zext_return_v8i16:			; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_with_zext_return_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_via_v4i32_return_v8i16:			; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_via_v4i32_return_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_via_v4i32_return_v8i16:			; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_via_v4i32_return_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 517 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-256.ll

	Show First 20 Lines • Show All 219 Lines • ▼ Show 20 Lines
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovaps (%rdi), %xmm0			; AVX1-NEXT: vmovaps (%rdi), %xmm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
	; AVX1-NEXT: vmovaps %xmm0, (%rsi)			; AVX1-NEXT: vmovaps %xmm0, (%rsi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i32:			; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = mem[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vmovaps (%rdi), %xmm0
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
	; AVX2-SLOW-NEXT: vmovaps %xmm0, (%rsi)			; AVX2-SLOW-NEXT: vmovaps %xmm0, (%rsi)
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_v4i64_to_v4i32:			; AVX2-FAST-LABEL: trunc_v4i64_to_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm0 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm0 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps (%rdi), %ymm0, %ymm0			; AVX2-FAST-NEXT: vpermps (%rdi), %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovaps %xmm0, (%rsi)			; AVX2-FAST-NEXT: vmovaps %xmm0, (%rsi)
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 427 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_return_v2i64:			; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_return_v2i64:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_return_v2i64:			; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_return_v2i64:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_with_zext_return_v8i16:			; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_with_zext_return_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_with_zext_return_v8i16:			; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_with_zext_return_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_via_v4i32_return_v8i16:			; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_via_v4i32_return_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_via_v4i32_return_v8i16:			; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_via_v4i32_return_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_return_v8i16:			; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16_return_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13],zero,zero,zero,zero,zero,zero,zero,zero
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_return_v8i16:			; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16_return_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,4,8,12],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[u],zero			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,4,8,12],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[u],zero
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i8_return_v16i8:			; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i8_return_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,4,8,12],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[u],zero			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,4,8,12],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[u],zero
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_v4i64_to_v4i8_return_v16i8:			; AVX2-FAST-LABEL: trunc_v4i64_to_v4i8_return_v16i8:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 124 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovaps (%rdi), %xmm0			; AVX1-NEXT: vmovaps (%rdi), %xmm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX1-NEXT: vmovq %xmm0, (%rsi)			; AVX1-NEXT: vmovq %xmm0, (%rsi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16:			; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = mem[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vmovaps (%rdi), %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX2-SLOW-NEXT: vmovq %xmm0, (%rsi)			; AVX2-SLOW-NEXT: vmovq %xmm0, (%rsi)
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16:			; AVX2-FAST-LABEL: trunc_v4i64_to_v4i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm0 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm0 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd (%rdi), %ymm0, %ymm0			; AVX2-FAST-NEXT: vpermd (%rdi), %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX2-FAST-NEXT: vmovq %xmm0, (%rsi)			; AVX2-FAST-NEXT: vmovq %xmm0, (%rsi)
	▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vmovaps (%rdi), %xmm0			; AVX1-NEXT: vmovaps (%rdi), %xmm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u]			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u]
	; AVX1-NEXT: vmovd %xmm0, (%rsi)			; AVX1-NEXT: vmovd %xmm0, (%rsi)
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i8:			; AVX2-SLOW-LABEL: trunc_v4i64_to_v4i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = mem[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vmovaps (%rdi), %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],mem[0,2]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u]
	; AVX2-SLOW-NEXT: vmovd %xmm0, (%rsi)			; AVX2-SLOW-NEXT: vmovd %xmm0, (%rsi)
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_v4i64_to_v4i8:			; AVX2-FAST-LABEL: trunc_v4i64_to_v4i8:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm0 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm0 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd (%rdi), %ymm0, %ymm0			; AVX2-FAST-NEXT: vpermd (%rdi), %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vmovd %xmm0, (%rsi)			; AVX2-FAST-NEXT: vmovd %xmm0, (%rsi)
	▲ Show 20 Lines • Show All 125 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc-math-widen.ll

	Show All 26 Lines
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_add_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_add_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_add_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_add_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpaddq %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpaddq %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
				; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_add_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_add_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_add_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpaddq %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpaddq %ymm4, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpaddq %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpaddq %ymm7, %ymm3, %ymm3			; AVX2-SLOW-NEXT: vpaddq %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpaddq %ymm6, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpaddq %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpaddq %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
				; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_add_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_add_v16i64_v16i8:
	▲ Show 20 Lines • Show All 227 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_add_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_add_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_add_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_add_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_add_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_add_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_add_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 165 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_sub_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpsubq %ymm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpsubq %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_sub_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpsubq %ymm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vpsubq %ymm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_sub_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpsubq %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpsubq %ymm2, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpsubq %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpsubq %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
				; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_sub_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_sub_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpsubq %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpsubq %ymm4, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpsubq %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpsubq %ymm7, %ymm3, %ymm3			; AVX2-SLOW-NEXT: vpsubq %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpsubq %ymm6, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpsubq %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpsubq %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
				; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_sub_v16i64_v16i8:
	▲ Show 20 Lines • Show All 195 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 199 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_mul_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_mul_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_mul_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_mul_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_mul_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_mul_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 218 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_mul_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm7 = ymm7[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm7, %xmm8
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm7 = ymm7[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm8 = xmm7[0,2],xmm8[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm7
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm7[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm7, %xmm3, %xmm3			; AVX2-SLOW-NEXT: vpmulld %xmm8, %xmm3, %xmm3
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm6 = ymm6[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm6, %xmm7
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm6 = ymm6[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm6 = xmm6[0,2],xmm7[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm7
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm7[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm6, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpmulld %xmm6, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm6, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm5 = ymm5[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm5, %xmm7
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm5 = ymm5[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm5 = xmm5[0,2],xmm7[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm7
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm7[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm5, %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpmulld %xmm5, %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm4 = ymm4[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm4, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm4 = ymm4[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmulld %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm6, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm6, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	▲ Show 20 Lines • Show All 287 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_mul_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_mul_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_mul_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_mul_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_mul_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_mul_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 165 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_mul_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm3, %xmm3			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm3, %xmm3
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	▲ Show 20 Lines • Show All 207 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_and_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_and_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_and_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_and_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_and_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_and_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_and_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpand %ymm5, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vandps %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vandps %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpand %ymm7, %ymm3, %ymm3			; AVX2-SLOW-NEXT: vandps %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpand %ymm6, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vandps %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_and_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_and_v16i64_v16i8:
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_and_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_and_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_and_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_and_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_and_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_and_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_and_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_xor_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_xor_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_xor_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_xor_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vxorps %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpxor %ymm2, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_xor_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_xor_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_xor_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpxor %ymm5, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vxorps %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpxor %ymm4, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vxorps %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpxor %ymm7, %ymm3, %ymm3			; AVX2-SLOW-NEXT: vxorps %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpxor %ymm6, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vxorps %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_xor_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_xor_v16i64_v16i8:
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vxorps {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vxorps {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_xor_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vxorps {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vxorps {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_xor_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_xor_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_xor_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_xor_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_xor_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_xor_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_or_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_or_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_or_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_or_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vorps %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpor %ymm2, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_or_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_or_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_or_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpor %ymm5, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vorps %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpor %ymm4, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vorps %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpor %ymm7, %ymm3, %ymm3			; AVX2-SLOW-NEXT: vorps %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpor %ymm6, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vorps %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_or_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_or_v16i64_v16i8:
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vorps {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vorps {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_or_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vorps {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vorps {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_or_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_or_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_or_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_or_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_or_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_or_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 229 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc-math.ll

	Show All 26 Lines
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_add_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_add_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_add_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpaddq %ymm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_add_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpaddq %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpaddq %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
				; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_add_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_add_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_add_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpaddq %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpaddq %ymm4, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpaddq %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpaddq %ymm7, %ymm3, %ymm3			; AVX2-SLOW-NEXT: vpaddq %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpaddq %ymm6, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpaddq %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpaddq %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
				; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_add_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_add_v16i64_v16i8:
	▲ Show 20 Lines • Show All 227 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_add_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_add_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_add_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_add_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_add_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_add_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_add_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 165 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_sub_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpsubq %ymm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpsubq %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_sub_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpsubq %ymm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vpsubq %ymm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_sub_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpsubq %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpsubq %ymm2, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpsubq %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpsubq %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
				; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_sub_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_sub_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpsubq %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpsubq %ymm4, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpsubq %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpsubq %ymm7, %ymm3, %ymm3			; AVX2-SLOW-NEXT: vpsubq %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpsubq %ymm6, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpsubq %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpsubq %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
				; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_sub_v16i64_v16i8:
	▲ Show 20 Lines • Show All 195 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 199 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_mul_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm1, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmulld %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_mul_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_mul_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_mul_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_mul_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_mul_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 218 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_mul_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm7 = ymm7[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm7, %xmm8
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm7 = ymm7[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm8 = xmm7[0,2],xmm8[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm7
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm7[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm7, %xmm3, %xmm3			; AVX2-SLOW-NEXT: vpmulld %xmm8, %xmm3, %xmm3
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm6 = ymm6[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm6, %xmm7
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm6 = ymm6[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm6 = xmm6[0,2],xmm7[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm7
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm7[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm6, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpmulld %xmm6, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm6, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm5 = ymm5[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm5, %xmm7
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm5 = ymm5[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm5 = xmm5[0,2],xmm7[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm7
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm7[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm5, %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpmulld %xmm5, %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm4 = ymm4[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm4, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm4 = ymm4[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmulld %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm6, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm6, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	▲ Show 20 Lines • Show All 287 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_mul_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_mul_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_mul_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_mul_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_mul_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_mul_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 165 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_mul_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm3, %xmm3			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm3, %xmm3
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	▲ Show 20 Lines • Show All 207 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_and_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_and_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_and_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vandps %ymm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_and_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vandps %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_and_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_and_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_and_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpand %ymm5, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vandps %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vandps %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpand %ymm7, %ymm3, %ymm3			; AVX2-SLOW-NEXT: vandps %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpand %ymm6, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vandps %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_and_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_and_v16i64_v16i8:
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_and_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vandps {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_and_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_and_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_and_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_and_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_and_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_and_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_xor_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_xor_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_xor_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vxorps %ymm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vxorps %ymm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_xor_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vxorps %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpxor %ymm2, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vxorps %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_xor_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_xor_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_xor_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpxor %ymm5, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vxorps %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpxor %ymm4, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vxorps %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpxor %ymm7, %ymm3, %ymm3			; AVX2-SLOW-NEXT: vxorps %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpxor %ymm6, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vxorps %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_xor_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_xor_v16i64_v16i8:
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vxorps {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vxorps {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_xor_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vxorps {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vxorps {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_xor_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_xor_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_xor_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_xor_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_xor_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_xor_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_or_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_or_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_or_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vorps %ymm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_or_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vorps %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpor %ymm2, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vorps %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_or_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_or_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_or_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpor %ymm5, %ymm1, %ymm1			; AVX2-SLOW-NEXT: vorps %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpor %ymm4, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vorps %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpor %ymm7, %ymm3, %ymm3			; AVX2-SLOW-NEXT: vorps %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpor %ymm6, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vorps %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_or_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_or_v16i64_v16i8:
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vorps {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vorps {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_or_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vorps {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vorps {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_or_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_or_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_or_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_or_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_or_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_or_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm3 = ymm3[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 229 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc-packus-widen.ll

	Show First 20 Lines • Show All 200 Lines • ▼ Show 20 Lines
	; AVX2-SLOW-LABEL: trunc_packus_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_packus_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; AVX2-SLOW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm1			; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm1
	; AVX2-SLOW-NEXT: vpand %ymm0, %ymm1, %ymm0			; AVX2-SLOW-NEXT: vpand %ymm0, %ymm1, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_packus_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_packus_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; AVX2-FAST-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 390 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpand %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpand %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_packus_v8i64_v8i32:			; AVX2-SLOW-LABEL: trunc_packus_v8i64_v8i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3			; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1			; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
				; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
				; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm3			; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm3
	; AVX2-SLOW-NEXT: vpand %ymm1, %ymm3, %ymm1			; AVX2-SLOW-NEXT: vpand %ymm0, %ymm3, %ymm0
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm2			; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm2
	; AVX2-SLOW-NEXT: vpand %ymm0, %ymm2, %ymm0			; AVX2-SLOW-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_packus_v8i64_v8i32:			; AVX2-FAST-LABEL: trunc_packus_v8i64_v8i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3			; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
	; AVX2-FAST-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3			; AVX2-FAST-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3
	▲ Show 20 Lines • Show All 2,530 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc-packus.ll

	Show First 20 Lines • Show All 200 Lines • ▼ Show 20 Lines
	; AVX2-SLOW-LABEL: trunc_packus_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_packus_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; AVX2-SLOW-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm1			; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm1
	; AVX2-SLOW-NEXT: vpand %ymm0, %ymm1, %ymm0			; AVX2-SLOW-NEXT: vpand %ymm0, %ymm1, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_packus_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_packus_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; AVX2-FAST-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 390 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpand %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpand %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_packus_v8i64_v8i32:			; AVX2-SLOW-LABEL: trunc_packus_v8i64_v8i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3			; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1			; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
				; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
				; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm3			; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm3
	; AVX2-SLOW-NEXT: vpand %ymm1, %ymm3, %ymm1			; AVX2-SLOW-NEXT: vpand %ymm0, %ymm3, %ymm0
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm2			; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm2
	; AVX2-SLOW-NEXT: vpand %ymm0, %ymm2, %ymm0			; AVX2-SLOW-NEXT: vpand %ymm1, %ymm2, %ymm1
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_packus_v8i64_v8i32:			; AVX2-FAST-LABEL: trunc_packus_v8i64_v8i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3			; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
	; AVX2-FAST-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3			; AVX2-FAST-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3
	▲ Show 20 Lines • Show All 2,561 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc-ssat-widen.ll

	Show First 20 Lines • Show All 212 Lines • ▼ Show 20 Lines
	; AVX2-SLOW-LABEL: trunc_ssat_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_ssat_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [18446744071562067968,18446744071562067968,18446744071562067968,18446744071562067968]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [18446744071562067968,18446744071562067968,18446744071562067968,18446744071562067968]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2			; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
	; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_ssat_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_ssat_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]
	; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; AVX2-FAST-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 407 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_ssat_v8i64_v8i32:			; AVX2-SLOW-LABEL: trunc_ssat_v8i64_v8i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3			; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1			; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
				; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
				; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [18446744071562067968,18446744071562067968,18446744071562067968,18446744071562067968]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [18446744071562067968,18446744071562067968,18446744071562067968,18446744071562067968]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm3			; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm3
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
				; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
				; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_ssat_v8i64_v8i32:			; AVX2-FAST-LABEL: trunc_ssat_v8i64_v8i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]
	; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3			; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
	; AVX2-FAST-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	▲ Show 20 Lines • Show All 2,442 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc-ssat.ll

	Show First 20 Lines • Show All 212 Lines • ▼ Show 20 Lines
	; AVX2-SLOW-LABEL: trunc_ssat_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_ssat_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [18446744071562067968,18446744071562067968,18446744071562067968,18446744071562067968]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [18446744071562067968,18446744071562067968,18446744071562067968,18446744071562067968]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2			; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2
	; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_ssat_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_ssat_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]
	; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2			; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2
	; AVX2-FAST-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 407 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_ssat_v8i64_v8i32:			; AVX2-SLOW-LABEL: trunc_ssat_v8i64_v8i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3			; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1			; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
				; AVX2-SLOW-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
				; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [18446744071562067968,18446744071562067968,18446744071562067968,18446744071562067968]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [18446744071562067968,18446744071562067968,18446744071562067968,18446744071562067968]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm3			; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm3
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
				; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
				; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_ssat_v8i64_v8i32:			; AVX2-FAST-LABEL: trunc_ssat_v8i64_v8i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]
	; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3			; AVX2-FAST-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
	; AVX2-FAST-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	▲ Show 20 Lines • Show All 2,479 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc-usat-widen.ll

	Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; AVX2-SLOW-LABEL: trunc_usat_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_usat_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; AVX2-SLOW-NEXT: vpxor %ymm1, %ymm0, %ymm1			; AVX2-SLOW-NEXT: vpxor %ymm1, %ymm0, %ymm1
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm1			; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm1
	; AVX2-SLOW-NEXT: vmovapd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,429496729]			; AVX2-SLOW-NEXT: vmovapd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,429496729]
	; AVX2-SLOW-NEXT: vblendvpd %ymm1, %ymm0, %ymm2, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm1, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_usat_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_usat_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; AVX2-FAST-NEXT: vpxor %ymm1, %ymm0, %ymm1			; AVX2-FAST-NEXT: vpxor %ymm1, %ymm0, %ymm1
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]
	▲ Show 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_usat_v8i64_v8i32:			; AVX2-SLOW-LABEL: trunc_usat_v8i64_v8i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vbroadcastsd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-SLOW-NEXT: vbroadcastsd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; AVX2-SLOW-NEXT: vpxor %ymm3, %ymm1, %ymm4			; AVX2-SLOW-NEXT: vpxor %ymm3, %ymm0, %ymm4
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm5 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm5 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm4, %ymm5, %ymm4			; AVX2-SLOW-NEXT: vpcmpgtq %ymm4, %ymm5, %ymm4
	; AVX2-SLOW-NEXT: vblendvpd %ymm4, %ymm1, %ymm2, %ymm1			; AVX2-SLOW-NEXT: vblendvpd %ymm4, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpxor %ymm3, %ymm0, %ymm3			; AVX2-SLOW-NEXT: vpxor %ymm3, %ymm1, %ymm3
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm3, %ymm5, %ymm3			; AVX2-SLOW-NEXT: vpcmpgtq %ymm3, %ymm5, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_usat_v8i64_v8i32:			; AVX2-FAST-LABEL: trunc_usat_v8i64_v8i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vbroadcastsd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-FAST-NEXT: vbroadcastsd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; AVX2-FAST-NEXT: vpxor %ymm3, %ymm1, %ymm4			; AVX2-FAST-NEXT: vpxor %ymm3, %ymm1, %ymm4
	▲ Show 20 Lines • Show All 2,052 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc-usat.ll

	Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; AVX2-SLOW-LABEL: trunc_usat_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_usat_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; AVX2-SLOW-NEXT: vpxor %ymm1, %ymm0, %ymm1			; AVX2-SLOW-NEXT: vpxor %ymm1, %ymm0, %ymm1
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm1			; AVX2-SLOW-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm1
	; AVX2-SLOW-NEXT: vmovapd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,429496729]			; AVX2-SLOW-NEXT: vmovapd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,429496729]
	; AVX2-SLOW-NEXT: vblendvpd %ymm1, %ymm0, %ymm2, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm1, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_usat_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_usat_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; AVX2-FAST-NEXT: vpxor %ymm1, %ymm0, %ymm1			; AVX2-FAST-NEXT: vpxor %ymm1, %ymm0, %ymm1
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]
	▲ Show 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_usat_v8i64_v8i32:			; AVX2-SLOW-LABEL: trunc_usat_v8i64_v8i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vbroadcastsd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-SLOW-NEXT: vbroadcastsd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; AVX2-SLOW-NEXT: vpxor %ymm3, %ymm1, %ymm4			; AVX2-SLOW-NEXT: vpxor %ymm3, %ymm0, %ymm4
	; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm5 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]			; AVX2-SLOW-NEXT: vpbroadcastq {{.*#+}} ymm5 = [9223372041149743103,9223372041149743103,9223372041149743103,9223372041149743103]
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm4, %ymm5, %ymm4			; AVX2-SLOW-NEXT: vpcmpgtq %ymm4, %ymm5, %ymm4
	; AVX2-SLOW-NEXT: vblendvpd %ymm4, %ymm1, %ymm2, %ymm1			; AVX2-SLOW-NEXT: vblendvpd %ymm4, %ymm0, %ymm2, %ymm0
	; AVX2-SLOW-NEXT: vpxor %ymm3, %ymm0, %ymm3			; AVX2-SLOW-NEXT: vpxor %ymm3, %ymm1, %ymm3
	; AVX2-SLOW-NEXT: vpcmpgtq %ymm3, %ymm5, %ymm3			; AVX2-SLOW-NEXT: vpcmpgtq %ymm3, %ymm5, %ymm3
	; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0			; AVX2-SLOW-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_usat_v8i64_v8i32:			; AVX2-FAST-LABEL: trunc_usat_v8i64_v8i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vbroadcastsd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]			; AVX2-FAST-NEXT: vbroadcastsd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]
	; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; AVX2-FAST-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; AVX2-FAST-NEXT: vpxor %ymm3, %ymm1, %ymm4			; AVX2-FAST-NEXT: vpxor %ymm3, %ymm1, %ymm4
	▲ Show 20 Lines • Show All 2,004 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc-widen.ll

	Show All 23 Lines
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc8i64_8i32:			; AVX2-SLOW-LABEL: trunc8i64_8i32:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc8i64_8i32:			; AVX2-FAST-LABEL: trunc8i64_8i32:
	; AVX2-FAST: # %bb.0: # %entry			; AVX2-FAST: # %bb.0: # %entry
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1
	Show All 23 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm3[1,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm3[1,3]
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc8i64_8i32_ashr:			; AVX2-SLOW-LABEL: trunc8i64_8i32_ashr:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm2[1,3]
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[1,3,2,3,5,7,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc8i64_8i32_ashr:			; AVX2-FAST-LABEL: trunc8i64_8i32_ashr:
	; AVX2-FAST: # %bb.0: # %entry			; AVX2-FAST: # %bb.0: # %entry
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [1,3,5,7,5,7,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [1,3,5,7,5,7,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1
	Show All 25 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm3[1,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm3[1,3]
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc8i64_8i32_lshr:			; AVX2-SLOW-LABEL: trunc8i64_8i32_lshr:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpsrlq $32, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
				; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc8i64_8i32_lshr:			; AVX2-FAST-LABEL: trunc8i64_8i32_lshr:
	; AVX2-FAST: # %bb.0: # %entry			; AVX2-FAST: # %bb.0: # %entry
	; AVX2-FAST-NEXT: vpsrlq $32, %ymm1, %ymm1			; AVX2-FAST-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpsrlq $32, %ymm0, %ymm0			; AVX2-FAST-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc8i64_8i16:			; AVX2-SLOW-LABEL: trunc8i64_8i16:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc8i64_8i16:			; AVX2-FAST-LABEL: trunc8i64_8i16:
	; AVX2-FAST: # %bb.0: # %entry			; AVX2-FAST: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 1,155 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc2x4i64_8i32:			; AVX2-SLOW-LABEL: trunc2x4i64_8i32:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc2x4i64_8i32:			; AVX2-FAST-LABEL: trunc2x4i64_8i32:
	; AVX2-FAST: # %bb.0: # %entry			; AVX2-FAST: # %bb.0: # %entry
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 595 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-trunc.ll

	Show All 23 Lines
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc8i64_8i32:			; AVX2-SLOW-LABEL: trunc8i64_8i32:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc8i64_8i32:			; AVX2-FAST-LABEL: trunc8i64_8i32:
	; AVX2-FAST: # %bb.0: # %entry			; AVX2-FAST: # %bb.0: # %entry
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1
	Show All 23 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm3[1,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm3[1,3]
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc8i64_8i32_ashr:			; AVX2-SLOW-LABEL: trunc8i64_8i32_ashr:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[1,3,2,3,5,7,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm2[1,3]
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[1,3,2,3,5,7,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc8i64_8i32_ashr:			; AVX2-FAST-LABEL: trunc8i64_8i32_ashr:
	; AVX2-FAST: # %bb.0: # %entry			; AVX2-FAST: # %bb.0: # %entry
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [1,3,5,7,5,7,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [1,3,5,7,5,7,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1
	Show All 25 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm3[1,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,3],xmm3[1,3]
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[1,3],xmm2[1,3]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc8i64_8i32_lshr:			; AVX2-SLOW-LABEL: trunc8i64_8i32_lshr:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpsrlq $32, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
				; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc8i64_8i32_lshr:			; AVX2-FAST-LABEL: trunc8i64_8i32_lshr:
	; AVX2-FAST: # %bb.0: # %entry			; AVX2-FAST: # %bb.0: # %entry
	; AVX2-FAST-NEXT: vpsrlq $32, %ymm1, %ymm1			; AVX2-FAST-NEXT: vpsrlq $32, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpsrlq $32, %ymm0, %ymm0			; AVX2-FAST-NEXT: vpsrlq $32, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc8i64_8i16:			; AVX2-SLOW-LABEL: trunc8i64_8i16:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc8i64_8i16:			; AVX2-FAST-LABEL: trunc8i64_8i16:
	; AVX2-FAST: # %bb.0: # %entry			; AVX2-FAST: # %bb.0: # %entry
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, (%rax)			; AVX1-NEXT: vmovq %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc8i64_8i8:			; AVX2-SLOW-LABEL: trunc8i64_8i8:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
	; AVX2-SLOW-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; AVX2-SLOW-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX2-SLOW-NEXT: vmovq %xmm0, (%rax)			; AVX2-SLOW-NEXT: vmovq %xmm0, (%rax)
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 1,070 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc2x4i64_8i32:			; AVX2-SLOW-LABEL: trunc2x4i64_8i32:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpermilps {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermpd {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc2x4i64_8i32:			; AVX2-FAST-LABEL: trunc2x4i64_8i32:
	; AVX2-FAST: # %bb.0: # %entry			; AVX2-FAST: # %bb.0: # %entry
	; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovaps {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vpermps %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermps %ymm1, %ymm2, %ymm1
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc2x4i64_8i16:			; AVX2-SLOW-LABEL: trunc2x4i64_8i16:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2-SLOW: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm1 = ymm1[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX2-SLOW-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX2-SLOW-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-SLOW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc2x4i64_8i16:			; AVX2-FAST-LABEL: trunc2x4i64_8i16:
	▲ Show 20 Lines • Show All 479 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[x86] split more v8f32/v8i32 shuffles in loweringClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 187253

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

llvm/trunk/test/CodeGen/X86/avx2-conversions.ll

llvm/trunk/test/CodeGen/X86/avx2-vector-shifts.ll

llvm/trunk/test/CodeGen/X86/combine-shl.ll

llvm/trunk/test/CodeGen/X86/combine-sra.ll

llvm/trunk/test/CodeGen/X86/combine-srl.ll

llvm/trunk/test/CodeGen/X86/oddshuffles.ll

llvm/trunk/test/CodeGen/X86/reduce-trunc-shl.ll

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-256-widen.ll

llvm/trunk/test/CodeGen/X86/shuffle-vs-trunc-256.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-math-widen.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-math.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-packus-widen.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-packus.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-ssat-widen.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-ssat.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-usat-widen.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-usat.ll

llvm/trunk/test/CodeGen/X86/vector-trunc-widen.ll

llvm/trunk/test/CodeGen/X86/vector-trunc.ll

[x86] split more v8f32/v8i32 shuffles in lowering
ClosedPublic