This is an archive of the discontinued LLVM Phabricator instance.

[X86][AVX] Truncate vectors with PACKSS/PACKUS on AVX2 targets
ClosedPublic

Authored by RKSimon on Feb 12 2021, 7:28 AM.

Download Raw Diff

Details

Reviewers

craig.topper
pengfei
spatel
andreadb

Commits

rG36e3c6c841eb: [X86][AVX] Truncate vectors with PACKSS/PACKUS on AVX2 targets

Summary

Until AVX512 we don't have any vector truncation instructions, and always lower using shuffles instead.

combineVectorTruncation performs this earlier than lowering as it makes it easier to use any sign/zero-extended bits in the truncated bits with PACKSS/PACKUS to perform the shuffle.

We currently don't attempt to use combineVectorTruncation on AVX2 targets as in the past 256-bit PACKSS/PACKUS tended to cause 128-bit lane shuffle regressions - but these should now be all resolved with combineHorizOpWithShuffle and in all cases we now reduce the amount of cross-lane shuffling and variable shuffle mask usage.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

RKSimon created this revision.Feb 12 2021, 7:28 AM

Herald added a subscriber: hiraditya. · View Herald TranscriptFeb 12 2021, 7:28 AM

RKSimon requested review of this revision.Feb 12 2021, 7:28 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 12 2021, 7:28 AM

RKSimon added inline comments.Feb 12 2021, 7:29 AM

llvm/test/CodeGen/X86/psubus.ll
1526	This will be fixed by D96413

Harbormaster completed remote builds in B89001: Diff 323325.Feb 12 2021, 8:58 AM

Rebase after D96413

Harbormaster completed remote builds in B89030: Diff 323397.Feb 12 2021, 12:33 PM

ping?

xbolva00 added a subscriber: xbolva00.Feb 23 2021, 11:03 AM

xbolva00 added inline comments.

llvm/test/CodeGen/X86/vector-reduce-and-bool.ll
561	Worse?

RKSimon added inline comments.Feb 23 2021, 11:08 AM

llvm/test/CodeGen/X86/vector-reduce-and-bool.ll
561	We remove lane crossing shuffles, a pshufb (so no constant pool mask load) and a domain crossing shufps. Some AVX2 targets won't care but others will (e.g. znver1 will love losing the lane shuffles).

pengfei added inline comments.Feb 23 2021, 5:38 PM

llvm/test/CodeGen/X86/vector-reduce-and-bool.ll
561	So it means some targets worse and some better?

craig.topper added inline comments.Feb 23 2021, 6:05 PM

llvm/test/CodeGen/X86/vector-reduce-and-bool.ll
561	Arent most lane crossing shuffles on Intel 3 cycles?

RKSimon added inline comments.Feb 24 2021, 2:21 AM

llvm/test/CodeGen/X86/vector-reduce-and-bool.ll
561	By 'won't care' I meant the diff shouldn't be a regression on any target but some targets would benefit more than others - in particular by getting rid of the vperm2f128 which have gotten slower since Haswell on Intel targets (and faster since Zen2 on AMD targets).

pengfei added inline comments.Feb 24 2021, 7:14 AM

llvm/test/CodeGen/X86/vector-reduce-and-bool.ll
561	I compared the uops of vperm2f128, Haswell and latter Intel targets as well as AMX Zen2 have the same performance: Lat = 3, Uops =1. Zen1 has big gap since Lat = 4, Uops = 8.

RKSimon mentioned this in rG7920527796ea: [X86][AVX] combineBitcastvxi1 - improve handling of vectors truncated to vXi1.Mar 24 2021, 7:12 AM

rebase

Harbormaster completed remote builds in B95485: Diff 332983.Mar 24 2021, 1:18 PM

LGTM. Thanks for improving it :)

This revision is now accepted and ready to land.Mar 24 2021, 6:10 PM

In D96609#2649441, @pengfei wrote:

LGTM. Thanks for improving it :)

That's what we're here to do. Cheers!

This revision was landed with ongoing or failed builds.Mar 25 2021, 3:35 AM

Closed by commit rG36e3c6c841eb: [X86][AVX] Truncate vectors with PACKSS/PACKUS on AVX2 targets (authored by RKSimon). · Explain Why

This revision was automatically updated to reflect the committed changes.

RKSimon added a commit: rG36e3c6c841eb: [X86][AVX] Truncate vectors with PACKSS/PACKUS on AVX2 targets.

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

6 lines

test/

CodeGen/

X86/

masked_store_trunc.ll

56 lines

psubus.ll

14 lines

vector-reduce-and-bool.ll

16 lines

vector-reduce-or-bool.ll

16 lines

vector-reduce-xor-bool.ll

16 lines

vector-trunc-math.ll

1427 lines

vector-trunc.ll

81 lines

Diff 333245

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 46,139 Lines • ▼ Show 20 Lines	static SDValue combineVectorTruncation(SDNode *N, SelectionDAG &DAG,

SDValue In = N->getOperand(0);		SDValue In = N->getOperand(0);
if (!In.getValueType().isSimple())		if (!In.getValueType().isSimple())
return SDValue();		return SDValue();

EVT InVT = In.getValueType();		EVT InVT = In.getValueType();
unsigned NumElems = OutVT.getVectorNumElements();		unsigned NumElems = OutVT.getVectorNumElements();

// TODO: On AVX2, the behavior of X86ISD::PACKUS is different from that on		// AVX512 provides fast truncate ops.
// SSE2, and we need to take care of it specially.		if (!Subtarget.hasSSE2() \|\| Subtarget.hasAVX512())
// AVX512 provides vpmovdb.
if (!Subtarget.hasSSE2() \|\| Subtarget.hasAVX2())
return SDValue();		return SDValue();

EVT OutSVT = OutVT.getVectorElementType();		EVT OutSVT = OutVT.getVectorElementType();
EVT InSVT = InVT.getVectorElementType();		EVT InSVT = InVT.getVectorElementType();
if (!((InSVT == MVT::i16 \|\| InSVT == MVT::i32 \|\| InSVT == MVT::i64) &&		if (!((InSVT == MVT::i16 \|\| InSVT == MVT::i32 \|\| InSVT == MVT::i64) &&
(OutSVT == MVT::i8 \|\| OutSVT == MVT::i16) && isPowerOf2_32(NumElems) &&		(OutSVT == MVT::i8 \|\| OutSVT == MVT::i16) && isPowerOf2_32(NumElems) &&
NumElems >= 8))		NumElems >= 8))
return SDValue();		return SDValue();
▲ Show 20 Lines • Show All 5,624 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_store_trunc.ll

	Show First 20 Lines • Show All 447 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: .LBB1_15: # %cond.store13			; AVX1-NEXT: .LBB1_15: # %cond.store13
	; AVX1-NEXT: vpextrw $7, %xmm0, 14(%rdi)			; AVX1-NEXT: vpextrw $7, %xmm0, 14(%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: truncstore_v8i64_v8i16:			; AVX2-LABEL: truncstore_v8i64_v8i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm3[1,2,3],ymm1[4],ymm3[5,6,7],ymm1[8],ymm3[9,10,11],ymm1[12],ymm3[13,14,15]
	; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm3[1,2,3],ymm0[4],ymm3[5,6,7],ymm0[8],ymm3[9,10,11],ymm0[12],ymm3[13,14,15]
	; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm4[0,2],ymm0[4,6],ymm4[4,6]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm2, %ymm1			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm2, %ymm1
	; AVX2-NEXT: vmovmskps %ymm1, %eax			; AVX2-NEXT: vmovmskps %ymm1, %eax
	; AVX2-NEXT: notl %eax			; AVX2-NEXT: notl %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	; AVX2-NEXT: jne .LBB1_1			; AVX2-NEXT: jne .LBB1_1
	; AVX2-NEXT: # %bb.2: # %else			; AVX2-NEXT: # %bb.2: # %else
	; AVX2-NEXT: testb $2, %al			; AVX2-NEXT: testb $2, %al
	; AVX2-NEXT: jne .LBB1_3			; AVX2-NEXT: jne .LBB1_3
	▲ Show 20 Lines • Show All 367 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: .LBB2_15: # %cond.store13			; AVX1-NEXT: .LBB2_15: # %cond.store13
	; AVX1-NEXT: vpextrb $7, %xmm0, 7(%rdi)			; AVX1-NEXT: vpextrb $7, %xmm0, 7(%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: truncstore_v8i64_v8i8:			; AVX2-LABEL: truncstore_v8i64_v8i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm4			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm5 = <u,u,0,8,u,u,u,u,u,u,u,u,u,u,u,u>			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-NEXT: vpshufb %xmm5, %xmm4, %xmm4			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb %xmm5, %xmm1, %xmm1			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm4			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm5 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm5, %xmm4, %xmm4			; AVX2-NEXT: vpackuswb %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm5, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm2, %ymm1			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm2, %ymm1
	; AVX2-NEXT: vmovmskps %ymm1, %eax			; AVX2-NEXT: vmovmskps %ymm1, %eax
	; AVX2-NEXT: notl %eax			; AVX2-NEXT: notl %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	; AVX2-NEXT: jne .LBB2_1			; AVX2-NEXT: jne .LBB2_1
	; AVX2-NEXT: # %bb.2: # %else			; AVX2-NEXT: # %bb.2: # %else
	; AVX2-NEXT: testb $2, %al			; AVX2-NEXT: testb $2, %al
	; AVX2-NEXT: jne .LBB2_3			; AVX2-NEXT: jne .LBB2_3
	▲ Show 20 Lines • Show All 1,497 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: .LBB9_31: # %cond.store29			; AVX1-NEXT: .LBB9_31: # %cond.store29
	; AVX1-NEXT: vpextrw $7, %xmm0, 30(%rdi)			; AVX1-NEXT: vpextrw $7, %xmm0, 30(%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: truncstore_v16i32_v16i16:			; AVX2-LABEL: truncstore_v16i32_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX2-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm5 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm4[1],ymm1[2],ymm4[3],ymm1[4],ymm4[5],ymm1[6],ymm4[7],ymm1[8],ymm4[9],ymm1[10],ymm4[11],ymm1[12],ymm4[13],ymm1[14],ymm4[15]
	; AVX2-NEXT: vpshufb %ymm5, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm4[1],ymm0[2],ymm4[3],ymm0[4],ymm4[5],ymm0[6],ymm4[7],ymm0[8],ymm4[9],ymm0[10],ymm4[11],ymm0[12],ymm4[13],ymm0[14],ymm4[15]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb %ymm5, %ymm1, %ymm1			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm3, %ymm1			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm3, %ymm1
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm2, %ymm2
	; AVX2-NEXT: vpxor %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpackssdw %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpackssdw %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vpacksswb %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpacksswb %xmm2, %xmm1, %xmm1
	▲ Show 20 Lines • Show All 656 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: .LBB10_31: # %cond.store29			; AVX1-NEXT: .LBB10_31: # %cond.store29
	; AVX1-NEXT: vpextrb $15, %xmm0, 15(%rdi)			; AVX1-NEXT: vpextrb $15, %xmm0, 15(%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: truncstore_v16i32_v16i8:			; AVX2-LABEL: truncstore_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX2-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm5 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm5, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm5, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm5, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm6, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm5, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm6, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm3, %ymm1			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm3, %ymm1
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm3, %ymm3
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vpcmpeqd %ymm4, %ymm2, %ymm2			; AVX2-NEXT: vpcmpeqd %ymm4, %ymm2, %ymm2
	; AVX2-NEXT: vpxor %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX2-NEXT: vpackssdw %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpackssdw %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vpacksswb %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpacksswb %xmm2, %xmm1, %xmm1
	▲ Show 20 Lines • Show All 2,067 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: .LBB15_63: # %cond.store61			; AVX1-NEXT: .LBB15_63: # %cond.store61
	; AVX1-NEXT: vpextrb $15, %xmm0, 31(%rdi)			; AVX1-NEXT: vpextrb $15, %xmm0, 31(%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: truncstore_v32i16_v32i8:			; AVX2-LABEL: truncstore_v32i16_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpbroadcastw {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vpcmpeqb %ymm3, %ymm2, %ymm1			; AVX2-NEXT: vpcmpeqb %ymm3, %ymm2, %ymm1
	; AVX2-NEXT: vpmovmskb %ymm1, %eax			; AVX2-NEXT: vpmovmskb %ymm1, %eax
	; AVX2-NEXT: notl %eax			; AVX2-NEXT: notl %eax
	; AVX2-NEXT: testb $1, %al			; AVX2-NEXT: testb $1, %al
	▲ Show 20 Lines • Show All 1,418 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/psubus.ll

	Show First 20 Lines • Show All 696 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vextracti128 $1, %ymm4, %xmm6			; AVX2-NEXT: vextracti128 $1, %ymm4, %xmm6
	; AVX2-NEXT: vpackssdw %xmm6, %xmm4, %xmm4			; AVX2-NEXT: vpackssdw %xmm6, %xmm4, %xmm4
	; AVX2-NEXT: vpmaxud %ymm3, %ymm2, %ymm3			; AVX2-NEXT: vpmaxud %ymm3, %ymm2, %ymm3
	; AVX2-NEXT: vpcmpeqd %ymm3, %ymm2, %ymm3			; AVX2-NEXT: vpcmpeqd %ymm3, %ymm2, %ymm3
	; AVX2-NEXT: vpxor %ymm5, %ymm3, %ymm3			; AVX2-NEXT: vpxor %ymm5, %ymm3, %ymm3
	; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm5			; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm5
	; AVX2-NEXT: vpackssdw %xmm5, %xmm3, %xmm3			; AVX2-NEXT: vpackssdw %xmm5, %xmm3, %xmm3
	; AVX2-NEXT: vpacksswb %xmm3, %xmm4, %xmm3			; AVX2-NEXT: vpacksswb %xmm3, %xmm4, %xmm3
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm4, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpand %xmm5, %xmm2, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vpshufb %ymm4, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]
	; AVX2-NEXT: vpand %xmm5, %xmm1, %xmm1
	; AVX2-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
				; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,1,3]
	; AVX2-NEXT: vpsubb %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpsubb %xmm0, %xmm1, %xmm0
	; AVX2-NEXT: vpandn %xmm0, %xmm3, %xmm0			; AVX2-NEXT: vpandn %xmm0, %xmm3, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: test14:			; AVX512-LABEL: test14:
	; AVX512: # %bb.0: # %vector.ph			; AVX512: # %bb.0: # %vector.ph
	; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	▲ Show 20 Lines • Show All 798 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,1,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[0,2,1,3]
	; AVX2-NEXT: vpsubusw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpsubusw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: psubus_8i64_max:			; AVX512-LABEL: psubus_8i64_max:
	; AVX512: # %bb.0: # %vector.ph			; AVX512: # %bb.0: # %vector.ph
	; AVX512-NEXT: vpmovusqw %zmm1, %xmm1			; AVX512-NEXT: vpmovusqw %zmm1, %xmm1
	; AVX512-NEXT: vpsubusw %xmm1, %xmm0, %xmm0			; AVX512-NEXT: vpsubusw %xmm1, %xmm0, %xmm0
				RKSimonAuthorUnsubmitted Done Reply Inline Actions This will be fixed by D96413 RKSimon: This will be fixed by D96413
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	vector.ph:			vector.ph:
	%lhs = zext <8 x i16> %x to <8 x i64>			%lhs = zext <8 x i16> %x to <8 x i64>
	%cond = icmp ult <8 x i64> %lhs, %y			%cond = icmp ult <8 x i64> %lhs, %y
	%max = select <8 x i1> %cond, <8 x i64> %y, <8 x i64> %lhs			%max = select <8 x i1> %cond, <8 x i64> %y, <8 x i64> %lhs
	%sub = sub <8 x i64> %max, %y			%sub = sub <8 x i64> %max, %y
	%res = trunc <8 x i64> %sub to <8 x i16>			%res = trunc <8 x i64> %sub to <8 x i16>
	▲ Show 20 Lines • Show All 1,315 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-and-bool.ll

	Show First 20 Lines • Show All 552 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_v8i64_v8i1:			; AVX2-LABEL: trunc_v8i64_v8i1:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]
	; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]
	; AVX2-NEXT: vpslld $31, %ymm0, %ymm0			; AVX2-NEXT: vpslld $31, %ymm0, %ymm0
	; AVX2-NEXT: vmovmskps %ymm0, %eax			; AVX2-NEXT: vmovmskps %ymm0, %eax
				xbolva00Unsubmitted Not Done Reply Inline Actions Worse? xbolva00: Worse?
				RKSimonAuthorUnsubmitted Done Reply Inline Actions We remove lane crossing shuffles, a pshufb (so no constant pool mask load) and a domain crossing shufps. Some AVX2 targets won't care but others will (e.g. znver1 will love losing the lane shuffles). RKSimon: We remove lane crossing shuffles, a pshufb (so no constant pool mask load) and a domain…
				pengfeiUnsubmitted Not Done Reply Inline Actions So it means some targets worse and some better? pengfei: So it means some targets worse and some better?
				craig.topperUnsubmitted Not Done Reply Inline Actions Arent most lane crossing shuffles on Intel 3 cycles? craig.topper: Arent most lane crossing shuffles on Intel 3 cycles?
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions By 'won't care' I meant the diff shouldn't be a regression on any target but some targets would benefit more than others - in particular by getting rid of the vperm2f128 which have gotten slower since Haswell on Intel targets (and faster since Zen2 on AMD targets). RKSimon: By 'won't care' I meant the diff shouldn't be a regression on any target but some targets would…
				pengfeiUnsubmitted Not Done Reply Inline Actions I compared the uops of vperm2f128, Haswell and latter Intel targets as well as AMX Zen2 have the same performance: Lat = 3, Uops =1. Zen1 has big gap since Lat = 4, Uops = 8. pengfei: I compared the [[ https://uops.info/table.html?search=vperm2f128&cb_lat=on&cb_tp=on&cb_uops=on&…
	; AVX2-NEXT: cmpb $-1, %al			; AVX2-NEXT: cmpb $-1, %al
	; AVX2-NEXT: sete %al			; AVX2-NEXT: sete %al
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_v8i64_v8i1:			; AVX512F-LABEL: trunc_v8i64_v8i1:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpsllq $63, %zmm0, %zmm0			; AVX512F-NEXT: vpsllq $63, %zmm0, %zmm0
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: cmpw $-1, %ax			; AVX1-NEXT: cmpw $-1, %ax
	; AVX1-NEXT: sete %al			; AVX1-NEXT: sete %al
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_v16i32_v16i1:			; AVX2-LABEL: trunc_v16i32_v16i1:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vpsllw $7, %xmm0, %xmm0			; AVX2-NEXT: vpsllw $7, %xmm0, %xmm0
	; AVX2-NEXT: vpmovmskb %xmm0, %eax			; AVX2-NEXT: vpmovmskb %xmm0, %eax
	; AVX2-NEXT: cmpw $-1, %ax			; AVX2-NEXT: cmpw $-1, %ax
	; AVX2-NEXT: sete %al			; AVX2-NEXT: sete %al
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_v16i32_v16i1:			; AVX512-LABEL: trunc_v16i32_v16i1:
	Show All 36 Lines
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: cmpw $-1, %ax			; AVX1-NEXT: cmpw $-1, %ax
	; AVX1-NEXT: sete %al			; AVX1-NEXT: sete %al
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_v32i16_v32i1:			; AVX2-LABEL: trunc_v32i16_v32i1:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpbroadcastw {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vpsllw $7, %ymm0, %ymm0			; AVX2-NEXT: vpsllw $7, %ymm0, %ymm0
	; AVX2-NEXT: vpmovmskb %ymm0, %eax			; AVX2-NEXT: vpmovmskb %ymm0, %eax
	; AVX2-NEXT: cmpl $-1, %eax			; AVX2-NEXT: cmpl $-1, %eax
	; AVX2-NEXT: sete %al			; AVX2-NEXT: sete %al
	▲ Show 20 Lines • Show All 972 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-or-bool.ll

	Show First 20 Lines • Show All 631 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: testw %ax, %ax			; AVX1-NEXT: testw %ax, %ax
	; AVX1-NEXT: setne %al			; AVX1-NEXT: setne %al
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_v16i32_v16i1:			; AVX2-LABEL: trunc_v16i32_v16i1:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vpsllw $7, %xmm0, %xmm0			; AVX2-NEXT: vpsllw $7, %xmm0, %xmm0
	; AVX2-NEXT: vpmovmskb %xmm0, %eax			; AVX2-NEXT: vpmovmskb %xmm0, %eax
	; AVX2-NEXT: testw %ax, %ax			; AVX2-NEXT: testw %ax, %ax
	; AVX2-NEXT: setne %al			; AVX2-NEXT: setne %al
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_v16i32_v16i1:			; AVX512-LABEL: trunc_v16i32_v16i1:
	Show All 36 Lines
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: testw %ax, %ax			; AVX1-NEXT: testw %ax, %ax
	; AVX1-NEXT: setne %al			; AVX1-NEXT: setne %al
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_v32i16_v32i1:			; AVX2-LABEL: trunc_v32i16_v32i1:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpbroadcastw {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vpsllw $7, %ymm0, %ymm0			; AVX2-NEXT: vpsllw $7, %ymm0, %ymm0
	; AVX2-NEXT: vpmovmskb %ymm0, %eax			; AVX2-NEXT: vpmovmskb %ymm0, %eax
	; AVX2-NEXT: testl %eax, %eax			; AVX2-NEXT: testl %eax, %eax
	; AVX2-NEXT: setne %al			; AVX2-NEXT: setne %al
	▲ Show 20 Lines • Show All 983 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-reduce-xor-bool.ll

	Show First 20 Lines • Show All 656 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: xorb %ah, %al			; AVX1-NEXT: xorb %ah, %al
	; AVX1-NEXT: setnp %al			; AVX1-NEXT: setnp %al
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_v16i32_v16i1:			; AVX2-LABEL: trunc_v16i32_v16i1:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vpsllw $7, %xmm0, %xmm0			; AVX2-NEXT: vpsllw $7, %xmm0, %xmm0
	; AVX2-NEXT: vpmovmskb %xmm0, %eax			; AVX2-NEXT: vpmovmskb %xmm0, %eax
	; AVX2-NEXT: xorb %ah, %al			; AVX2-NEXT: xorb %ah, %al
	; AVX2-NEXT: setnp %al			; AVX2-NEXT: setnp %al
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_v16i32_v16i1:			; AVX512F-LABEL: trunc_v16i32_v16i1:
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmovmskb %xmm0, %eax			; AVX1-NEXT: vpmovmskb %xmm0, %eax
	; AVX1-NEXT: xorb %ah, %al			; AVX1-NEXT: xorb %ah, %al
	; AVX1-NEXT: setnp %al			; AVX1-NEXT: setnp %al
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_v32i16_v32i1:			; AVX2-LABEL: trunc_v32i16_v32i1:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpbroadcastw {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vpsllw $7, %ymm0, %ymm0			; AVX2-NEXT: vpsllw $7, %ymm0, %ymm0
	; AVX2-NEXT: vpmovmskb %ymm0, %eax			; AVX2-NEXT: vpmovmskb %ymm0, %eax
	; AVX2-NEXT: movl %eax, %ecx			; AVX2-NEXT: movl %eax, %ecx
	; AVX2-NEXT: shrl $16, %ecx			; AVX2-NEXT: shrl $16, %ecx
	▲ Show 20 Lines • Show All 1,100 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc-math.ll

	Show First 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_v8i64_v8i16:			; AVX2-LABEL: trunc_add_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vpaddq %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpaddq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vperm2i128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vzeroupper
	;			; AVX2-NEXT: retq
	; AVX2-FAST-LABEL: trunc_add_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpaddq %ymm3, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpaddq %ymm2, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_add_v8i64_v8i16:			; AVX512-LABEL: trunc_add_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = add <8 x i64> %a0, %a1			%1 = add <8 x i64> %a0, %a1
	▲ Show 20 Lines • Show All 108 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpand %xmm7, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm7, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm7, %xmm8, %xmm3			; AVX1-NEXT: vpand %xmm7, %xmm8, %xmm3
	; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_v16i64_v16i8:			; AVX2-LABEL: trunc_add_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vpaddq %ymm5, %ymm1, %ymm1			; AVX2-NEXT: vpaddq %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpaddq %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpaddq %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpaddq %ymm7, %ymm3, %ymm3			; AVX2-NEXT: vpaddq %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpaddq %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vpaddq %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vperm2i128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,2],ymm4[0,2],ymm2[4,6],ymm4[4,6]			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vperm2i128 {{.*#+}} ymm5 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm5[0,2],ymm0[4,6],ymm5[4,6]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_add_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpaddq %ymm5, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpaddq %ymm4, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpaddq %ymm7, %ymm3, %ymm3
	; AVX2-FAST-NEXT: vpaddq %ymm6, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_add_v16i64_v16i8:			; AVX512-LABEL: trunc_add_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512-NEXT: vpaddq %zmm3, %zmm1, %zmm1			; AVX512-NEXT: vpaddq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpmovqb %zmm1, %xmm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqb %zmm0, %xmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_add_v16i32_v16i8:			; AVX2-LABEL: trunc_add_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpaddd %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpaddd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_add_v16i32_v16i8:			; AVX512-LABEL: trunc_add_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpaddd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 186 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_const_v8i64_v8i16:			; AVX2-LABEL: trunc_add_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	;			; AVX2-NEXT: vzeroupper
	; AVX2-FAST-LABEL: trunc_add_const_v8i64_v8i16:			; AVX2-NEXT: retq
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_add_const_v8i64_v8i16:			; AVX512-LABEL: trunc_add_const_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = add <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>			%1 = add <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_add_const_v16i64_v16i8:			; AVX2-LABEL: trunc_add_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,2],ymm4[0,2],ymm2[4,6],ymm4[4,6]			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm5[0,2],ymm0[4,6],ymm5[4,6]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_add_const_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_add_const_v16i64_v16i8:			; AVX512-LABEL: trunc_add_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqb %zmm1, %xmm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqb %zmm0, %xmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	Show All 28 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_add_const_v16i32_v16i8:			; AVX2-LABEL: trunc_add_const_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_add_const_v16i32_v16i8:			; AVX512-LABEL: trunc_add_const_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	▲ Show 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm3[1,2,3],xmm0[4],xmm3[5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm4[0],xmm3[1,2,3],xmm4[4],xmm3[5,6,7]
	; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_v8i64_v8i16:			; AVX2-LABEL: trunc_sub_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vpsubq %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpsubq %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpsubq %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpsubq %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vperm2i128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vzeroupper
	;			; AVX2-NEXT: retq
	; AVX2-FAST-LABEL: trunc_sub_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpsubq %ymm3, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpsubq %ymm2, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_v8i64_v8i16:			; AVX512-LABEL: trunc_sub_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpsubq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpsubq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <8 x i64> %a0, %a1			%1 = sub <8 x i64> %a0, %a1
	▲ Show 20 Lines • Show All 108 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpand %xmm7, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm7, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm7, %xmm8, %xmm3			; AVX1-NEXT: vpand %xmm7, %xmm8, %xmm3
	; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_v16i64_v16i8:			; AVX2-LABEL: trunc_sub_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vpsubq %ymm5, %ymm1, %ymm1			; AVX2-NEXT: vpsubq %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpsubq %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpsubq %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpsubq %ymm7, %ymm3, %ymm3			; AVX2-NEXT: vpsubq %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpsubq %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vpsubq %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vperm2i128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,2],ymm4[0,2],ymm2[4,6],ymm4[4,6]			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vperm2i128 {{.*#+}} ymm5 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm5[0,2],ymm0[4,6],ymm5[4,6]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_sub_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpsubq %ymm5, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpsubq %ymm4, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpsubq %ymm7, %ymm3, %ymm3
	; AVX2-FAST-NEXT: vpsubq %ymm6, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_v16i64_v16i8:			; AVX512-LABEL: trunc_sub_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpsubq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpsubq %zmm2, %zmm0, %zmm0
	; AVX512-NEXT: vpsubq %zmm3, %zmm1, %zmm1			; AVX512-NEXT: vpsubq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpmovqb %zmm1, %xmm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqb %zmm0, %xmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_v16i32_v16i8:			; AVX2-LABEL: trunc_sub_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsubd %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpsubd %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpsubd %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpsubd %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_v16i32_v16i8:			; AVX512-LABEL: trunc_sub_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpsubd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpsubd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 154 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX2-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0
	;			; AVX2-NEXT: vzeroupper
	; AVX2-FAST-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX2-NEXT: retq
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX512-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>			%1 = sub <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX2-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,2],ymm4[0,2],ymm2[4,6],ymm4[4,6]			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm5[0,2],ymm0[4,6],ymm5[4,6]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX512-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqb %zmm1, %xmm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqb %zmm0, %xmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	Show All 28 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_const_v16i32_v16i8:			; AVX2-LABEL: trunc_sub_const_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v16i32_v16i8:			; AVX512-LABEL: trunc_sub_const_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	▲ Show 20 Lines • Show All 214 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm4, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm4, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_v8i64_v8i16:			; AVX2-LABEL: trunc_mul_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]			; AVX2-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpblendw {{.*#+}} ymm3 = ymm3[0],ymm4[1,2,3],ymm3[4],ymm4[5,6,7],ymm3[8],ymm4[9,10,11],ymm3[12],ymm4[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,2],ymm4[0,2],ymm2[4,6],ymm4[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm2[0],ymm4[1,2,3],ymm2[4],ymm4[5,6,7],ymm2[8],ymm4[9,10,11],ymm2[12],ymm4[13,14,15]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpackusdw %xmm3, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm4[1,2,3],ymm1[4],ymm4[5,6,7],ymm1[8],ymm4[9,10,11],ymm1[12],ymm4[13,14,15]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm4[1,2,3],ymm0[4],ymm4[5,6,7],ymm0[8],ymm4[9,10,11],ymm0[12],ymm4[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm4[0,2],ymm0[4,6],ymm4[4,6]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpmullw %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vzeroupper
	;			; AVX2-NEXT: retq
	; AVX2-FAST-LABEL: trunc_mul_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpmullw %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_mul_v8i64_v8i16:			; AVX512F-LABEL: trunc_mul_v8i64_v8i16:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpmovqw %zmm1, %xmm1			; AVX512F-NEXT: vpmovqw %zmm1, %xmm1
	; AVX512F-NEXT: vpmovqw %zmm0, %xmm0			; AVX512F-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512F-NEXT: vpmullw %xmm1, %xmm0, %xmm0			; AVX512F-NEXT: vpmullw %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpand %xmm7, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm7, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm7, %xmm8, %xmm3			; AVX1-NEXT: vpand %xmm7, %xmm8, %xmm3
	; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_v16i64_v16i8:			; AVX2-LABEL: trunc_mul_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm7, %xmm8			; AVX2-NEXT: vpmuludq %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm8 = xmm7[0,2],xmm8[0,2]			; AVX2-NEXT: vpmuludq %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm7			; AVX2-NEXT: vpmuludq %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm7[0,2]			; AVX2-NEXT: vpmuludq %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vpmulld %xmm8, %xmm3, %xmm3			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm6, %xmm7			; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm6 = xmm6[0,2],xmm7[0,2]			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm7			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm7[0,2]			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vpmulld %xmm6, %xmm2, %xmm2			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm5, %xmm7			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm5 = xmm5[0,2],xmm7[0,2]			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm7			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm7[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm5, %xmm1, %xmm1
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm4, %xmm5
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vpmulld %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm6, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_mul_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm8 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm7, %ymm8, %ymm7
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm8, %ymm3
	; AVX2-FAST-NEXT: vpmulld %xmm7, %xmm3, %xmm3
	; AVX2-FAST-NEXT: vpermd %ymm6, %ymm8, %ymm6
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm8, %ymm2
	; AVX2-FAST-NEXT: vpmulld %xmm6, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm6 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm6, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm5, %ymm8, %ymm5
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm8, %ymm1
	; AVX2-FAST-NEXT: vpmulld %xmm5, %xmm1, %xmm1
	; AVX2-FAST-NEXT: vpermd %ymm4, %ymm8, %ymm4
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm8, %ymm0
	; AVX2-FAST-NEXT: vpmulld %xmm4, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm6, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_mul_v16i64_v16i8:			; AVX512F-LABEL: trunc_mul_v16i64_v16i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpmuludq %zmm2, %zmm0, %zmm0			; AVX512F-NEXT: vpmuludq %zmm2, %zmm0, %zmm0
	; AVX512F-NEXT: vpmuludq %zmm3, %zmm1, %zmm1			; AVX512F-NEXT: vpmuludq %zmm3, %zmm1, %zmm1
	; AVX512F-NEXT: vpmovqb %zmm1, %xmm1			; AVX512F-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512F-NEXT: vpmovqb %zmm0, %xmm0			; AVX512F-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_mul_v16i32_v16i8:			; AVX2-LABEL: trunc_mul_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulld %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpmulld %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpmulld %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpmulld %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_mul_v16i32_v16i8:			; AVX512-LABEL: trunc_mul_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmulld %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 189 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_const_v8i64_v8i16:			; AVX2-LABEL: trunc_mul_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	;			; AVX2-NEXT: vzeroupper
	; AVX2-FAST-LABEL: trunc_mul_const_v8i64_v8i16:			; AVX2-NEXT: retq
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_mul_const_v8i64_v8i16:			; AVX512-LABEL: trunc_mul_const_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = mul <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>			%1 = mul <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>
	▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm8, %xmm3			; AVX1-NEXT: vpand %xmm4, %xmm8, %xmm3
	; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_const_v16i64_v16i8:			; AVX2-LABEL: trunc_mul_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX2-NEXT: vpmuludq {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]			; AVX2-NEXT: vpmuludq {{.*}}(%rip), %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm2, %xmm2			; AVX2-NEXT: vpmuludq {{.*}}(%rip), %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX2-NEXT: vpmuludq {{.*}}(%rip), %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm3, %xmm3			; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_mul_const_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpmulld {{.*}}(%rip), %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vpmulld {{.*}}(%rip), %xmm3, %xmm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpmulld {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_mul_const_v16i64_v16i8:			; AVX512F-LABEL: trunc_mul_const_v16i64_v16i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpmuludq {{.*}}(%rip), %zmm0, %zmm0			; AVX512F-NEXT: vpmuludq {{.*}}(%rip), %zmm0, %zmm0
	; AVX512F-NEXT: vpmuludq {{.*}}(%rip), %zmm1, %zmm1			; AVX512F-NEXT: vpmuludq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512F-NEXT: vpmovqb %zmm1, %xmm1			; AVX512F-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512F-NEXT: vpmovqb %zmm0, %xmm0			; AVX512F-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_mul_const_v16i32_v16i8:			; AVX2-LABEL: trunc_mul_const_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpmulld {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpmulld {{.*}}(%rip), %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpmullw {{.*}}(%rip), %xmm1, %xmm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpmullw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_mul_const_v16i32_v16i8:			; AVX512-LABEL: trunc_mul_const_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmulld {{.*}}(%rip), %zmm0, %zmm0			; AVX512-NEXT: vpmulld {{.*}}(%rip), %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 142 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm4, %ymm2, %ymm2			; AVX1-NEXT: vandps %ymm4, %ymm2, %ymm2
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_v8i64_v8i16:			; AVX2-LABEL: trunc_and_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vandps %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vzeroupper
	;			; AVX2-NEXT: retq
	; AVX2-FAST-LABEL: trunc_and_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_and_v8i64_v8i16:			; AVX512-LABEL: trunc_and_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = and <8 x i64> %a0, %a1			%1 = and <8 x i64> %a0, %a1
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm3, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm3, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_v16i64_v16i8:			; AVX2-LABEL: trunc_and_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vandps %ymm5, %ymm1, %ymm1			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm8 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vandps %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm7, %ymm8, %ymm7
	; AVX2-SLOW-NEXT: vandps %ymm7, %ymm3, %ymm3			; AVX2-NEXT: vpand %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vandps %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm6, %ymm8, %ymm6
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]			; AVX2-NEXT: vpand %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,2],ymm4[0,2],ymm2[4,6],ymm4[4,6]			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpand %ymm5, %ymm8, %ymm3
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm8, %ymm3
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm5[0,2],ymm0[4,6],ymm5[4,6]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_and_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpand %ymm5, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpand %ymm7, %ymm3, %ymm3
	; AVX2-FAST-NEXT: vpand %ymm6, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_and_v16i64_v16i8:			; AVX512-LABEL: trunc_and_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512-NEXT: vpandq %zmm3, %zmm1, %zmm1			; AVX512-NEXT: vpandq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpmovqb %zmm1, %xmm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqb %zmm0, %xmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	Show All 33 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_and_v16i32_v16i8:			; AVX2-LABEL: trunc_and_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255]
				; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_and_v16i32_v16i8:			; AVX512-LABEL: trunc_and_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_const_v8i64_v8i16:			; AVX2-LABEL: trunc_and_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	;			; AVX2-NEXT: vzeroupper
	; AVX2-FAST-LABEL: trunc_and_const_v8i64_v8i16:			; AVX2-NEXT: retq
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_and_const_v8i64_v8i16:			; AVX512-LABEL: trunc_and_const_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = and <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>			%1 = and <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_and_const_v16i64_v16i8:			; AVX2-LABEL: trunc_and_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,2],ymm4[0,2],ymm2[4,6],ymm4[4,6]			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm5[0,2],ymm0[4,6],ymm5[4,6]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_and_const_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_and_const_v16i64_v16i8:			; AVX512-LABEL: trunc_and_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqb %zmm1, %xmm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqb %zmm0, %xmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	Show All 28 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_and_const_v16i32_v16i8:			; AVX2-LABEL: trunc_and_const_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_and_const_v16i32_v16i8:			; AVX512-LABEL: trunc_and_const_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	▲ Show 20 Lines • Show All 139 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_v8i64_v8i16:			; AVX2-LABEL: trunc_xor_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vxorps %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vxorps %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vzeroupper
	;			; AVX2-NEXT: retq
	; AVX2-FAST-LABEL: trunc_xor_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpxor %ymm2, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_xor_v8i64_v8i16:			; AVX512-LABEL: trunc_xor_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = xor <8 x i64> %a0, %a1			%1 = xor <8 x i64> %a0, %a1
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm4, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm4, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_v16i64_v16i8:			; AVX2-LABEL: trunc_xor_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vxorps %ymm5, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vxorps %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vxorps %ymm7, %ymm3, %ymm3			; AVX2-NEXT: vpxor %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vxorps %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vpxor %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,2],ymm4[0,2],ymm2[4,6],ymm4[4,6]			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm5[0,2],ymm0[4,6],ymm5[4,6]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_xor_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpxor %ymm5, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpxor %ymm4, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpxor %ymm7, %ymm3, %ymm3
	; AVX2-FAST-NEXT: vpxor %ymm6, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_xor_v16i64_v16i8:			; AVX512-LABEL: trunc_xor_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm2, %zmm0, %zmm0
	; AVX512-NEXT: vpxorq %zmm3, %zmm1, %zmm1			; AVX512-NEXT: vpxorq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpmovqb %zmm1, %xmm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqb %zmm0, %xmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	Show All 35 Lines
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_xor_v16i32_v16i8:			; AVX2-LABEL: trunc_xor_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_xor_v16i32_v16i8:			; AVX512-LABEL: trunc_xor_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpxord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_const_v8i64_v8i16:			; AVX2-LABEL: trunc_xor_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	;			; AVX2-NEXT: vzeroupper
	; AVX2-FAST-LABEL: trunc_xor_const_v8i64_v8i16:			; AVX2-NEXT: retq
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_xor_const_v8i64_v8i16:			; AVX512-LABEL: trunc_xor_const_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = xor <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>			%1 = xor <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_xor_const_v16i64_v16i8:			; AVX2-LABEL: trunc_xor_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,2],ymm4[0,2],ymm2[4,6],ymm4[4,6]			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm5[0,2],ymm0[4,6],ymm5[4,6]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_xor_const_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_xor_const_v16i64_v16i8:			; AVX512-LABEL: trunc_xor_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqb %zmm1, %xmm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqb %zmm0, %xmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	Show All 28 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_xor_const_v16i32_v16i8:			; AVX2-LABEL: trunc_xor_const_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_xor_const_v16i32_v16i8:			; AVX512-LABEL: trunc_xor_const_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	▲ Show 20 Lines • Show All 139 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_v8i64_v8i16:			; AVX2-LABEL: trunc_or_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vorps %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vorps %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vzeroupper
	;			; AVX2-NEXT: retq
	; AVX2-FAST-LABEL: trunc_or_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpor %ymm2, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_or_v8i64_v8i16:			; AVX512-LABEL: trunc_or_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = or <8 x i64> %a0, %a1			%1 = or <8 x i64> %a0, %a1
	▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm4, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm4, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_v16i64_v16i8:			; AVX2-LABEL: trunc_or_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vorps %ymm5, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vorps %ymm4, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm5, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vorps %ymm7, %ymm3, %ymm3			; AVX2-NEXT: vpor %ymm6, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vorps %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vpor %ymm7, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,2],ymm4[0,2],ymm2[4,6],ymm4[4,6]			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm5[0,2],ymm0[4,6],ymm5[4,6]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_or_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vpor %ymm5, %ymm1, %ymm1
	; AVX2-FAST-NEXT: vpor %ymm4, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpor %ymm7, %ymm3, %ymm3
	; AVX2-FAST-NEXT: vpor %ymm6, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_or_v16i64_v16i8:			; AVX512-LABEL: trunc_or_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm2, %zmm0, %zmm0
	; AVX512-NEXT: vporq %zmm3, %zmm1, %zmm1			; AVX512-NEXT: vporq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpmovqb %zmm1, %xmm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqb %zmm0, %xmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	Show All 35 Lines
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_or_v16i32_v16i8:			; AVX2-LABEL: trunc_or_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpor %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpor %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1			; AVX2-NEXT: vpor %ymm3, %ymm1, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_or_v16i32_v16i8:			; AVX512-LABEL: trunc_or_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_const_v8i64_v8i16:			; AVX2-LABEL: trunc_or_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	;			; AVX2-NEXT: vzeroupper
	; AVX2-FAST-LABEL: trunc_or_const_v8i64_v8i16:			; AVX2-NEXT: retq
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_or_const_v8i64_v8i16:			; AVX512-LABEL: trunc_or_const_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = or <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>			%1 = or <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_or_const_v16i64_v16i8:			; AVX2-LABEL: trunc_or_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm2[2,3],ymm3[2,3]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [255,255,255,255]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX2-NEXT: vpand %ymm4, %ymm3, %ymm3
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm2 = ymm2[0,2],ymm4[0,2],ymm2[4,6],ymm4[4,6]			; AVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpackusdw %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm5 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm2, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm5[0,2],ymm0[4,6],ymm5[4,6]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: retq
	; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq
	;
	; AVX2-FAST-LABEL: trunc_or_const_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_or_const_v16i64_v16i8:			; AVX512-LABEL: trunc_or_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqb %zmm1, %xmm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqb %zmm0, %xmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	Show All 28 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_or_const_v16i32_v16i8:			; AVX2-LABEL: trunc_or_const_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_or_const_v16i32_v16i8:			; AVX512-LABEL: trunc_or_const_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	▲ Show 20 Lines • Show All 144 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc.ll

	Show First 20 Lines • Show All 181 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc8i64_8i16:			; AVX2-LABEL: trunc8i64_8i16:
	; AVX2-SLOW: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-SLOW-NEXT: vperm2f128 {{.*#+}} ymm2 = ymm0[2,3],ymm1[2,3]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7],ymm1[8],ymm2[9,10,11],ymm1[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} ymm0 = ymm0[0,2],ymm2[0,2],ymm0[4,6],ymm2[4,6]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7],ymm0[8],ymm2[9,10,11],ymm0[12],ymm2[13,14,15]
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-SLOW-NEXT: retq			; AVX2-NEXT: vzeroupper
	;			; AVX2-NEXT: retq
	; AVX2-FAST-LABEL: trunc8i64_8i16:
	; AVX2-FAST: # %bb.0: # %entry
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,u,u,u,u,u,u,u,u,16,17,20,21,24,25,28,29,u,u,u,u,u,u,u,u]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc8i64_8i16:			; AVX512-LABEL: trunc8i64_8i16:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	entry:			entry:
	%0 = trunc <8 x i64> %a to <8 x i16>			%0 = trunc <8 x i64> %a to <8 x i16>
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, (%rax)			; AVX1-NEXT: vmovq %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc8i64_8i8:			; AVX2-LABEL: trunc8i64_8i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [255,255,255,255]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = <u,u,0,8,u,u,u,u,u,u,u,u,u,u,u,u>			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = <0,8,u,u,u,u,u,u,u,u,u,u,u,u,u,u>			; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; AVX2-NEXT: vpackuswb %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2,3]
	; AVX2-NEXT: vmovq %xmm0, (%rax)			; AVX2-NEXT: vmovq %xmm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc8i64_8i8:			; AVX512-LABEL: trunc8i64_8i8:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpmovqb %zmm0, (%rax)			; AVX512-NEXT: vpmovqb %zmm0, (%rax)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 369 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqu %xmm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vmovdqu %xmm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i16:			; AVX2-LABEL: trunc16i32_16i16:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpblendw {{.*#+}} ymm1 = ymm1[0],ymm2[1],ymm1[2],ymm2[3],ymm1[4],ymm2[5],ymm1[6],ymm2[7],ymm1[8],ymm2[9],ymm1[10],ymm2[11],ymm1[12],ymm2[13],ymm1[14],ymm2[15]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0],ymm2[1],ymm0[2],ymm2[3],ymm0[4],ymm2[5],ymm0[6],ymm2[7],ymm0[8],ymm2[9],ymm0[10],ymm2[11],ymm0[12],ymm2[13],ymm0[14],ymm2[15]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vmovdqu %xmm1, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vmovdqu %xmm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc16i32_16i16:			; AVX512-LABEL: trunc16i32_16i16:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpmovdw %zmm0, (%rax)			; AVX512-NEXT: vpmovdw %zmm0, (%rax)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	▲ Show 20 Lines • Show All 204 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovdqu %xmm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc16i32_16i8:			; AVX2-LABEL: trunc16i32_16i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpbroadcastd {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,1,3]
	; AVX2-NEXT: vmovdqu %xmm0, (%rax)			; AVX2-NEXT: vmovdqu %xmm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc16i32_16i8:			; AVX512-LABEL: trunc16i32_16i8:
	; AVX512: # %bb.0: # %entry			; AVX512: # %bb.0: # %entry
	; AVX512-NEXT: vpmovdb %zmm0, (%rax)			; AVX512-NEXT: vpmovdb %zmm0, (%rax)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 375 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqu %xmm1, (%rax)			; AVX1-NEXT: vmovdqu %xmm1, (%rax)
	; AVX1-NEXT: vmovdqu %xmm0, (%rax)			; AVX1-NEXT: vmovdqu %xmm0, (%rax)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc32i16_32i8:			; AVX2-LABEL: trunc32i16_32i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX2-NEXT: vpbroadcastw {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vmovdqu %ymm0, (%rax)			; AVX2-NEXT: vmovdqu %ymm0, (%rax)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 870 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86][AVX] Truncate vectors with PACKSS/PACKUS on AVX2 targetsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 333245

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/test/CodeGen/X86/masked_store_trunc.ll

llvm/test/CodeGen/X86/psubus.ll

llvm/test/CodeGen/X86/vector-reduce-and-bool.ll

llvm/test/CodeGen/X86/vector-reduce-or-bool.ll

llvm/test/CodeGen/X86/vector-reduce-xor-bool.ll

llvm/test/CodeGen/X86/vector-trunc-math.ll

llvm/test/CodeGen/X86/vector-trunc.ll

[X86][AVX] Truncate vectors with PACKSS/PACKUS on AVX2 targets
ClosedPublic