This is an archive of the discontinued LLVM Phabricator instance.

[X86] Custom legalize v16i64->v16i8 truncate with avx512.
ClosedPublic

Authored by craig.topper on May 1 2020, 1:03 AM.

Download Raw Diff

Details

Reviewers

RKSimon
spatel

Commits

rG8b53fdd3b659: [X86] Custom legalize v16i64->v16i8 truncate with avx512.

Summary

Default legalization will create two v8i64 truncs to v8i32, concat
them to v16i32, and then truncate the rest of the way to v16i8.

Instead we can truncate directly from v8i64 to v8i8 in the lower
half of an xmm. Then concat the two halves to use vpunpcklqdq.
This is the same number of uops, but the dependency chain through
the uops is better since the halves are merged at the end.

I had to had SimplifyDemandedBits support for VTRUNC to prevent
a regression on vector-trunc-math.ll. combineTruncatedArithmetic
no longer gets a chance to shrink vXi64 mul so we were producing
the v8i64 multiply sequence using multiple PMULUDQs. With the
demanded bits fix we are able to prune out the extra ops leaving
just two PMULUDQs, one for each v8i64 half. This is twice the
width of the 2 v8i32 PMULLDs we had before, but PMULUDQ is 1
uop and PMULLD is 2. We also save some truncates. It's probably
worth using PMULUDQ even when PMULLQ is available since the latter
is 3 uops, but that will require a different change.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

craig.topper created this revision.May 1 2020, 1:03 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 1 2020, 1:03 AM

Herald added a subscriber: hiraditya. · View Herald Transcript

Harbormaster failed remote builds in B55418: Diff 261439!May 1 2020, 1:16 AM

Does anything need to be done for truncstore cases?

llvm/lib/Target/X86/X86ISelLowering.cpp
36989	Handle DemandedElts as well?

Add DemandedElts support

In D79231#2014842, @RKSimon wrote:

Does anything need to be done for truncstore cases?

It looks like previously we would form a truncstore using vmovdb after type legalization. After this patch we no longer do that.

Harbormaster failed remote builds in B55535: Diff 261619!May 2 2020, 12:29 AM

In D79231#2016102, @craig.topper wrote:

In D79231#2014842, @RKSimon wrote:

Does anything need to be done for truncstore cases?

It looks like previously we would form a truncstore using vmovdb after type legalization. After this patch we no longer do that.

Is it still a perf gain if we lose the truncstore? I can't see any truncstore test changes in the patch, but we might just be missing test coverage.

In D79231#2016648, @RKSimon wrote:

In D79231#2016102, @craig.topper wrote:

In D79231#2014842, @RKSimon wrote:

Does anything need to be done for truncstore cases?

It looks like previously we would form a truncstore using vmovdb after type legalization. After this patch we no longer do that.

Is it still a perf gain if we lose the truncstore? I can't see any truncstore test changes in the patch, but we might just be missing test coverage.

I don’t think the store unit does the truncate. I think its still does the truncate in the shuffle unit and then does a separate store. I’ll double check uops.info.

In D79231#2016749, @craig.topper wrote:

In D79231#2016648, @RKSimon wrote:

In D79231#2016102, @craig.topper wrote:

In D79231#2014842, @RKSimon wrote:

Does anything need to be done for truncstore cases?

It looks like previously we would form a truncstore using vmovdb after type legalization. After this patch we no longer do that.

Is it still a perf gain if we lose the truncstore? I can't see any truncstore test changes in the patch, but we might just be missing test coverage.

I don’t think the store unit does the truncate. I think its still does the truncate in the shuffle unit and then does a separate store. I’ll double check uops.info.

Confirmed with uop.info that vpmovdb is just 2 shuffles and a store address and store data uop. The store address and store data appear to microfused which is pretty normal for stores.

LGTM - thanks for checking.

This revision is now accepted and ready to land.May 3 2020, 11:47 AM

Closed by commit rG8b53fdd3b659: [X86] Custom legalize v16i64->v16i8 truncate with avx512. (authored by craig.topper). · Explain WhyMay 3 2020, 11:57 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

25 lines

test/

CodeGen/

X86/

vector-trunc-math.ll

154 lines

vector-trunc-packus.ll

61 lines

vector-trunc-ssat.ll

58 lines

vector-trunc-usat.ll

52 lines

Diff 261439

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

//===-- X86ISelLowering.cpp - X86 DAG Lowering Implementation -------------===//		//===-- X86ISelLowering.cpp - X86 DAG Lowering Implementation -------------===//
		Lint: Lint Inline Actions clang-format not found in user's PATH; not linting file. Lint: Lint: clang-format not found in user's PATH; not linting file.
//		//
// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.		// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
// See https://llvm.org/LICENSE.txt for license information.		// See https://llvm.org/LICENSE.txt for license information.
// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception		// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
//		//
▲ Show 20 Lines • Show All 1,514 Lines • ▼ Show 20 Lines	if (!Subtarget.hasVLX()) {
setOperationAction(ISD::MLOAD, VT, Custom);		setOperationAction(ISD::MLOAD, VT, Custom);
setOperationAction(ISD::MSTORE, VT, Custom);		setOperationAction(ISD::MSTORE, VT, Custom);
}		}
}		}

setOperationAction(ISD::TRUNCATE, MVT::v8i32, Legal);		setOperationAction(ISD::TRUNCATE, MVT::v8i32, Legal);
setOperationAction(ISD::TRUNCATE, MVT::v16i16, Legal);		setOperationAction(ISD::TRUNCATE, MVT::v16i16, Legal);
setOperationAction(ISD::TRUNCATE, MVT::v32i8, HasBWI ? Legal : Custom);		setOperationAction(ISD::TRUNCATE, MVT::v32i8, HasBWI ? Legal : Custom);
		setOperationAction(ISD::TRUNCATE, MVT::v16i64, Custom);
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - setOperationAction(ISD::TRUNCATE, MVT::v16i64, Custom); + setOperationAction(ISD::TRUNCATE, MVT::v16i64, Custom); Lint: Pre-merge checks: clang-format: please reformat the code ``` - setOperationAction(ISD::TRUNCATE, MVT…
setOperationAction(ISD::ZERO_EXTEND, MVT::v32i16, Custom);		setOperationAction(ISD::ZERO_EXTEND, MVT::v32i16, Custom);
setOperationAction(ISD::ZERO_EXTEND, MVT::v16i32, Custom);		setOperationAction(ISD::ZERO_EXTEND, MVT::v16i32, Custom);
setOperationAction(ISD::ZERO_EXTEND, MVT::v8i64, Custom);		setOperationAction(ISD::ZERO_EXTEND, MVT::v8i64, Custom);
setOperationAction(ISD::ANY_EXTEND, MVT::v32i16, Custom);		setOperationAction(ISD::ANY_EXTEND, MVT::v32i16, Custom);
setOperationAction(ISD::ANY_EXTEND, MVT::v16i32, Custom);		setOperationAction(ISD::ANY_EXTEND, MVT::v16i32, Custom);
setOperationAction(ISD::ANY_EXTEND, MVT::v8i64, Custom);		setOperationAction(ISD::ANY_EXTEND, MVT::v8i64, Custom);
setOperationAction(ISD::SIGN_EXTEND, MVT::v32i16, Custom);		setOperationAction(ISD::SIGN_EXTEND, MVT::v32i16, Custom);
setOperationAction(ISD::SIGN_EXTEND, MVT::v16i32, Custom);		setOperationAction(ISD::SIGN_EXTEND, MVT::v16i32, Custom);
▲ Show 20 Lines • Show All 18,886 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerTRUNCATE(SDValue Op, SelectionDAG &DAG) const {
assert(VT.getVectorNumElements() == InVT.getVectorNumElements() &&		assert(VT.getVectorNumElements() == InVT.getVectorNumElements() &&
"Invalid TRUNCATE operation");		"Invalid TRUNCATE operation");

// If we're called by the type legalizer, handle a few cases.		// If we're called by the type legalizer, handle a few cases.
const TargetLowering &TLI = DAG.getTargetLoweringInfo();		const TargetLowering &TLI = DAG.getTargetLoweringInfo();
if (!TLI.isTypeLegal(InVT)) {		if (!TLI.isTypeLegal(InVT)) {
if ((InVT == MVT::v8i64 \|\| InVT == MVT::v16i32 \|\| InVT == MVT::v16i64) &&		if ((InVT == MVT::v8i64 \|\| InVT == MVT::v16i32 \|\| InVT == MVT::v16i64) &&
VT.is128BitVector()) {		VT.is128BitVector()) {
assert(Subtarget.hasVLX() && "Unexpected subtarget!");		assert((InVT == MVT::v16i64 \|\| Subtarget.hasVLX()) &&
		"Unexpected subtarget!");
// The default behavior is to truncate one step, concatenate, and then		// The default behavior is to truncate one step, concatenate, and then
// truncate the remainder. We'd rather produce two 64-bit results and		// truncate the remainder. We'd rather produce two 64-bit results and
// concatenate those.		// concatenate those.
SDValue Lo, Hi;		SDValue Lo, Hi;
std::tie(Lo, Hi) = DAG.SplitVector(In, DL);		std::tie(Lo, Hi) = DAG.SplitVector(In, DL);

EVT LoVT, HiVT;		EVT LoVT, HiVT;
std::tie(LoVT, HiVT) = DAG.GetSplitDestVTs(VT);		std::tie(LoVT, HiVT) = DAG.GetSplitDestVTs(VT);
▲ Show 20 Lines • Show All 16,530 Lines • ▼ Show 20 Lines
bool X86TargetLowering::SimplifyDemandedBitsForTargetNode(		bool X86TargetLowering::SimplifyDemandedBitsForTargetNode(
SDValue Op, const APInt &OriginalDemandedBits,		SDValue Op, const APInt &OriginalDemandedBits,
const APInt &OriginalDemandedElts, KnownBits &Known, TargetLoweringOpt &TLO,		const APInt &OriginalDemandedElts, KnownBits &Known, TargetLoweringOpt &TLO,
unsigned Depth) const {		unsigned Depth) const {
EVT VT = Op.getValueType();		EVT VT = Op.getValueType();
unsigned BitWidth = OriginalDemandedBits.getBitWidth();		unsigned BitWidth = OriginalDemandedBits.getBitWidth();
unsigned Opc = Op.getOpcode();		unsigned Opc = Op.getOpcode();
switch(Opc) {		switch(Opc) {
		case X86ISD::VTRUNC: {
		KnownBits KnownOp;
		SDValue Src = Op.getOperand(0);

		// Simplify the input, using demanded bit information.
		unsigned SrcBitWidth = Src.getScalarValueSizeInBits();
		APInt TruncMask = OriginalDemandedBits.zext(SrcBitWidth);
		if (SimplifyDemandedBits(Src, TruncMask, KnownOp, TLO, Depth + 1))
		RKSimonUnsubmitted Not Done Reply Inline Actions Handle DemandedElts as well? RKSimon: Handle DemandedElts as well?
		return true;
		break;
		}
case X86ISD::PMULDQ:		case X86ISD::PMULDQ:
case X86ISD::PMULUDQ: {		case X86ISD::PMULUDQ: {
// PMULDQ/PMULUDQ only uses lower 32 bits from each vector element.		// PMULDQ/PMULUDQ only uses lower 32 bits from each vector element.
KnownBits KnownOp;		KnownBits KnownOp;
SDValue LHS = Op.getOperand(0);		SDValue LHS = Op.getOperand(0);
SDValue RHS = Op.getOperand(1);		SDValue RHS = Op.getOperand(1);
// FIXME: Can we bound this better?		// FIXME: Can we bound this better?
APInt DemandedMask = APInt::getLowBitsSet(64, 32);		APInt DemandedMask = APInt::getLowBitsSet(64, 32);
▲ Show 20 Lines • Show All 6,788 Lines • ▼ Show 20 Lines	static SDValue combineTruncate(SDNode *N, SelectionDAG &DAG,

// Try to truncate extended sign/zero bits with PACKSS/PACKUS.		// Try to truncate extended sign/zero bits with PACKSS/PACKUS.
if (SDValue V = combineVectorSignBitsTruncation(N, DL, DAG, Subtarget))		if (SDValue V = combineVectorSignBitsTruncation(N, DL, DAG, Subtarget))
return V;		return V;

return combineVectorTruncation(N, DAG, Subtarget);		return combineVectorTruncation(N, DAG, Subtarget);
}		}

static SDValue combineVTRUNC(SDNode *N, SelectionDAG &DAG) {		static SDValue combineVTRUNC(SDNode *N, SelectionDAG &DAG,
		TargetLowering::DAGCombinerInfo &DCI) {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
SDValue In = N->getOperand(0);		SDValue In = N->getOperand(0);
SDLoc DL(N);		SDLoc DL(N);

if (auto SSatVal = detectSSatPattern(In, VT))		if (auto SSatVal = detectSSatPattern(In, VT))
return DAG.getNode(X86ISD::VTRUNCS, DL, VT, SSatVal);		return DAG.getNode(X86ISD::VTRUNCS, DL, VT, SSatVal);
if (auto USatVal = detectUSatPattern(In, VT, DAG, DL))		if (auto USatVal = detectUSatPattern(In, VT, DAG, DL))
return DAG.getNode(X86ISD::VTRUNCUS, DL, VT, USatVal);		return DAG.getNode(X86ISD::VTRUNCUS, DL, VT, USatVal);

		const TargetLowering &TLI = DAG.getTargetLoweringInfo();
		APInt DemandedMask(APInt::getAllOnesValue(VT.getScalarSizeInBits()));
		if (TLI.SimplifyDemandedBits(SDValue(N, 0), DemandedMask, DCI))
		return SDValue(N, 0);

return SDValue();		return SDValue();
}		}

/// Returns the negated value if the node \p N flips sign of FP value.		/// Returns the negated value if the node \p N flips sign of FP value.
///		///
/// FP-negation node may have different forms: FNEG(x), FXOR (x, 0x80000000)		/// FP-negation node may have different forms: FNEG(x), FXOR (x, 0x80000000)
/// or FSUB(0, x)		/// or FSUB(0, x)
/// AVX512F does not have FXOR, so FNEG is lowered as		/// AVX512F does not have FXOR, so FNEG is lowered as
▲ Show 20 Lines • Show All 3,713 Lines • ▼ Show 20 Lines	case ISD::STRICT_SINT_TO_FP:
return combineSIntToFP(N, DAG, DCI, Subtarget);		return combineSIntToFP(N, DAG, DCI, Subtarget);
case ISD::UINT_TO_FP:		case ISD::UINT_TO_FP:
case ISD::STRICT_UINT_TO_FP:		case ISD::STRICT_UINT_TO_FP:
return combineUIntToFP(N, DAG, Subtarget);		return combineUIntToFP(N, DAG, Subtarget);
case ISD::FADD:		case ISD::FADD:
case ISD::FSUB: return combineFaddFsub(N, DAG, Subtarget);		case ISD::FSUB: return combineFaddFsub(N, DAG, Subtarget);
case ISD::FNEG: return combineFneg(N, DAG, DCI, Subtarget);		case ISD::FNEG: return combineFneg(N, DAG, DCI, Subtarget);
case ISD::TRUNCATE: return combineTruncate(N, DAG, Subtarget);		case ISD::TRUNCATE: return combineTruncate(N, DAG, Subtarget);
case X86ISD::VTRUNC: return combineVTRUNC(N, DAG);		case X86ISD::VTRUNC: return combineVTRUNC(N, DAG, DCI);
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - case X86ISD::VTRUNC: return combineVTRUNC(N, DAG, DCI); + case X86ISD::VTRUNC: + return combineVTRUNC(N, DAG, DCI); Lint: Pre-merge checks: clang-format: please reformat the code ``` - case X86ISD::VTRUNC: return combineVTRUNC(N…
case X86ISD::ANDNP: return combineAndnp(N, DAG, DCI, Subtarget);		case X86ISD::ANDNP: return combineAndnp(N, DAG, DCI, Subtarget);
case X86ISD::FAND: return combineFAnd(N, DAG, Subtarget);		case X86ISD::FAND: return combineFAnd(N, DAG, Subtarget);
case X86ISD::FANDN: return combineFAndn(N, DAG, Subtarget);		case X86ISD::FANDN: return combineFAndn(N, DAG, Subtarget);
case X86ISD::FXOR:		case X86ISD::FXOR:
case X86ISD::FOR: return combineFOr(N, DAG, DCI, Subtarget);		case X86ISD::FOR: return combineFOr(N, DAG, DCI, Subtarget);
case X86ISD::FMIN:		case X86ISD::FMIN:
case X86ISD::FMAX: return combineFMinFMax(N, DAG);		case X86ISD::FMAX: return combineFMinFMax(N, DAG);
case ISD::FMINNUM:		case ISD::FMINNUM:
▲ Show 20 Lines • Show All 1,320 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc-math.ll

	Show First 20 Lines • Show All 294 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_add_v16i64_v16i8:			; AVX512-LABEL: trunc_add_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpaddq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpaddq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpaddq %zmm2, %zmm0, %zmm0
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpaddq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = add <16 x i64> %a0, %a1			%1 = add <16 x i64> %a0, %a1
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_add_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {			define <16 x i8> @trunc_add_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {
	▲ Show 20 Lines • Show All 409 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_add_const_v16i64_v16i8:			; AVX512-LABEL: trunc_add_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = add <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>			%1 = add <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	▲ Show 20 Lines • Show All 395 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_v16i64_v16i8:			; AVX512-LABEL: trunc_sub_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpsubq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpsubq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpsubq %zmm2, %zmm0, %zmm0
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpsubq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <16 x i64> %a0, %a1			%1 = sub <16 x i64> %a0, %a1
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_sub_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {			define <16 x i8> @trunc_sub_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {
	▲ Show 20 Lines • Show All 377 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX512-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>			%1 = sub <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	▲ Show 20 Lines • Show All 514 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm6, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm6, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_mul_v16i64_v16i8:			; AVX512F-LABEL: trunc_mul_v16i64_v16i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpmovqd %zmm3, %ymm3			; AVX512F-NEXT: vpmuludq %zmm2, %zmm0, %zmm0
	; AVX512F-NEXT: vpmovqd %zmm1, %ymm1			; AVX512F-NEXT: vpmuludq %zmm3, %zmm1, %zmm1
	; AVX512F-NEXT: vpmulld %ymm3, %ymm1, %ymm1			; AVX512F-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512F-NEXT: vpmovqd %zmm2, %ymm2			; AVX512F-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512F-NEXT: vpmovqd %zmm0, %ymm0			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512F-NEXT: vpmulld %ymm2, %ymm0, %ymm0
	; AVX512F-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc_mul_v16i64_v16i8:			; AVX512BW-LABEL: trunc_mul_v16i64_v16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovqd %zmm3, %ymm3			; AVX512BW-NEXT: vpmuludq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpmovqd %zmm1, %ymm1			; AVX512BW-NEXT: vpmuludq %zmm3, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmulld %ymm3, %ymm1, %ymm1			; AVX512BW-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512BW-NEXT: vpmovqd %zmm2, %ymm2			; AVX512BW-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512BW-NEXT: vpmovqd %zmm0, %ymm0			; AVX512BW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512BW-NEXT: vpmulld %ymm2, %ymm0, %ymm0
	; AVX512BW-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512DQ-LABEL: trunc_mul_v16i64_v16i8:			; AVX512DQ-LABEL: trunc_mul_v16i64_v16i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpmullq %zmm3, %zmm1, %zmm1
	; AVX512DQ-NEXT: vpmullq %zmm2, %zmm0, %zmm0			; AVX512DQ-NEXT: vpmullq %zmm2, %zmm0, %zmm0
	; AVX512DQ-NEXT: vpmovqd %zmm0, %ymm0			; AVX512DQ-NEXT: vpmullq %zmm3, %zmm1, %zmm1
	; AVX512DQ-NEXT: vpmovqd %zmm1, %ymm1			; AVX512DQ-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512DQ-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512DQ-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0			; AVX512DQ-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	%1 = mul <16 x i64> %a0, %a1			%1 = mul <16 x i64> %a0, %a1
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_mul_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {			define <16 x i8> @trunc_mul_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {
	▲ Show 20 Lines • Show All 460 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_mul_const_v16i64_v16i8:			; AVX512F-LABEL: trunc_mul_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512F-NEXT: vpmuludq {{.*}}(%rip), %zmm0, %zmm0
	; AVX512-NEXT: vpmulld {{.*}}(%rip), %ymm0, %ymm0			; AVX512F-NEXT: vpmuludq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512F-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmulld {{.*}}(%rip), %ymm1, %ymm1			; AVX512F-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512F-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512F-NEXT: vzeroupper
	; AVX512-NEXT: vzeroupper			; AVX512F-NEXT: retq
	; AVX512-NEXT: retq			;
				; AVX512BW-LABEL: trunc_mul_const_v16i64_v16i8:
				; AVX512BW: # %bb.0:
				; AVX512BW-NEXT: vpmuludq {{.*}}(%rip), %zmm0, %zmm0
				; AVX512BW-NEXT: vpmuludq {{.*}}(%rip), %zmm1, %zmm1
				; AVX512BW-NEXT: vpmovqb %zmm1, %xmm1
				; AVX512BW-NEXT: vpmovqb %zmm0, %xmm0
				; AVX512BW-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
				; AVX512BW-NEXT: vzeroupper
				; AVX512BW-NEXT: retq
				;
				; AVX512DQ-LABEL: trunc_mul_const_v16i64_v16i8:
				; AVX512DQ: # %bb.0:
				; AVX512DQ-NEXT: vpmullq {{.*}}(%rip), %zmm0, %zmm0
				; AVX512DQ-NEXT: vpmullq {{.*}}(%rip), %zmm1, %zmm1
				; AVX512DQ-NEXT: vpmovqb %zmm1, %xmm1
				; AVX512DQ-NEXT: vpmovqb %zmm0, %xmm0
				; AVX512DQ-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
				; AVX512DQ-NEXT: vzeroupper
				; AVX512DQ-NEXT: retq
	%1 = mul <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>			%1 = mul <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_mul_const_v16i32_v16i8(<16 x i32> %a0) nounwind {			define <16 x i8> @trunc_mul_const_v16i32_v16i8(<16 x i32> %a0) nounwind {
	; SSE-LABEL: trunc_mul_const_v16i32_v16i8:			; SSE-LABEL: trunc_mul_const_v16i32_v16i8:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 411 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_and_v16i64_v16i8:			; AVX512-LABEL: trunc_and_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpandq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpandq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpandq %zmm2, %zmm0, %zmm0
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpandq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = and <16 x i64> %a0, %a1			%1 = and <16 x i64> %a0, %a1
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_and_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {			define <16 x i8> @trunc_and_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {
	▲ Show 20 Lines • Show All 350 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_and_const_v16i64_v16i8:			; AVX512-LABEL: trunc_and_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = and <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>			%1 = and <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	▲ Show 20 Lines • Show All 373 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_xor_v16i64_v16i8:			; AVX512-LABEL: trunc_xor_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxorq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpxorq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpxorq %zmm2, %zmm0, %zmm0
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpxorq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = xor <16 x i64> %a0, %a1			%1 = xor <16 x i64> %a0, %a1
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_xor_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {			define <16 x i8> @trunc_xor_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {
	▲ Show 20 Lines • Show All 350 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_xor_const_v16i64_v16i8:			; AVX512-LABEL: trunc_xor_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = xor <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>			%1 = xor <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	▲ Show 20 Lines • Show All 373 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_or_v16i64_v16i8:			; AVX512-LABEL: trunc_or_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vporq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vporq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vporq %zmm2, %zmm0, %zmm0
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vporq %zmm3, %zmm1, %zmm1
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = or <16 x i64> %a0, %a1			%1 = or <16 x i64> %a0, %a1
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_or_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {			define <16 x i8> @trunc_or_v16i32_v16i8(<16 x i32> %a0, <16 x i32> %a1) nounwind {
	▲ Show 20 Lines • Show All 350 Lines • ▼ Show 20 Lines
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_or_const_v16i64_v16i8:			; AVX512-LABEL: trunc_or_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovqb %zmm1, %xmm1
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqb %zmm0, %xmm0
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpor {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = or <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>			%1 = or <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	▲ Show 20 Lines • Show All 191 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc-packus.ll

	Show First 20 Lines • Show All 5,027 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_packus_v16i64_v16i8:			; AVX512-LABEL: trunc_packus_v16i64_v16i8:
	; AVX512F: # %bb.0:			; AVX512: # %bb.0:
	; AVX512F-NEXT: vpbroadcastq {{.*#+}} zmm0 = [255,255,255,255,255,255,255,255]			; AVX512-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512F-NEXT: vpminsq (%rdi), %zmm0, %zmm1			; AVX512-NEXT: vpmaxsq 64(%rdi), %zmm0, %zmm1
	; AVX512F-NEXT: vpminsq 64(%rdi), %zmm0, %zmm0			; AVX512-NEXT: vpmovusqb %zmm1, %xmm1
	; AVX512F-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX512-NEXT: vpmaxsq (%rdi), %zmm0, %zmm0
	; AVX512F-NEXT: vpmaxsq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpmovusqb %zmm0, %xmm0
	; AVX512F-NEXT: vpmaxsq %zmm2, %zmm1, %zmm1			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512F-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vzeroupper
	; AVX512F-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: retq
	; AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; AVX512F-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq
	;
	; AVX512VL-LABEL: trunc_packus_v16i64_v16i8:
	; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512VL-NEXT: vpmaxsq 64(%rdi), %zmm0, %zmm1
	; AVX512VL-NEXT: vpmovusqb %zmm1, %xmm1
	; AVX512VL-NEXT: vpmaxsq (%rdi), %zmm0, %zmm0
	; AVX512VL-NEXT: vpmovusqb %zmm0, %xmm0
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq
	;
	; AVX512BW-LABEL: trunc_packus_v16i64_v16i8:
	; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpbroadcastq {{.*#+}} zmm0 = [255,255,255,255,255,255,255,255]
	; AVX512BW-NEXT: vpminsq (%rdi), %zmm0, %zmm1
	; AVX512BW-NEXT: vpminsq 64(%rdi), %zmm0, %zmm0
	; AVX512BW-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX512BW-NEXT: vpmaxsq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpmaxsq %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovqd %zmm1, %ymm1
	; AVX512BW-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq
	;
	; AVX512BWVL-LABEL: trunc_packus_v16i64_v16i8:
	; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; AVX512BWVL-NEXT: vpmaxsq 64(%rdi), %zmm0, %zmm1
	; AVX512BWVL-NEXT: vpmovusqb %zmm1, %xmm1
	; AVX512BWVL-NEXT: vpmaxsq (%rdi), %zmm0, %zmm0
	; AVX512BWVL-NEXT: vpmovusqb %zmm0, %xmm0
	; AVX512BWVL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq
	;			;
	; SKX-LABEL: trunc_packus_v16i64_v16i8:			; SKX-LABEL: trunc_packus_v16i64_v16i8:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vpxor %xmm0, %xmm0, %xmm0			; SKX-NEXT: vpxor %xmm0, %xmm0, %xmm0
	; SKX-NEXT: vpmaxsq 96(%rdi), %ymm0, %ymm1			; SKX-NEXT: vpmaxsq 96(%rdi), %ymm0, %ymm1
	; SKX-NEXT: vpmovusqb %ymm1, %xmm1			; SKX-NEXT: vpmovusqb %ymm1, %xmm1
	; SKX-NEXT: vpmaxsq 64(%rdi), %ymm0, %ymm2			; SKX-NEXT: vpmaxsq 64(%rdi), %ymm0, %ymm2
	; SKX-NEXT: vpmovusqb %ymm2, %xmm2			; SKX-NEXT: vpmovusqb %ymm2, %xmm2
	▲ Show 20 Lines • Show All 779 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc-ssat.ll

	Show First 20 Lines • Show All 4,829 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vpackssdw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackssdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_ssat_v16i64_v16i8:			; AVX512-LABEL: trunc_ssat_v16i64_v16i8:
	; AVX512F: # %bb.0:			; AVX512: # %bb.0:
	; AVX512F-NEXT: vpbroadcastq {{.*#+}} zmm0 = [127,127,127,127,127,127,127,127]			; AVX512-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512F-NEXT: vpminsq (%rdi), %zmm0, %zmm1			; AVX512-NEXT: vmovdqa64 64(%rdi), %zmm1
	; AVX512F-NEXT: vpminsq 64(%rdi), %zmm0, %zmm0			; AVX512-NEXT: vpmovsqb %zmm1, %xmm1
	; AVX512F-NEXT: vpbroadcastq {{.*#+}} zmm2 = [18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488]			; AVX512-NEXT: vpmovsqb %zmm0, %xmm0
	; AVX512F-NEXT: vpmaxsq %zmm2, %zmm0, %zmm0			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512F-NEXT: vpmaxsq %zmm2, %zmm1, %zmm1			; AVX512-NEXT: vzeroupper
	; AVX512F-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: retq
	; AVX512F-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; AVX512F-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq
	;
	; AVX512VL-LABEL: trunc_ssat_v16i64_v16i8:
	; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512VL-NEXT: vmovdqa64 64(%rdi), %zmm1
	; AVX512VL-NEXT: vpmovsqb %zmm1, %xmm1
	; AVX512VL-NEXT: vpmovsqb %zmm0, %xmm0
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq
	;
	; AVX512BW-LABEL: trunc_ssat_v16i64_v16i8:
	; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpbroadcastq {{.*#+}} zmm0 = [127,127,127,127,127,127,127,127]
	; AVX512BW-NEXT: vpminsq (%rdi), %zmm0, %zmm1
	; AVX512BW-NEXT: vpminsq 64(%rdi), %zmm0, %zmm0
	; AVX512BW-NEXT: vpbroadcastq {{.*#+}} zmm2 = [18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488]
	; AVX512BW-NEXT: vpmaxsq %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpmaxsq %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovqd %zmm1, %ymm1
	; AVX512BW-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq
	;
	; AVX512BWVL-LABEL: trunc_ssat_v16i64_v16i8:
	; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512BWVL-NEXT: vmovdqa64 64(%rdi), %zmm1
	; AVX512BWVL-NEXT: vpmovsqb %zmm1, %xmm1
	; AVX512BWVL-NEXT: vpmovsqb %zmm0, %xmm0
	; AVX512BWVL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq
	;			;
	; SKX-LABEL: trunc_ssat_v16i64_v16i8:			; SKX-LABEL: trunc_ssat_v16i64_v16i8:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vmovdqa (%rdi), %ymm0			; SKX-NEXT: vmovdqa (%rdi), %ymm0
	; SKX-NEXT: vmovdqa 32(%rdi), %ymm1			; SKX-NEXT: vmovdqa 32(%rdi), %ymm1
	; SKX-NEXT: vmovdqa 64(%rdi), %ymm2			; SKX-NEXT: vmovdqa 64(%rdi), %ymm2
	; SKX-NEXT: vmovdqa 96(%rdi), %ymm3			; SKX-NEXT: vmovdqa 96(%rdi), %ymm3
	; SKX-NEXT: vpmovsqb %ymm3, %xmm3			; SKX-NEXT: vpmovsqb %ymm3, %xmm3
	▲ Show 20 Lines • Show All 743 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-trunc-usat.ll

	Show First 20 Lines • Show All 3,537 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,1,3]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_usat_v16i64_v16i8:			; AVX512-LABEL: trunc_usat_v16i64_v16i8:
	; AVX512F: # %bb.0:			; AVX512: # %bb.0:
	; AVX512F-NEXT: vpbroadcastq {{.*#+}} zmm0 = [255,255,255,255,255,255,255,255]			; AVX512-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512F-NEXT: vpminuq 64(%rdi), %zmm0, %zmm1			; AVX512-NEXT: vmovdqa64 64(%rdi), %zmm1
	; AVX512F-NEXT: vpminuq (%rdi), %zmm0, %zmm0			; AVX512-NEXT: vpmovusqb %zmm1, %xmm1
	; AVX512F-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovusqb %zmm0, %xmm0
	; AVX512F-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512F-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vzeroupper
	; AVX512F-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: retq
	; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq
	;
	; AVX512VL-LABEL: trunc_usat_v16i64_v16i8:
	; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512VL-NEXT: vmovdqa64 64(%rdi), %zmm1
	; AVX512VL-NEXT: vpmovusqb %zmm1, %xmm1
	; AVX512VL-NEXT: vpmovusqb %zmm0, %xmm0
	; AVX512VL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq
	;
	; AVX512BW-LABEL: trunc_usat_v16i64_v16i8:
	; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpbroadcastq {{.*#+}} zmm0 = [255,255,255,255,255,255,255,255]
	; AVX512BW-NEXT: vpminuq 64(%rdi), %zmm0, %zmm1
	; AVX512BW-NEXT: vpminuq (%rdi), %zmm0, %zmm0
	; AVX512BW-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512BW-NEXT: vpmovqd %zmm1, %ymm1
	; AVX512BW-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq
	;
	; AVX512BWVL-LABEL: trunc_usat_v16i64_v16i8:
	; AVX512BWVL: # %bb.0:
	; AVX512BWVL-NEXT: vmovdqa64 (%rdi), %zmm0
	; AVX512BWVL-NEXT: vmovdqa64 64(%rdi), %zmm1
	; AVX512BWVL-NEXT: vpmovusqb %zmm1, %xmm1
	; AVX512BWVL-NEXT: vpmovusqb %zmm0, %xmm0
	; AVX512BWVL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX512BWVL-NEXT: vzeroupper
	; AVX512BWVL-NEXT: retq
	;			;
	; SKX-LABEL: trunc_usat_v16i64_v16i8:			; SKX-LABEL: trunc_usat_v16i64_v16i8:
	; SKX: # %bb.0:			; SKX: # %bb.0:
	; SKX-NEXT: vmovdqa64 (%rdi), %zmm0			; SKX-NEXT: vmovdqa64 (%rdi), %zmm0
	; SKX-NEXT: vmovdqa64 64(%rdi), %zmm1			; SKX-NEXT: vmovdqa64 64(%rdi), %zmm1
	; SKX-NEXT: vpmovusqb %zmm1, %xmm1			; SKX-NEXT: vpmovusqb %zmm1, %xmm1
	; SKX-NEXT: vpmovusqb %zmm0, %xmm0			; SKX-NEXT: vpmovusqb %zmm0, %xmm0
	; SKX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SKX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	▲ Show 20 Lines • Show All 1,298 Lines • Show Last 20 Lines