Diff 145441

llvm/include/llvm/IR/IntrinsicsX86.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 507 Lines • ▼ Show 20 Lines	let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_sse_cvttpd2pi: GCCBuiltin<"__builtin_ia32_cvttpd2pi">,		def int_x86_sse_cvttpd2pi: GCCBuiltin<"__builtin_ia32_cvttpd2pi">,
Intrinsic<[llvm_x86mmx_ty], [llvm_v2f64_ty], [IntrNoMem]>;		Intrinsic<[llvm_x86mmx_ty], [llvm_v2f64_ty], [IntrNoMem]>;
def int_x86_sse_cvtpi2pd : GCCBuiltin<"__builtin_ia32_cvtpi2pd">,		def int_x86_sse_cvtpi2pd : GCCBuiltin<"__builtin_ia32_cvtpi2pd">,
Intrinsic<[llvm_v2f64_ty], [llvm_x86mmx_ty], [IntrNoMem]>;		Intrinsic<[llvm_v2f64_ty], [llvm_x86mmx_ty], [IntrNoMem]>;
}		}

// Misc.		// Misc.
let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".		let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_sse2_packsswb_128 : GCCBuiltin<"__builtin_ia32_packsswb128">,
Intrinsic<[llvm_v16i8_ty], [llvm_v8i16_ty,
llvm_v8i16_ty], [IntrNoMem]>;
def int_x86_sse2_packssdw_128 : GCCBuiltin<"__builtin_ia32_packssdw128">,
Intrinsic<[llvm_v8i16_ty], [llvm_v4i32_ty,
llvm_v4i32_ty], [IntrNoMem]>;
def int_x86_sse2_packuswb_128 : GCCBuiltin<"__builtin_ia32_packuswb128">,
Intrinsic<[llvm_v16i8_ty], [llvm_v8i16_ty,
llvm_v8i16_ty], [IntrNoMem]>;
def int_x86_sse2_movmsk_pd : GCCBuiltin<"__builtin_ia32_movmskpd">,		def int_x86_sse2_movmsk_pd : GCCBuiltin<"__builtin_ia32_movmskpd">,
Intrinsic<[llvm_i32_ty], [llvm_v2f64_ty], [IntrNoMem]>;		Intrinsic<[llvm_i32_ty], [llvm_v2f64_ty], [IntrNoMem]>;
def int_x86_sse2_pmovmskb_128 : GCCBuiltin<"__builtin_ia32_pmovmskb128">,		def int_x86_sse2_pmovmskb_128 : GCCBuiltin<"__builtin_ia32_pmovmskb128">,
Intrinsic<[llvm_i32_ty], [llvm_v16i8_ty], [IntrNoMem]>;		Intrinsic<[llvm_i32_ty], [llvm_v16i8_ty], [IntrNoMem]>;
def int_x86_sse2_maskmov_dqu : GCCBuiltin<"__builtin_ia32_maskmovdqu">,		def int_x86_sse2_maskmov_dqu : GCCBuiltin<"__builtin_ia32_maskmovdqu">,
Intrinsic<[], [llvm_v16i8_ty,		Intrinsic<[], [llvm_v16i8_ty,
llvm_v16i8_ty, llvm_ptr_ty], []>;		llvm_v16i8_ty, llvm_ptr_ty], []>;
def int_x86_sse2_clflush : GCCBuiltin<"__builtin_ia32_clflush">,		def int_x86_sse2_clflush : GCCBuiltin<"__builtin_ia32_clflush">,
▲ Show 20 Lines • Show All 255 Lines • ▼ Show 20 Lines	let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_pclmulqdq_256 : GCCBuiltin<"__builtin_ia32_pclmulqdq256">,		def int_x86_pclmulqdq_256 : GCCBuiltin<"__builtin_ia32_pclmulqdq256">,
Intrinsic<[llvm_v4i64_ty], [llvm_v4i64_ty, llvm_v4i64_ty, llvm_i8_ty],		Intrinsic<[llvm_v4i64_ty], [llvm_v4i64_ty, llvm_v4i64_ty, llvm_i8_ty],
[IntrNoMem]>;		[IntrNoMem]>;
def int_x86_pclmulqdq_512 : GCCBuiltin<"__builtin_ia32_pclmulqdq512">,		def int_x86_pclmulqdq_512 : GCCBuiltin<"__builtin_ia32_pclmulqdq512">,
Intrinsic<[llvm_v8i64_ty], [llvm_v8i64_ty, llvm_v8i64_ty, llvm_i8_ty],		Intrinsic<[llvm_v8i64_ty], [llvm_v8i64_ty, llvm_v8i64_ty, llvm_i8_ty],
[IntrNoMem]>;		[IntrNoMem]>;
}		}

// Vector pack
let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_sse41_packusdw : GCCBuiltin<"__builtin_ia32_packusdw128">,
Intrinsic<[llvm_v8i16_ty], [llvm_v4i32_ty, llvm_v4i32_ty],
[IntrNoMem]>;
}

// Vector insert		// Vector insert
let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".		let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_sse41_insertps : GCCBuiltin<"__builtin_ia32_insertps128">,		def int_x86_sse41_insertps : GCCBuiltin<"__builtin_ia32_insertps128">,
Intrinsic<[llvm_v4f32_ty], [llvm_v4f32_ty, llvm_v4f32_ty, llvm_i8_ty],		Intrinsic<[llvm_v4f32_ty], [llvm_v4f32_ty, llvm_v4f32_ty, llvm_i8_ty],
[IntrNoMem]>;		[IntrNoMem]>;
}		}

// Vector blend		// Vector blend
▲ Show 20 Lines • Show All 985 Lines • ▼ Show 20 Lines	def int_x86_avx512_mask_pmultishift_qb_256:
Intrinsic<[llvm_v32i8_ty], [llvm_v32i8_ty,		Intrinsic<[llvm_v32i8_ty], [llvm_v32i8_ty,
llvm_v32i8_ty, llvm_v32i8_ty, llvm_i32_ty], [IntrNoMem]>;		llvm_v32i8_ty, llvm_v32i8_ty, llvm_i32_ty], [IntrNoMem]>;
def int_x86_avx512_mask_pmultishift_qb_512:		def int_x86_avx512_mask_pmultishift_qb_512:
GCCBuiltin<"__builtin_ia32_vpmultishiftqb512_mask">,		GCCBuiltin<"__builtin_ia32_vpmultishiftqb512_mask">,
Intrinsic<[llvm_v64i8_ty], [llvm_v64i8_ty,		Intrinsic<[llvm_v64i8_ty], [llvm_v64i8_ty,
llvm_v64i8_ty, llvm_v64i8_ty, llvm_i64_ty], [IntrNoMem]>;		llvm_v64i8_ty, llvm_v64i8_ty, llvm_i64_ty], [IntrNoMem]>;
}		}

// Pack ops.
let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_avx2_packsswb : GCCBuiltin<"__builtin_ia32_packsswb256">,
Intrinsic<[llvm_v32i8_ty], [llvm_v16i16_ty,
llvm_v16i16_ty], [IntrNoMem]>;
def int_x86_avx2_packssdw : GCCBuiltin<"__builtin_ia32_packssdw256">,
Intrinsic<[llvm_v16i16_ty], [llvm_v8i32_ty,
llvm_v8i32_ty], [IntrNoMem]>;
def int_x86_avx2_packuswb : GCCBuiltin<"__builtin_ia32_packuswb256">,
Intrinsic<[llvm_v32i8_ty], [llvm_v16i16_ty,
llvm_v16i16_ty], [IntrNoMem]>;
def int_x86_avx2_packusdw : GCCBuiltin<"__builtin_ia32_packusdw256">,
Intrinsic<[llvm_v16i16_ty], [llvm_v8i32_ty,
llvm_v8i32_ty], [IntrNoMem]>;
}

// Horizontal arithmetic ops		// Horizontal arithmetic ops
let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".		let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_avx2_phadd_w : GCCBuiltin<"__builtin_ia32_phaddw256">,		def int_x86_avx2_phadd_w : GCCBuiltin<"__builtin_ia32_phaddw256">,
Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty,		Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty,
llvm_v16i16_ty], [IntrNoMem]>;		llvm_v16i16_ty], [IntrNoMem]>;
def int_x86_avx2_phadd_d : GCCBuiltin<"__builtin_ia32_phaddd256">,		def int_x86_avx2_phadd_d : GCCBuiltin<"__builtin_ia32_phaddd256">,
Intrinsic<[llvm_v8i32_ty], [llvm_v8i32_ty,		Intrinsic<[llvm_v8i32_ty], [llvm_v8i32_ty,
llvm_v8i32_ty], [IntrNoMem]>;		llvm_v8i32_ty], [IntrNoMem]>;
▲ Show 20 Lines • Show All 1,925 Lines • ▼ Show 20 Lines	let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_avx512_cvtsi2ss64 : GCCBuiltin<"__builtin_ia32_cvtsi2ss64">,		def int_x86_avx512_cvtsi2ss64 : GCCBuiltin<"__builtin_ia32_cvtsi2ss64">,
Intrinsic<[llvm_v4f32_ty], [llvm_v4f32_ty,		Intrinsic<[llvm_v4f32_ty], [llvm_v4f32_ty,
llvm_i64_ty, llvm_i32_ty], [IntrNoMem]>;		llvm_i64_ty, llvm_i32_ty], [IntrNoMem]>;
def int_x86_avx512_cvtsi2sd64 : GCCBuiltin<"__builtin_ia32_cvtsi2sd64">,		def int_x86_avx512_cvtsi2sd64 : GCCBuiltin<"__builtin_ia32_cvtsi2sd64">,
Intrinsic<[llvm_v2f64_ty], [llvm_v2f64_ty,		Intrinsic<[llvm_v2f64_ty], [llvm_v2f64_ty,
llvm_i64_ty, llvm_i32_ty], [IntrNoMem]>;		llvm_i64_ty, llvm_i32_ty], [IntrNoMem]>;
}		}

// Pack ops.
let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_avx512_packsswb_512 : GCCBuiltin<"__builtin_ia32_packsswb512">,
Intrinsic<[llvm_v64i8_ty], [llvm_v32i16_ty,llvm_v32i16_ty],
[IntrNoMem]>;
def int_x86_avx512_packssdw_512 : GCCBuiltin<"__builtin_ia32_packssdw512">,
Intrinsic<[llvm_v32i16_ty], [llvm_v16i32_ty, llvm_v16i32_ty],
[IntrNoMem]>;
def int_x86_avx512_packuswb_512 : GCCBuiltin<"__builtin_ia32_packuswb512">,
Intrinsic<[llvm_v64i8_ty], [llvm_v32i16_ty,llvm_v32i16_ty],
[IntrNoMem]>;
def int_x86_avx512_packusdw_512 : GCCBuiltin<"__builtin_ia32_packusdw512">,
Intrinsic<[llvm_v32i16_ty], [llvm_v16i32_ty, llvm_v16i32_ty],
[IntrNoMem]>;
}

// Vector convert		// Vector convert
let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".		let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_avx512_mask_cvtdq2ps_128 : // TODO: remove this intrinsic		def int_x86_avx512_mask_cvtdq2ps_128 : // TODO: remove this intrinsic
Intrinsic<[llvm_v4f32_ty],		Intrinsic<[llvm_v4f32_ty],
[llvm_v4i32_ty, llvm_v4f32_ty, llvm_i8_ty],		[llvm_v4i32_ty, llvm_v4f32_ty, llvm_i8_ty],
[IntrNoMem]>;		[IntrNoMem]>;

def int_x86_avx512_mask_cvtdq2ps_256 : // TODO: remove this intrinsic		def int_x86_avx512_mask_cvtdq2ps_256 : // TODO: remove this intrinsic
▲ Show 20 Lines • Show All 2,620 Lines • Show Last 20 Lines

llvm/lib/IR/AutoUpgrade.cpp

Show First 20 Lines • Show All 292 Lines • ▼ Show 20 Lines	if (Name=="ssse3.pabs.b.128" \|\| // Added in 6.0
Name.startswith("avx512.mask.move.s") \|\| // Added in 4.0		Name.startswith("avx512.mask.move.s") \|\| // Added in 4.0
Name.startswith("avx512.cvtmask2") \|\| // Added in 5.0		Name.startswith("avx512.cvtmask2") \|\| // Added in 5.0
(Name.startswith("xop.vpcom") && // Added in 3.2		(Name.startswith("xop.vpcom") && // Added in 3.2
F->arg_size() == 2) \|\|		F->arg_size() == 2) \|\|
Name.startswith("avx512.ptestm") \|\| //Added in 6.0		Name.startswith("avx512.ptestm") \|\| //Added in 6.0
Name.startswith("avx512.ptestnm") \|\| //Added in 6.0		Name.startswith("avx512.ptestnm") \|\| //Added in 6.0
Name.startswith("sse2.pavg") \|\| // Added in 6.0		Name.startswith("sse2.pavg") \|\| // Added in 6.0
Name.startswith("avx2.pavg") \|\| // Added in 6.0		Name.startswith("avx2.pavg") \|\| // Added in 6.0
Name.startswith("avx512.mask.pavg")) // Added in 6.0		Name.startswith("avx512.mask.pavg") \|\| // Added in 6.0
		Name.startswith("sse2.pack") \|\| // Added in 7.0
		Name.startswith("sse41.pack") \|\| // Added in 7.0
		Name.startswith("avx2.pack") \|\| // Added in 7.0
		Name.startswith("avx512.pack")) // Added in 7.0
return true;		return true;

return false;		return false;
}		}

static bool UpgradeX86IntrinsicFunction(Function *F, StringRef Name,		static bool UpgradeX86IntrinsicFunction(Function *F, StringRef Name,
Function *&NewFn) {		Function *&NewFn) {
// Only handle intrinsics that start with "x86.".		// Only handle intrinsics that start with "x86.".
▲ Show 20 Lines • Show All 709 Lines • ▼ Show 20 Lines
static Value* UpgradeMaskToInt(IRBuilder<> &Builder, CallInst &CI) {		static Value* UpgradeMaskToInt(IRBuilder<> &Builder, CallInst &CI) {
Value* Op = CI.getArgOperand(0);		Value* Op = CI.getArgOperand(0);
Type* ReturnOp = CI.getType();		Type* ReturnOp = CI.getType();
unsigned NumElts = CI.getType()->getVectorNumElements();		unsigned NumElts = CI.getType()->getVectorNumElements();
Value *Mask = getX86MaskVec(Builder, Op, NumElts);		Value *Mask = getX86MaskVec(Builder, Op, NumElts);
return Builder.CreateSExt(Mask, ReturnOp, "vpmovm2");		return Builder.CreateSExt(Mask, ReturnOp, "vpmovm2");
}		}

		static Value *EmitX86Pack(IRBuilder<> &Builder, CallInst &CI, bool IsUnsigned,
		int EltSize) {
		Value *A = CI.getArgOperand(0);
		Value *B = CI.getArgOperand(1);

		Type *Ty = A->getType();
		APInt MinVal, MaxVal;
		if (IsUnsigned) {
		MinVal = APInt::getMinValue(EltSize / 2).zext(EltSize);
		MaxVal = APInt::getMaxValue(EltSize / 2).zext(EltSize);
		} else {
		MinVal = APInt::getSignedMinValue(EltSize / 2).sext(EltSize);
		MaxVal = APInt::getSignedMaxValue(EltSize / 2).sext(EltSize);
		}

		SmallVector<uint32_t, 16> ShuffleMask;
		unsigned NumElts = Ty->getVectorNumElements();
		unsigned NumLanes = NumElts * Ty->getScalarSizeInBits() / 128;
		unsigned NumEltsPerLane = 128 / EltSize;

		for (unsigned Lane = 0; Lane != NumLanes; ++Lane) {
		for (unsigned Elt = 0; Elt != NumEltsPerLane; ++Elt)
		ShuffleMask.push_back(Elt + (Lane * NumEltsPerLane));
		for (unsigned Elt = 0; Elt != NumEltsPerLane; ++Elt)
		RKSimonUnsubmitted Not Done Reply Inline Actions This shuffle mask creation is very confusing, please can you make it more obvious (see createPackShuffleMask in X86ISelLowering.cpp) RKSimon: This shuffle mask creation is very confusing, please can you make it more obvious (see…
		ShuffleMask.push_back(Elt + (Lane * NumEltsPerLane) + NumElts);
		}

		Value *Res = Builder.CreateShuffleVector(A, B, ShuffleMask);
		Type *RTy = Res->getType();
		Value *MinVec = ConstantInt::get(RTy, MinVal);
		Value *MaxVec = ConstantInt::get(RTy, MaxVal);
		Value *Cmp = Builder.CreateICmp(ICmpInst::ICMP_SLT, Res, MaxVec);
		Res = Builder.CreateSelect(Cmp, Res, MaxVec);
		Cmp = Builder.CreateICmp(ICmpInst::ICMP_SGT, Res, MinVec);
		Res = Builder.CreateSelect(Cmp, Res, MinVec);
		Type VTy = VectorType::get(Builder.getIntNTy(EltSize / 2), NumElts 2);
		return Builder.CreateTrunc(Res, VTy);
		}

// Replace intrinsic with unmasked version and a select.		// Replace intrinsic with unmasked version and a select.
static bool upgradeAVX512MaskToSelect(StringRef Name, IRBuilder<> &Builder,		static bool upgradeAVX512MaskToSelect(StringRef Name, IRBuilder<> &Builder,
CallInst &CI, Value *&Rep) {		CallInst &CI, Value *&Rep) {
Name = Name.substr(12); // Remove avx512.mask.		Name = Name.substr(12); // Remove avx512.mask.

unsigned VecWidth = CI.getType()->getPrimitiveSizeInBits();		unsigned VecWidth = CI.getType()->getPrimitiveSizeInBits();
unsigned EltWidth = CI.getType()->getScalarSizeInBits();		unsigned EltWidth = CI.getType()->getScalarSizeInBits();
Intrinsic::ID IID;		Intrinsic::ID IID;
▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines	if (Name.startswith("max.p")) {
if (VecWidth == 128)		if (VecWidth == 128)
IID = Intrinsic::x86_ssse3_pmadd_ub_sw_128;		IID = Intrinsic::x86_ssse3_pmadd_ub_sw_128;
else if (VecWidth == 256)		else if (VecWidth == 256)
IID = Intrinsic::x86_avx2_pmadd_ub_sw;		IID = Intrinsic::x86_avx2_pmadd_ub_sw;
else if (VecWidth == 512)		else if (VecWidth == 512)
IID = Intrinsic::x86_avx512_pmaddubs_w_512;		IID = Intrinsic::x86_avx512_pmaddubs_w_512;
else		else
llvm_unreachable("Unexpected intrinsic");		llvm_unreachable("Unexpected intrinsic");
} else if (Name.startswith("packsswb.")) {		} else if (Name.startswith("pack")) {
if (VecWidth == 128)		bool IsUnsigned = Name[4] == 'u';
IID = Intrinsic::x86_sse2_packsswb_128;		int EltSize = (Name[6] == 'd') ? 32 : 16;
else if (VecWidth == 256)		Rep = EmitX86Pack(Builder, CI, IsUnsigned, EltSize);
IID = Intrinsic::x86_avx2_packsswb;		Rep = EmitX86Select(Builder, CI.getArgOperand(3), Rep, CI.getArgOperand(2));
else if (VecWidth == 512)		return true;
IID = Intrinsic::x86_avx512_packsswb_512;
else
llvm_unreachable("Unexpected intrinsic");
} else if (Name.startswith("packssdw.")) {
if (VecWidth == 128)
IID = Intrinsic::x86_sse2_packssdw_128;
else if (VecWidth == 256)
IID = Intrinsic::x86_avx2_packssdw;
else if (VecWidth == 512)
IID = Intrinsic::x86_avx512_packssdw_512;
else
llvm_unreachable("Unexpected intrinsic");
} else if (Name.startswith("packuswb.")) {
if (VecWidth == 128)
IID = Intrinsic::x86_sse2_packuswb_128;
else if (VecWidth == 256)
IID = Intrinsic::x86_avx2_packuswb;
else if (VecWidth == 512)
IID = Intrinsic::x86_avx512_packuswb_512;
else
llvm_unreachable("Unexpected intrinsic");
} else if (Name.startswith("packusdw.")) {
if (VecWidth == 128)
IID = Intrinsic::x86_sse41_packusdw;
else if (VecWidth == 256)
IID = Intrinsic::x86_avx2_packusdw;
else if (VecWidth == 512)
IID = Intrinsic::x86_avx512_packusdw_512;
else
llvm_unreachable("Unexpected intrinsic");
} else if (Name.startswith("vpermilvar.")) {		} else if (Name.startswith("vpermilvar.")) {
if (VecWidth == 128 && EltWidth == 32)		if (VecWidth == 128 && EltWidth == 32)
IID = Intrinsic::x86_avx_vpermilvar_ps;		IID = Intrinsic::x86_avx_vpermilvar_ps;
else if (VecWidth == 128 && EltWidth == 64)		else if (VecWidth == 128 && EltWidth == 64)
IID = Intrinsic::x86_avx_vpermilvar_pd;		IID = Intrinsic::x86_avx_vpermilvar_pd;
else if (VecWidth == 256 && EltWidth == 32)		else if (VecWidth == 256 && EltWidth == 32)
IID = Intrinsic::x86_avx_vpermilvar_ps_256;		IID = Intrinsic::x86_avx_vpermilvar_ps_256;
else if (VecWidth == 256 && EltWidth == 64)		else if (VecWidth == 256 && EltWidth == 64)
▲ Show 20 Lines • Show All 940 Lines • ▼ Show 20 Lines	if (IsX86 && (Name.startswith("sse2.pcmp") \|\|
CI->getArgOperand(2));		CI->getArgOperand(2));
} else if (IsX86 && Name.startswith("avx512.mask.lzcnt.")) {		} else if (IsX86 && Name.startswith("avx512.mask.lzcnt.")) {
Rep = Builder.CreateCall(Intrinsic::getDeclaration(F->getParent(),		Rep = Builder.CreateCall(Intrinsic::getDeclaration(F->getParent(),
Intrinsic::ctlz,		Intrinsic::ctlz,
CI->getType()),		CI->getType()),
{ CI->getArgOperand(0), Builder.getInt1(false) });		{ CI->getArgOperand(0), Builder.getInt1(false) });
Rep = EmitX86Select(Builder, CI->getArgOperand(2), Rep,		Rep = EmitX86Select(Builder, CI->getArgOperand(2), Rep,
CI->getArgOperand(1));		CI->getArgOperand(1));
		} else if (IsX86 &&
		(Name.startswith("sse2.pack") \|\| Name.startswith("sse41.pack") \|\|
		Name.startswith("avx2.pack") \|\|
		Name.startswith("avx512.pack"))) {
		int L = Name.size();
		L = (Name[L - 4] == '.') ? L - 4 : L;
		bool IsUnsigned = Name[L - 4] == 'u';
		int EltSize = (Name[L - 2] == 'd') ? 32 : 16;
		Rep = EmitX86Pack(Builder, *CI, IsUnsigned, EltSize);
		} else if (IsX86 && Name.startswith("avx512.mask.pack")) {
		bool IsUnsigned = Name[16] == 'u';
		int EltSize = (Name[18] == 'd') ? 32 : 16;
		Rep = EmitX86Pack(Builder, *CI, IsUnsigned, EltSize);
		Rep = EmitX86Select(Builder, CI->getArgOperand(3), Rep,
		CI->getArgOperand(2));
} else if (IsX86 && Name.startswith("avx512.mask.psll")) {		} else if (IsX86 && Name.startswith("avx512.mask.psll")) {
bool IsImmediate = Name[16] == 'i' \|\|		bool IsImmediate = Name[16] == 'i' \|\|
(Name.size() > 18 && Name[18] == 'i');		(Name.size() > 18 && Name[18] == 'i');
bool IsVariable = Name[16] == 'v';		bool IsVariable = Name[16] == 'v';
char Size = Name[16] == '.' ? Name[17] :		char Size = Name[16] == '.' ? Name[17] :
Name[17] == '.' ? Name[18] :		Name[17] == '.' ? Name[18] :
Name[18] == '.' ? Name[19] :		Name[18] == '.' ? Name[19] :
Name[20];		Name[20];
▲ Show 20 Lines • Show All 797 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 34,686 Lines • ▼ Show 20 Lines	static SDValue detectAVX512USatPattern(SDValue In, EVT VT,
const TargetLowering &TLI) {		const TargetLowering &TLI) {
if (!TLI.isTypeLegal(In.getValueType()))		if (!TLI.isTypeLegal(In.getValueType()))
return SDValue();		return SDValue();
if (!isSATValidOnAVX512Subtarget(In.getValueType(), VT, Subtarget))		if (!isSATValidOnAVX512Subtarget(In.getValueType(), VT, Subtarget))
return SDValue();		return SDValue();
return detectUSatPattern(In, VT);		return detectUSatPattern(In, VT);
}		}

		/// Detect a pattern of shuffling word or dword elements of two vectors together
		/// in lanes of 256 bits to be compressed to 128 bits by PACK intructions and
		/// return the original vectors in parameters A and B.
		static bool tracePackVectorShuffle(SDValue SatVal, EVT VT,
		const X86Subtarget &Subtarget,
		bool IsUnsigned, SDValue &A, SDValue &B) {
		// A 128 bit PACK op receives just a concat of its inputs.
		if (VT.getSizeInBits() == 128) {
		if (!Subtarget.hasSSE2())
		return false;
		if (SatVal.getOpcode() == ISD::CONCAT_VECTORS &&
		SatVal.getNumOperands() == 2) {
		A = SatVal.getOperand(0);
		B = SatVal.getOperand(1);
		// Check that this isn't a PACKUSDW pattern without SSE4.1.
		if (IsUnsigned && A.getValueType().getScalarType() == MVT::i32 &&
		!Subtarget.hasSSE41())
		return false;
		return true;
		}
		return false;
		}

		craig.topperUnsubmitted Done Reply Inline Actions This should use !Subtarget.useBWIRegs() instead of hasBWI. And you can lose the hasAVX512 check. Someday I'm hoping to finish the zmm=low changes that sometimes make 512-bits illegal even though BWI is supported. craig.topper: This should use !Subtarget.useBWIRegs() instead of hasBWI. And you can lose the hasAVX512 check.
		// Check for AVX2 and AVX512 features.
		if (VT.getSizeInBits() == 256 && !Subtarget.hasAVX2())
		return false;
		if (VT.getSizeInBits() == 512 && !Subtarget.useBWIRegs())
		return false;

		// Check that the pattern is a shuffle of two vectors, both of which are
		// the original inputs expanded to the same number of elements as the output
		// through concatenation.
		if (SatVal.getOpcode() != ISD::VECTOR_SHUFFLE)
		return false;
		auto Shuffle = cast<ShuffleVectorSDNode>(SatVal.getNode());
		A = Shuffle->getOperand(0);
		B = Shuffle->getOperand(1);
		// Cases where A == B get optimized to a distinct unary pattern.
		bool IsUnary = false;
		if (B.isUndef()) {
		IsUnary = true;
		B = A;
		}
		if (A.getOpcode() != ISD::CONCAT_VECTORS \|\| A.getNumOperands() != 2 \|\|
		B.getOpcode() != ISD::CONCAT_VECTORS \|\| B.getNumOperands() != 2)
		return false;
		// Get the original inputs of the pattern.
		A = A.getOperand(0);
		B = B.getOperand(0);

		// Check the shuffle mask. createPackShuffleMask is not used here because it
		// skips the odd-numbered elements of each lane in each input.
		SmallVector<int, 16> ShuffleMask;
		EVT InVT = A.getValueType();
		unsigned NumElts = VT.getVectorNumElements();
		unsigned Offset = IsUnary ? 0 : VT.getVectorNumElements();
		unsigned NumLanes = InVT.getSizeInBits() / 128;
		unsigned NumEltsPerLane = 128 / InVT.getScalarSizeInBits();
		for (unsigned Lane = 0; Lane != NumLanes; ++Lane) {
		for (unsigned Elt = 0; Elt != NumEltsPerLane; ++Elt)
		ShuffleMask.push_back(Elt + (Lane * NumEltsPerLane));
		for (unsigned Elt = 0; Elt != NumEltsPerLane; ++Elt)
		ShuffleMask.push_back(Elt + (Lane * NumEltsPerLane) + Offset);
		}

		for (unsigned i = 0; i < NumElts; ++i)
		if (Shuffle->getMaskElt(i) != ShuffleMask[i])
		return false;
		return true;
		}

static SDValue combineTruncateWithSat(SDValue In, EVT VT, const SDLoc &DL,		static SDValue combineTruncateWithSat(SDValue In, EVT VT, const SDLoc &DL,
SelectionDAG &DAG,		SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
EVT SVT = VT.getScalarType();		EVT SVT = VT.getScalarType();
EVT InVT = In.getValueType();		EVT InVT = In.getValueType();
EVT InSVT = InVT.getScalarType();		EVT InSVT = InVT.getScalarType();
const TargetLowering &TLI = DAG.getTargetLoweringInfo();		const TargetLowering &TLI = DAG.getTargetLoweringInfo();
		// A special case for a full PACK pattern, detecting the vector concatenation
		// (if 128 bit) or lane shuffle (other cases).
		// FIXME: the output pattern is basically the same as others, being truncation
		// of saturation, but the need to generate VTRUNC over more generic patterns
		// in truncateVectorWithPACK means that we are replicating checks here.
		if (VT.isVector() && isPowerOf2_32(VT.getVectorNumElements()) &&
		((SVT == MVT::i8 && InSVT == MVT::i16) \|\|
		(SVT == MVT::i16 && InSVT == MVT::i32))) {
		unsigned Opcode = 0;
		SDValue SatVal;
		if (auto SSatVal = detectSSatPattern(In, VT)) {
		Opcode = X86ISD::PACKSS;
		SatVal = SSatVal;
		} else if (auto USatVal = detectSSatPattern(In, VT, true)) {
		Opcode = X86ISD::PACKUS;
		SatVal = USatVal;
		}
		SDValue A, B;
		if (Opcode && tracePackVectorShuffle(SatVal, VT, Subtarget,
		(Opcode == X86ISD::PACKUS), A, B))
		return DAG.getNode(Opcode, DL, VT, A, B);
		}
if (TLI.isTypeLegal(InVT) && TLI.isTypeLegal(VT) &&		if (TLI.isTypeLegal(InVT) && TLI.isTypeLegal(VT) &&
isSATValidOnAVX512Subtarget(InVT, VT, Subtarget)) {		isSATValidOnAVX512Subtarget(InVT, VT, Subtarget)) {
if (auto SSatVal = detectSSatPattern(In, VT))		if (auto SSatVal = detectSSatPattern(In, VT))
return DAG.getNode(X86ISD::VTRUNCS, DL, VT, SSatVal);		return DAG.getNode(X86ISD::VTRUNCS, DL, VT, SSatVal);
		RKSimonUnsubmitted Not Done Reply Inline Actions This seems all rather messy - please can you try to clean it up? RKSimon: This seems all rather messy - please can you try to clean it up?
if (auto USatVal = detectUSatPattern(In, VT))		if (auto USatVal = detectUSatPattern(In, VT))
return DAG.getNode(X86ISD::VTRUNCUS, DL, VT, USatVal);		return DAG.getNode(X86ISD::VTRUNCUS, DL, VT, USatVal);
}		}
if (VT.isVector() && isPowerOf2_32(VT.getVectorNumElements()) &&		if (VT.isVector() && isPowerOf2_32(VT.getVectorNumElements()) &&
(SVT == MVT::i8 \|\| SVT == MVT::i16) &&		(SVT == MVT::i8 \|\| SVT == MVT::i16) &&
(InSVT == MVT::i16 \|\| InSVT == MVT::i32)) {		(InSVT == MVT::i16 \|\| InSVT == MVT::i32)) {
if (auto SSatVal = detectSSatPattern(In, VT))		if (auto SSatVal = detectSSatPattern(In, VT))
return truncateVectorWithPACK(X86ISD::PACKSS, VT, SSatVal, DL, DAG,		return truncateVectorWithPACK(X86ISD::PACKSS, VT, SSatVal, DL, DAG,
▲ Show 20 Lines • Show All 5,044 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86IntrinsicsInfo.h

Show First 20 Lines • Show All 392 Lines • ▼ Show 20 Lines	static const IntrinsicData IntrinsicsWithoutChain[] = {
X86_INTRINSIC_DATA(avx_round_ps_256, ROUNDP, X86ISD::VRNDSCALE, 0),		X86_INTRINSIC_DATA(avx_round_ps_256, ROUNDP, X86ISD::VRNDSCALE, 0),
X86_INTRINSIC_DATA(avx_rsqrt_ps_256, INTR_TYPE_1OP, X86ISD::FRSQRT, 0),		X86_INTRINSIC_DATA(avx_rsqrt_ps_256, INTR_TYPE_1OP, X86ISD::FRSQRT, 0),
X86_INTRINSIC_DATA(avx_sqrt_pd_256, INTR_TYPE_1OP, ISD::FSQRT, 0),		X86_INTRINSIC_DATA(avx_sqrt_pd_256, INTR_TYPE_1OP, ISD::FSQRT, 0),
X86_INTRINSIC_DATA(avx_sqrt_ps_256, INTR_TYPE_1OP, ISD::FSQRT, 0),		X86_INTRINSIC_DATA(avx_sqrt_ps_256, INTR_TYPE_1OP, ISD::FSQRT, 0),
X86_INTRINSIC_DATA(avx_vpermilvar_pd, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),		X86_INTRINSIC_DATA(avx_vpermilvar_pd, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),
X86_INTRINSIC_DATA(avx_vpermilvar_pd_256, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),		X86_INTRINSIC_DATA(avx_vpermilvar_pd_256, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),
X86_INTRINSIC_DATA(avx_vpermilvar_ps, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),		X86_INTRINSIC_DATA(avx_vpermilvar_ps, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),
X86_INTRINSIC_DATA(avx_vpermilvar_ps_256, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),		X86_INTRINSIC_DATA(avx_vpermilvar_ps_256, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),
X86_INTRINSIC_DATA(avx2_packssdw, INTR_TYPE_2OP, X86ISD::PACKSS, 0),
X86_INTRINSIC_DATA(avx2_packsswb, INTR_TYPE_2OP, X86ISD::PACKSS, 0),
X86_INTRINSIC_DATA(avx2_packusdw, INTR_TYPE_2OP, X86ISD::PACKUS, 0),
X86_INTRINSIC_DATA(avx2_packuswb, INTR_TYPE_2OP, X86ISD::PACKUS, 0),
X86_INTRINSIC_DATA(avx2_padds_b, INTR_TYPE_2OP, X86ISD::ADDS, 0),		X86_INTRINSIC_DATA(avx2_padds_b, INTR_TYPE_2OP, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(avx2_padds_w, INTR_TYPE_2OP, X86ISD::ADDS, 0),		X86_INTRINSIC_DATA(avx2_padds_w, INTR_TYPE_2OP, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(avx2_paddus_b, INTR_TYPE_2OP, X86ISD::ADDUS, 0),		X86_INTRINSIC_DATA(avx2_paddus_b, INTR_TYPE_2OP, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(avx2_paddus_w, INTR_TYPE_2OP, X86ISD::ADDUS, 0),		X86_INTRINSIC_DATA(avx2_paddus_w, INTR_TYPE_2OP, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(avx2_phadd_d, INTR_TYPE_2OP, X86ISD::HADD, 0),		X86_INTRINSIC_DATA(avx2_phadd_d, INTR_TYPE_2OP, X86ISD::HADD, 0),
X86_INTRINSIC_DATA(avx2_phadd_w, INTR_TYPE_2OP, X86ISD::HADD, 0),		X86_INTRINSIC_DATA(avx2_phadd_w, INTR_TYPE_2OP, X86ISD::HADD, 0),
X86_INTRINSIC_DATA(avx2_phsub_d, INTR_TYPE_2OP, X86ISD::HSUB, 0),		X86_INTRINSIC_DATA(avx2_phsub_d, INTR_TYPE_2OP, X86ISD::HSUB, 0),
X86_INTRINSIC_DATA(avx2_phsub_w, INTR_TYPE_2OP, X86ISD::HSUB, 0),		X86_INTRINSIC_DATA(avx2_phsub_w, INTR_TYPE_2OP, X86ISD::HSUB, 0),
▲ Show 20 Lines • Show All 1,020 Lines • ▼ Show 20 Lines	X86_INTRINSIC_DATA(avx512_mask_vpermi2var_d_128, VPERM_3OP_MASK,
X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_d_512, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),		X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_d_512, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),
X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_q_128, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),		X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_q_128, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),
X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_q_256, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),		X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_q_256, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),
X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_q_512, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),		X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_q_512, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),
X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_w_128, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),		X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_w_128, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),
X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_w_256, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),		X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_w_256, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),
X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_w_512, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),		X86_INTRINSIC_DATA(avx512_maskz_vpshrdv_w_512, FMA_OP_MASKZ, X86ISD::VSHRDV, 0),

X86_INTRINSIC_DATA(avx512_packssdw_512, INTR_TYPE_2OP, X86ISD::PACKSS, 0),
X86_INTRINSIC_DATA(avx512_packsswb_512, INTR_TYPE_2OP, X86ISD::PACKSS, 0),
X86_INTRINSIC_DATA(avx512_packusdw_512, INTR_TYPE_2OP, X86ISD::PACKUS, 0),
X86_INTRINSIC_DATA(avx512_packuswb_512, INTR_TYPE_2OP, X86ISD::PACKUS, 0),
X86_INTRINSIC_DATA(avx512_pmaddubs_w_512, INTR_TYPE_2OP,		X86_INTRINSIC_DATA(avx512_pmaddubs_w_512, INTR_TYPE_2OP,
X86ISD::VPMADDUBSW, 0),		X86ISD::VPMADDUBSW, 0),
X86_INTRINSIC_DATA(avx512_pmaddw_d_512, INTR_TYPE_2OP,		X86_INTRINSIC_DATA(avx512_pmaddw_d_512, INTR_TYPE_2OP,
X86ISD::VPMADDWD, 0),		X86ISD::VPMADDWD, 0),
X86_INTRINSIC_DATA(avx512_pmul_hr_sw_512, INTR_TYPE_2OP, X86ISD::MULHRS, 0),		X86_INTRINSIC_DATA(avx512_pmul_hr_sw_512, INTR_TYPE_2OP, X86ISD::MULHRS, 0),
X86_INTRINSIC_DATA(avx512_pmulh_w_512, INTR_TYPE_2OP, ISD::MULHS, 0),		X86_INTRINSIC_DATA(avx512_pmulh_w_512, INTR_TYPE_2OP, ISD::MULHS, 0),
X86_INTRINSIC_DATA(avx512_pmulhu_w_512, INTR_TYPE_2OP, ISD::MULHU, 0),		X86_INTRINSIC_DATA(avx512_pmulhu_w_512, INTR_TYPE_2OP, ISD::MULHU, 0),
X86_INTRINSIC_DATA(avx512_psad_bw_512, INTR_TYPE_2OP, X86ISD::PSADBW, 0),		X86_INTRINSIC_DATA(avx512_psad_bw_512, INTR_TYPE_2OP, X86ISD::PSADBW, 0),
▲ Show 20 Lines • Show All 141 Lines • ▼ Show 20 Lines	X86_INTRINSIC_DATA(avx512_mask_vpermi2var_d_128, VPERM_3OP_MASK,
X86_INTRINSIC_DATA(sse2_cvtps2dq, INTR_TYPE_1OP, X86ISD::CVTP2SI, 0),		X86_INTRINSIC_DATA(sse2_cvtps2dq, INTR_TYPE_1OP, X86ISD::CVTP2SI, 0),
X86_INTRINSIC_DATA(sse2_cvttpd2dq, INTR_TYPE_1OP, X86ISD::CVTTP2SI, 0),		X86_INTRINSIC_DATA(sse2_cvttpd2dq, INTR_TYPE_1OP, X86ISD::CVTTP2SI, 0),
X86_INTRINSIC_DATA(sse2_cvttps2dq, INTR_TYPE_1OP, ISD::FP_TO_SINT, 0),		X86_INTRINSIC_DATA(sse2_cvttps2dq, INTR_TYPE_1OP, ISD::FP_TO_SINT, 0),
X86_INTRINSIC_DATA(sse2_max_pd, INTR_TYPE_2OP, X86ISD::FMAX, 0),		X86_INTRINSIC_DATA(sse2_max_pd, INTR_TYPE_2OP, X86ISD::FMAX, 0),
X86_INTRINSIC_DATA(sse2_max_sd, INTR_TYPE_2OP, X86ISD::FMAXS, 0),		X86_INTRINSIC_DATA(sse2_max_sd, INTR_TYPE_2OP, X86ISD::FMAXS, 0),
X86_INTRINSIC_DATA(sse2_min_pd, INTR_TYPE_2OP, X86ISD::FMIN, 0),		X86_INTRINSIC_DATA(sse2_min_pd, INTR_TYPE_2OP, X86ISD::FMIN, 0),
X86_INTRINSIC_DATA(sse2_min_sd, INTR_TYPE_2OP, X86ISD::FMINS, 0),		X86_INTRINSIC_DATA(sse2_min_sd, INTR_TYPE_2OP, X86ISD::FMINS, 0),
X86_INTRINSIC_DATA(sse2_movmsk_pd, INTR_TYPE_1OP, X86ISD::MOVMSK, 0),		X86_INTRINSIC_DATA(sse2_movmsk_pd, INTR_TYPE_1OP, X86ISD::MOVMSK, 0),
X86_INTRINSIC_DATA(sse2_packssdw_128, INTR_TYPE_2OP, X86ISD::PACKSS, 0),
X86_INTRINSIC_DATA(sse2_packsswb_128, INTR_TYPE_2OP, X86ISD::PACKSS, 0),
X86_INTRINSIC_DATA(sse2_packuswb_128, INTR_TYPE_2OP, X86ISD::PACKUS, 0),
X86_INTRINSIC_DATA(sse2_padds_b, INTR_TYPE_2OP, X86ISD::ADDS, 0),		X86_INTRINSIC_DATA(sse2_padds_b, INTR_TYPE_2OP, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(sse2_padds_w, INTR_TYPE_2OP, X86ISD::ADDS, 0),		X86_INTRINSIC_DATA(sse2_padds_w, INTR_TYPE_2OP, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(sse2_paddus_b, INTR_TYPE_2OP, X86ISD::ADDUS, 0),		X86_INTRINSIC_DATA(sse2_paddus_b, INTR_TYPE_2OP, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(sse2_paddus_w, INTR_TYPE_2OP, X86ISD::ADDUS, 0),		X86_INTRINSIC_DATA(sse2_paddus_w, INTR_TYPE_2OP, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(sse2_pmadd_wd, INTR_TYPE_2OP, X86ISD::VPMADDWD, 0),		X86_INTRINSIC_DATA(sse2_pmadd_wd, INTR_TYPE_2OP, X86ISD::VPMADDWD, 0),
X86_INTRINSIC_DATA(sse2_pmovmskb_128, INTR_TYPE_1OP, X86ISD::MOVMSK, 0),		X86_INTRINSIC_DATA(sse2_pmovmskb_128, INTR_TYPE_1OP, X86ISD::MOVMSK, 0),
X86_INTRINSIC_DATA(sse2_pmulh_w, INTR_TYPE_2OP, ISD::MULHS, 0),		X86_INTRINSIC_DATA(sse2_pmulh_w, INTR_TYPE_2OP, ISD::MULHS, 0),
X86_INTRINSIC_DATA(sse2_pmulhu_w, INTR_TYPE_2OP, ISD::MULHU, 0),		X86_INTRINSIC_DATA(sse2_pmulhu_w, INTR_TYPE_2OP, ISD::MULHU, 0),
Show All 27 Lines	X86_INTRINSIC_DATA(avx512_mask_vpermi2var_d_128, VPERM_3OP_MASK,
X86_INTRINSIC_DATA(sse2_ucomineq_sd, COMI, X86ISD::UCOMI, ISD::SETNE),		X86_INTRINSIC_DATA(sse2_ucomineq_sd, COMI, X86ISD::UCOMI, ISD::SETNE),
X86_INTRINSIC_DATA(sse3_addsub_pd, INTR_TYPE_2OP, X86ISD::ADDSUB, 0),		X86_INTRINSIC_DATA(sse3_addsub_pd, INTR_TYPE_2OP, X86ISD::ADDSUB, 0),
X86_INTRINSIC_DATA(sse3_addsub_ps, INTR_TYPE_2OP, X86ISD::ADDSUB, 0),		X86_INTRINSIC_DATA(sse3_addsub_ps, INTR_TYPE_2OP, X86ISD::ADDSUB, 0),
X86_INTRINSIC_DATA(sse3_hadd_pd, INTR_TYPE_2OP, X86ISD::FHADD, 0),		X86_INTRINSIC_DATA(sse3_hadd_pd, INTR_TYPE_2OP, X86ISD::FHADD, 0),
X86_INTRINSIC_DATA(sse3_hadd_ps, INTR_TYPE_2OP, X86ISD::FHADD, 0),		X86_INTRINSIC_DATA(sse3_hadd_ps, INTR_TYPE_2OP, X86ISD::FHADD, 0),
X86_INTRINSIC_DATA(sse3_hsub_pd, INTR_TYPE_2OP, X86ISD::FHSUB, 0),		X86_INTRINSIC_DATA(sse3_hsub_pd, INTR_TYPE_2OP, X86ISD::FHSUB, 0),
X86_INTRINSIC_DATA(sse3_hsub_ps, INTR_TYPE_2OP, X86ISD::FHSUB, 0),		X86_INTRINSIC_DATA(sse3_hsub_ps, INTR_TYPE_2OP, X86ISD::FHSUB, 0),
X86_INTRINSIC_DATA(sse41_insertps, INTR_TYPE_3OP, X86ISD::INSERTPS, 0),		X86_INTRINSIC_DATA(sse41_insertps, INTR_TYPE_3OP, X86ISD::INSERTPS, 0),
X86_INTRINSIC_DATA(sse41_packusdw, INTR_TYPE_2OP, X86ISD::PACKUS, 0),
X86_INTRINSIC_DATA(sse41_phminposuw, INTR_TYPE_1OP, X86ISD::PHMINPOS, 0),		X86_INTRINSIC_DATA(sse41_phminposuw, INTR_TYPE_1OP, X86ISD::PHMINPOS, 0),
X86_INTRINSIC_DATA(sse41_round_pd, ROUNDP, X86ISD::VRNDSCALE, 0),		X86_INTRINSIC_DATA(sse41_round_pd, ROUNDP, X86ISD::VRNDSCALE, 0),
X86_INTRINSIC_DATA(sse41_round_ps, ROUNDP, X86ISD::VRNDSCALE, 0),		X86_INTRINSIC_DATA(sse41_round_ps, ROUNDP, X86ISD::VRNDSCALE, 0),
X86_INTRINSIC_DATA(sse41_round_sd, ROUNDS, X86ISD::VRNDSCALES, 0),		X86_INTRINSIC_DATA(sse41_round_sd, ROUNDS, X86ISD::VRNDSCALES, 0),
X86_INTRINSIC_DATA(sse41_round_ss, ROUNDS, X86ISD::VRNDSCALES, 0),		X86_INTRINSIC_DATA(sse41_round_ss, ROUNDS, X86ISD::VRNDSCALES, 0),
X86_INTRINSIC_DATA(sse4a_extrqi, INTR_TYPE_3OP, X86ISD::EXTRQI, 0),		X86_INTRINSIC_DATA(sse4a_extrqi, INTR_TYPE_3OP, X86ISD::EXTRQI, 0),
X86_INTRINSIC_DATA(sse4a_insertqi, INTR_TYPE_4OP, X86ISD::INSERTQI, 0),		X86_INTRINSIC_DATA(sse4a_insertqi, INTR_TYPE_4OP, X86ISD::INSERTQI, 0),
X86_INTRINSIC_DATA(ssse3_phadd_d_128, INTR_TYPE_2OP, X86ISD::HADD, 0),		X86_INTRINSIC_DATA(ssse3_phadd_d_128, INTR_TYPE_2OP, X86ISD::HADD, 0),
▲ Show 20 Lines • Show All 92 Lines • Show Last 20 Lines

llvm/lib/Transforms/InstCombine/InstCombineCalls.cpp

Show First 20 Lines • Show All 560 Lines • ▼ Show 20 Lines	if (ShiftLeft)
return Builder.CreateShl(Vec, ShiftVec);		return Builder.CreateShl(Vec, ShiftVec);

if (LogicalShift)		if (LogicalShift)
return Builder.CreateLShr(Vec, ShiftVec);		return Builder.CreateLShr(Vec, ShiftVec);

return Builder.CreateAShr(Vec, ShiftVec);		return Builder.CreateAShr(Vec, ShiftVec);
}		}

static Value *simplifyX86pack(IntrinsicInst &II, bool IsSigned) {
Value *Arg0 = II.getArgOperand(0);
Value *Arg1 = II.getArgOperand(1);
Type *ResTy = II.getType();

// Fast all undef handling.
if (isa<UndefValue>(Arg0) && isa<UndefValue>(Arg1))
return UndefValue::get(ResTy);

Type *ArgTy = Arg0->getType();
unsigned NumLanes = ResTy->getPrimitiveSizeInBits() / 128;
unsigned NumDstElts = ResTy->getVectorNumElements();
unsigned NumSrcElts = ArgTy->getVectorNumElements();
assert(NumDstElts == (2 * NumSrcElts) && "Unexpected packing types");

unsigned NumDstEltsPerLane = NumDstElts / NumLanes;
unsigned NumSrcEltsPerLane = NumSrcElts / NumLanes;
unsigned DstScalarSizeInBits = ResTy->getScalarSizeInBits();
assert(ArgTy->getScalarSizeInBits() == (2 * DstScalarSizeInBits) &&
"Unexpected packing types");

// Constant folding.
auto *Cst0 = dyn_cast<Constant>(Arg0);
auto *Cst1 = dyn_cast<Constant>(Arg1);
if (!Cst0 \|\| !Cst1)
return nullptr;

SmallVector<Constant *, 32> Vals;
for (unsigned Lane = 0; Lane != NumLanes; ++Lane) {
for (unsigned Elt = 0; Elt != NumDstEltsPerLane; ++Elt) {
unsigned SrcIdx = Lane * NumSrcEltsPerLane + Elt % NumSrcEltsPerLane;
auto *Cst = (Elt >= NumSrcEltsPerLane) ? Cst1 : Cst0;
auto *COp = Cst->getAggregateElement(SrcIdx);
if (COp && isa<UndefValue>(COp)) {
Vals.push_back(UndefValue::get(ResTy->getScalarType()));
continue;
}

auto *CInt = dyn_cast_or_null<ConstantInt>(COp);
if (!CInt)
return nullptr;

APInt Val = CInt->getValue();
assert(Val.getBitWidth() == ArgTy->getScalarSizeInBits() &&
"Unexpected constant bitwidth");

if (IsSigned) {
// PACKSS: Truncate signed value with signed saturation.
// Source values less than dst minint are saturated to minint.
// Source values greater than dst maxint are saturated to maxint.
if (Val.isSignedIntN(DstScalarSizeInBits))
Val = Val.trunc(DstScalarSizeInBits);
else if (Val.isNegative())
Val = APInt::getSignedMinValue(DstScalarSizeInBits);
else
Val = APInt::getSignedMaxValue(DstScalarSizeInBits);
} else {
// PACKUS: Truncate signed value with unsigned saturation.
// Source values less than zero are saturated to zero.
// Source values greater than dst maxuint are saturated to maxuint.
if (Val.isIntN(DstScalarSizeInBits))
Val = Val.trunc(DstScalarSizeInBits);
else if (Val.isNegative())
Val = APInt::getNullValue(DstScalarSizeInBits);
else
Val = APInt::getAllOnesValue(DstScalarSizeInBits);
}

Vals.push_back(ConstantInt::get(ResTy->getScalarType(), Val));
}
}

return ConstantVector::get(Vals);
}

static Value *simplifyX86movmsk(const IntrinsicInst &II) {		static Value *simplifyX86movmsk(const IntrinsicInst &II) {
Value *Arg = II.getArgOperand(0);		Value *Arg = II.getArgOperand(0);
Type *ResTy = II.getType();		Type *ResTy = II.getType();
Type *ArgTy = Arg->getType();		Type *ArgTy = Arg->getType();

// movmsk(undef) -> zero as we must ensure the upper bits are zero.		// movmsk(undef) -> zero as we must ensure the upper bits are zero.
if (isa<UndefValue>(Arg))		if (isa<UndefValue>(Arg))
return Constant::getNullValue(ResTy);		return Constant::getNullValue(ResTy);
▲ Show 20 Lines • Show All 1,936 Lines • ▼ Show 20 Lines	Instruction *InstCombiner::visitCallInst(CallInst &CI) {
case Intrinsic::x86_avx512_psrlv_q_512:		case Intrinsic::x86_avx512_psrlv_q_512:
case Intrinsic::x86_avx512_psrlv_w_128:		case Intrinsic::x86_avx512_psrlv_w_128:
case Intrinsic::x86_avx512_psrlv_w_256:		case Intrinsic::x86_avx512_psrlv_w_256:
case Intrinsic::x86_avx512_psrlv_w_512:		case Intrinsic::x86_avx512_psrlv_w_512:
if (Value V = simplifyX86varShift(II, Builder))		if (Value V = simplifyX86varShift(II, Builder))
return replaceInstUsesWith(*II, V);		return replaceInstUsesWith(*II, V);
break;		break;

case Intrinsic::x86_sse2_packssdw_128:
case Intrinsic::x86_sse2_packsswb_128:
case Intrinsic::x86_avx2_packssdw:
case Intrinsic::x86_avx2_packsswb:
case Intrinsic::x86_avx512_packssdw_512:
case Intrinsic::x86_avx512_packsswb_512:
if (Value V = simplifyX86pack(II, true))
return replaceInstUsesWith(*II, V);
break;

case Intrinsic::x86_sse2_packuswb_128:
case Intrinsic::x86_sse41_packusdw:
case Intrinsic::x86_avx2_packusdw:
case Intrinsic::x86_avx2_packuswb:
case Intrinsic::x86_avx512_packusdw_512:
case Intrinsic::x86_avx512_packuswb_512:
if (Value V = simplifyX86pack(II, false))
return replaceInstUsesWith(*II, V);
break;

case Intrinsic::x86_pclmulqdq: {		case Intrinsic::x86_pclmulqdq: {
if (auto *C = dyn_cast<ConstantInt>(II->getArgOperand(2))) {		if (auto *C = dyn_cast<ConstantInt>(II->getArgOperand(2))) {
unsigned Imm = C->getZExtValue();		unsigned Imm = C->getZExtValue();

bool MadeChange = false;		bool MadeChange = false;
Value *Arg0 = II->getArgOperand(0);		Value *Arg0 = II->getArgOperand(0);
Value *Arg1 = II->getArgOperand(1);		Value *Arg1 = II->getArgOperand(1);
unsigned VWidth = Arg0->getType()->getVectorNumElements();		unsigned VWidth = Arg0->getType()->getVectorNumElements();
▲ Show 20 Lines • Show All 1,715 Lines • Show Last 20 Lines

llvm/lib/Transforms/InstCombine/InstCombineSimplifyDemanded.cpp

Show First 20 Lines • Show All 1,430 Lines • ▼ Show 20 Lines	case Intrinsic::x86_avx512_mask3_vfnmsub_sd:

// Lower element is undefined if all three lower elements are undefined.		// Lower element is undefined if all three lower elements are undefined.
// Consider things like undef&0. The result is known zero, not undef.		// Consider things like undef&0. The result is known zero, not undef.
if (!UndefElts2[0] \|\| !UndefElts3[0])		if (!UndefElts2[0] \|\| !UndefElts3[0])
UndefElts.clearBit(0);		UndefElts.clearBit(0);

break;		break;

case Intrinsic::x86_sse2_packssdw_128:
case Intrinsic::x86_sse2_packsswb_128:
case Intrinsic::x86_sse2_packuswb_128:
case Intrinsic::x86_sse41_packusdw:
case Intrinsic::x86_avx2_packssdw:
case Intrinsic::x86_avx2_packsswb:
case Intrinsic::x86_avx2_packusdw:
case Intrinsic::x86_avx2_packuswb:
case Intrinsic::x86_avx512_packssdw_512:
case Intrinsic::x86_avx512_packsswb_512:
case Intrinsic::x86_avx512_packusdw_512:
case Intrinsic::x86_avx512_packuswb_512: {
auto *Ty0 = II->getArgOperand(0)->getType();
unsigned InnerVWidth = Ty0->getVectorNumElements();
assert(VWidth == (InnerVWidth * 2) && "Unexpected input size");

unsigned NumLanes = Ty0->getPrimitiveSizeInBits() / 128;
unsigned VWidthPerLane = VWidth / NumLanes;
unsigned InnerVWidthPerLane = InnerVWidth / NumLanes;

// Per lane, pack the elements of the first input and then the second.
// e.g.
// v8i16 PACK(v4i32 X, v4i32 Y) - (X[0..3],Y[0..3])
// v32i8 PACK(v16i16 X, v16i16 Y) - (X[0..7],Y[0..7]),(X[8..15],Y[8..15])
for (int OpNum = 0; OpNum != 2; ++OpNum) {
APInt OpDemandedElts(InnerVWidth, 0);
for (unsigned Lane = 0; Lane != NumLanes; ++Lane) {
unsigned LaneIdx = Lane * VWidthPerLane;
for (unsigned Elt = 0; Elt != InnerVWidthPerLane; ++Elt) {
unsigned Idx = LaneIdx + Elt + InnerVWidthPerLane * OpNum;
if (DemandedElts[Idx])
OpDemandedElts.setBit((Lane * InnerVWidthPerLane) + Elt);
}
}

// Demand elements from the operand.
auto *Op = II->getArgOperand(OpNum);
APInt OpUndefElts(InnerVWidth, 0);
TmpV = SimplifyDemandedVectorElts(Op, OpDemandedElts, OpUndefElts,
Depth + 1);
if (TmpV) {
II->setArgOperand(OpNum, TmpV);
MadeChange = true;
}

// Pack the operand's UNDEF elements, one lane at a time.
OpUndefElts = OpUndefElts.zext(VWidth);
for (unsigned Lane = 0; Lane != NumLanes; ++Lane) {
APInt LaneElts = OpUndefElts.lshr(InnerVWidthPerLane * Lane);
LaneElts = LaneElts.getLoBits(InnerVWidthPerLane);
LaneElts <<= InnerVWidthPerLane * (2 * Lane + OpNum);
UndefElts \|= LaneElts;
}
}
break;
}

// PSHUFB		// PSHUFB
case Intrinsic::x86_ssse3_pshuf_b_128:		case Intrinsic::x86_ssse3_pshuf_b_128:
case Intrinsic::x86_avx2_pshuf_b:		case Intrinsic::x86_avx2_pshuf_b:
case Intrinsic::x86_avx512_pshuf_b_512:		case Intrinsic::x86_avx512_pshuf_b_512:
// PERMILVAR		// PERMILVAR
case Intrinsic::x86_avx_vpermilvar_ps:		case Intrinsic::x86_avx_vpermilvar_ps:
case Intrinsic::x86_avx_vpermilvar_ps_256:		case Intrinsic::x86_avx_vpermilvar_ps_256:
case Intrinsic::x86_avx512_vpermilvar_ps_512:		case Intrinsic::x86_avx512_vpermilvar_ps_512:
▲ Show 20 Lines • Show All 148 Lines • Show Last 20 Lines

llvm/lib/Transforms/Instrumentation/MemorySanitizer.cpp

Show First 20 Lines • Show All 2,368 Lines • ▼ Show 20 Lines	Type *getMMXVectorTy(unsigned EltSizeInBits) {
return VectorType::get(IntegerType::get(*MS.C, EltSizeInBits),		return VectorType::get(IntegerType::get(*MS.C, EltSizeInBits),
X86_MMXSizeInBits / EltSizeInBits);		X86_MMXSizeInBits / EltSizeInBits);
}		}

// \brief Returns a signed counterpart for an (un)signed-saturate-and-pack		// \brief Returns a signed counterpart for an (un)signed-saturate-and-pack
// intrinsic.		// intrinsic.
Intrinsic::ID getSignedPackIntrinsic(Intrinsic::ID id) {		Intrinsic::ID getSignedPackIntrinsic(Intrinsic::ID id) {
switch (id) {		switch (id) {
case Intrinsic::x86_sse2_packsswb_128:
case Intrinsic::x86_sse2_packuswb_128:
return Intrinsic::x86_sse2_packsswb_128;

case Intrinsic::x86_sse2_packssdw_128:
case Intrinsic::x86_sse41_packusdw:
return Intrinsic::x86_sse2_packssdw_128;

case Intrinsic::x86_avx2_packsswb:
case Intrinsic::x86_avx2_packuswb:
return Intrinsic::x86_avx2_packsswb;

case Intrinsic::x86_avx2_packssdw:
case Intrinsic::x86_avx2_packusdw:
return Intrinsic::x86_avx2_packssdw;

case Intrinsic::x86_mmx_packsswb:		case Intrinsic::x86_mmx_packsswb:
case Intrinsic::x86_mmx_packuswb:		case Intrinsic::x86_mmx_packuswb:
return Intrinsic::x86_mmx_packsswb;		return Intrinsic::x86_mmx_packsswb;

case Intrinsic::x86_mmx_packssdw:		case Intrinsic::x86_mmx_packssdw:
return Intrinsic::x86_mmx_packssdw;		return Intrinsic::x86_mmx_packssdw;
default:		default:
llvm_unreachable("unexpected intrinsic id");		llvm_unreachable("unexpected intrinsic id");
▲ Show 20 Lines • Show All 268 Lines • ▼ Show 20 Lines	void visitIntrinsicInst(IntrinsicInst &I) {
case Intrinsic::x86_avx2_psrav_d_256:		case Intrinsic::x86_avx2_psrav_d_256:
case Intrinsic::x86_avx512_psrav_d_512:		case Intrinsic::x86_avx512_psrav_d_512:
case Intrinsic::x86_avx512_psrav_q_128:		case Intrinsic::x86_avx512_psrav_q_128:
case Intrinsic::x86_avx512_psrav_q_256:		case Intrinsic::x86_avx512_psrav_q_256:
case Intrinsic::x86_avx512_psrav_q_512:		case Intrinsic::x86_avx512_psrav_q_512:
handleVectorShiftIntrinsic(I, /* Variable */ true);		handleVectorShiftIntrinsic(I, /* Variable */ true);
break;		break;

case Intrinsic::x86_sse2_packsswb_128:
case Intrinsic::x86_sse2_packssdw_128:
case Intrinsic::x86_sse2_packuswb_128:
case Intrinsic::x86_sse41_packusdw:
case Intrinsic::x86_avx2_packsswb:
case Intrinsic::x86_avx2_packssdw:
case Intrinsic::x86_avx2_packuswb:
case Intrinsic::x86_avx2_packusdw:
handleVectorPackIntrinsic(I);
break;

case Intrinsic::x86_mmx_packsswb:		case Intrinsic::x86_mmx_packsswb:
case Intrinsic::x86_mmx_packuswb:		case Intrinsic::x86_mmx_packuswb:
handleVectorPackIntrinsic(I, 16);		handleVectorPackIntrinsic(I, 16);
break;		break;

case Intrinsic::x86_mmx_packssdw:		case Intrinsic::x86_mmx_packssdw:
handleVectorPackIntrinsic(I, 32);		handleVectorPackIntrinsic(I, 32);
break;		break;
▲ Show 20 Lines • Show All 1,228 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx2-intrinsics-fast-isel.ll

	Show First 20 Lines • Show All 1,930 Lines • ▼ Show 20 Lines

	define <4 x i64> @test_mm256_packs_epi16(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_packs_epi16(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_packs_epi16:			; CHECK-LABEL: test_mm256_packs_epi16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <16 x i16>			%arg0 = bitcast <4 x i64> %a0 to <16 x i16>
	%arg1 = bitcast <4 x i64> %a1 to <16 x i16>			%arg1 = bitcast <4 x i64> %a1 to <16 x i16>
	%call = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %arg0, <16 x i16> %arg1)			%1 = shufflevector <16 x i16> %arg0, <16 x i16> %arg1, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
				%2 = icmp slt <32 x i16> %1, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%4 = icmp sgt <32 x i16> %3, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%call = trunc <32 x i16> %5 to <32 x i8>
	%res = bitcast <32 x i8> %call to <4 x i64>			%res = bitcast <32 x i8> %call to <4 x i64>
	ret <4 x i64> %res			ret <4 x i64> %res
	}			}
	declare <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16>, <16 x i16>) nounwind readnone

	define <4 x i64> @test_mm256_packs_epi32(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_packs_epi32(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_packs_epi32:			; CHECK-LABEL: test_mm256_packs_epi32:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <8 x i32>			%arg0 = bitcast <4 x i64> %a0 to <8 x i32>
	%arg1 = bitcast <4 x i64> %a1 to <8 x i32>			%arg1 = bitcast <4 x i64> %a1 to <8 x i32>
	%call = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %arg0, <8 x i32> %arg1)			%1 = shufflevector <8 x i32> %arg0, <8 x i32> %arg1, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 8, i32 9, i32 10, i32 11, i32 4, i32 5, i32 6, i32 7, i32 12, i32 13, i32 14, i32 15>
				%2 = icmp slt <16 x i32> %1, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%3 = select <16 x i1> %2, <16 x i32> %1, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%4 = icmp sgt <16 x i32> %3, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%call = trunc <16 x i32> %5 to <16 x i16>
	%res = bitcast <16 x i16> %call to <4 x i64>			%res = bitcast <16 x i16> %call to <4 x i64>
	ret <4 x i64> %res			ret <4 x i64> %res
	}			}
	declare <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32>, <8 x i32>) nounwind readnone

	define <4 x i64> @test_mm256_packus_epi16(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_packus_epi16(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_packus_epi16:			; CHECK-LABEL: test_mm256_packus_epi16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <16 x i16>			%arg0 = bitcast <4 x i64> %a0 to <16 x i16>
	%arg1 = bitcast <4 x i64> %a1 to <16 x i16>			%arg1 = bitcast <4 x i64> %a1 to <16 x i16>
	%call = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %arg0, <16 x i16> %arg1)			%1 = shufflevector <16 x i16> %arg0, <16 x i16> %arg1, <32 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
				%2 = icmp slt <32 x i16> %1, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%4 = icmp sgt <32 x i16> %3, zeroinitializer
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> zeroinitializer
				%call = trunc <32 x i16> %5 to <32 x i8>
	%res = bitcast <32 x i8> %call to <4 x i64>			%res = bitcast <32 x i8> %call to <4 x i64>
	ret <4 x i64> %res			ret <4 x i64> %res
	}			}
	declare <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16>, <16 x i16>) nounwind readnone

	define <4 x i64> @test_mm256_packus_epi32(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_packus_epi32(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_packus_epi32:			; CHECK-LABEL: test_mm256_packus_epi32:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <8 x i32>			%arg0 = bitcast <4 x i64> %a0 to <8 x i32>
	%arg1 = bitcast <4 x i64> %a1 to <8 x i32>			%arg1 = bitcast <4 x i64> %a1 to <8 x i32>
	%call = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %arg0, <8 x i32> %arg1)			%1 = shufflevector <8 x i32> %arg0, <8 x i32> %arg1, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 8, i32 9, i32 10, i32 11, i32 4, i32 5, i32 6, i32 7, i32 12, i32 13, i32 14, i32 15>
				%2 = icmp slt <16 x i32> %1, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%3 = select <16 x i1> %2, <16 x i32> %1, <16 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%4 = icmp sgt <16 x i32> %3, zeroinitializer
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> zeroinitializer
				%call = trunc <16 x i32> %5 to <16 x i16>
	%res = bitcast <16 x i16> %call to <4 x i64>			%res = bitcast <16 x i16> %call to <4 x i64>
	ret <4 x i64> %res			ret <4 x i64> %res
	}			}
	declare <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32>, <8 x i32>) nounwind readnone

	define <4 x i64> @test_mm256_permute2x128_si256(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_permute2x128_si256(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_permute2x128_si256:			; CHECK-LABEL: test_mm256_permute2x128_si256:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]			; CHECK-NEXT: vperm2f128 {{.*#+}} ymm0 = ymm0[2,3],ymm1[2,3]
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%res = shufflevector <4 x i64> %a0, <4 x i64> %a1, <4 x i32> <i32 2, i32 3, i32 6, i32 7>			%res = shufflevector <4 x i64> %a0, <4 x i64> %a1, <4 x i32> <i32 2, i32 3, i32 6, i32 7>
	ret <4 x i64> %res			ret <4 x i64> %res
	▲ Show 20 Lines • Show All 688 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx2-intrinsics-x86-upgrade.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=avx2 \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX2 --check-prefix=X86 --check-prefix=X86-AVX2			; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=avx2 \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX2 --check-prefix=X86 --check-prefix=X86-AVX2
	; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512 --check-prefix=X86 --check-prefix=X86-AVX512			; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512 --check-prefix=X86 --check-prefix=X86-AVX512
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=avx2 \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX2 --check-prefix=X64 --check-prefix=X64-AVX2			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=avx2 \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX2 --check-prefix=X64 --check-prefix=X64-AVX2
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512 --check-prefix=X64 --check-prefix=X64-AVX512			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512 --check-prefix=X64 --check-prefix=X64-AVX512

				define <16 x i16> @test_x86_avx2_packssdw(<8 x i32> %a0, <8 x i32> %a1) {
				; X86-LABEL: test_x86_avx2_packssdw:
				; X86: ## %bb.0:
				; X86-NEXT: vpackssdw %ymm1, %ymm0, %ymm0
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packssdw:
				; X64: ## %bb.0:
				; X64-NEXT: vpackssdw %ymm1, %ymm0, %ymm0
				; X64-NEXT: retq
				%res = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a0, <8 x i32> %a1) ; <<16 x i16>> [#uses=1]
				ret <16 x i16> %res
				}
				declare <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32>, <8 x i32>) nounwind readnone


				define <16 x i16> @test_x86_avx2_packssdw_unary(<8 x i32> %a) {
				; X86-LABEL: test_x86_avx2_packssdw_unary:
				; X86: ## %bb.0:
				; X86-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packssdw_unary:
				; X64: ## %bb.0:
				; X64-NEXT: vpackssdw %ymm0, %ymm0, %ymm0
				; X64-NEXT: retq
				%res = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %a) ; <<16 x i16>> [#uses=1]
				ret <16 x i16> %res
				}


				define <16 x i16> @test_x86_avx2_packssdw_fold() {
				; X86-LABEL: test_x86_avx2_packssdw_fold:
				; X86: ## %bb.0:
				; X86-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,32767,65535,0,0,0,0,32769,32768,0,65280]
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packssdw_fold:
				; X64: ## %bb.0:
				; X64-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,32767,65535,0,0,0,0,32769,32768,0,65280]
				; X64-NEXT: retq
				%res = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> zeroinitializer, <8 x i32> <i32 255, i32 32767, i32 65535, i32 -1, i32 -32767, i32 -65535, i32 0, i32 -256>)
				ret <16 x i16> %res
				}


				define <32 x i8> @test_x86_avx2_packsswb(<16 x i16> %a0, <16 x i16> %a1) {
				; X86-LABEL: test_x86_avx2_packsswb:
				; X86: ## %bb.0:
				; X86-NEXT: vpacksswb %ymm1, %ymm0, %ymm0
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packsswb:
				; X64: ## %bb.0:
				; X64-NEXT: vpacksswb %ymm1, %ymm0, %ymm0
				; X64-NEXT: retq
				%res = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a0, <16 x i16> %a1) ; <<32 x i8>> [#uses=1]
				ret <32 x i8> %res
				}
				declare <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16>, <16 x i16>) nounwind readnone


				define <32 x i8> @test_x86_avx2_packsswb_unary(<16 x i16> %a) {
				; X86-LABEL: test_x86_avx2_packsswb_unary:
				; X86: ## %bb.0:
				; X86-NEXT: vpacksswb %ymm0, %ymm0, %ymm0
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packsswb_unary:
				; X64: ## %bb.0:
				; X64-NEXT: vpacksswb %ymm0, %ymm0, %ymm0
				; X64-NEXT: retq
				%res = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %a) ; <<32 x i8>> [#uses=1]
				ret <32 x i8> %res
				}


				define <32 x i8> @test_x86_avx2_packsswb_fold() {
				; X86-LABEL: test_x86_avx2_packsswb_fold:
				; X86: ## %bb.0:
				; X86-NEXT: vmovaps {{.*#+}} ymm0 = [0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0,0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0]
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packsswb_fold:
				; X64: ## %bb.0:
				; X64-NEXT: vmovaps {{.*#+}} ymm0 = [0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0,0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0]
				; X64-NEXT: retq
				%res = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678, i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <16 x i16> zeroinitializer)
				ret <32 x i8> %res
				}


				define <32 x i8> @test_x86_avx2_packuswb(<16 x i16> %a0, <16 x i16> %a1) {
				; X86-LABEL: test_x86_avx2_packuswb:
				; X86: ## %bb.0:
				; X86-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packuswb:
				; X64: ## %bb.0:
				; X64-NEXT: vpackuswb %ymm1, %ymm0, %ymm0
				; X64-NEXT: retq
				%res = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a0, <16 x i16> %a1) ; <<32 x i8>> [#uses=1]
				ret <32 x i8> %res
				}
				declare <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16>, <16 x i16>) nounwind readnone


				define <32 x i8> @test_x86_avx2_packuswb_unary(<16 x i16> %a) {
				; X86-LABEL: test_x86_avx2_packuswb_unary:
				; X86: ## %bb.0:
				; X86-NEXT: vpackuswb %ymm0, %ymm0, %ymm0
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packuswb_unary:
				; X64: ## %bb.0:
				; X64-NEXT: vpackuswb %ymm0, %ymm0, %ymm0
				; X64-NEXT: retq
				%res = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %a) ; <<32 x i8>> [#uses=1]
				ret <32 x i8> %res
				}


				define <32 x i8> @test_x86_avx2_packuswb_fold() {
				; X86-LABEL: test_x86_avx2_packuswb_fold:
				; X86: ## %bb.0:
				; X86-NEXT: vmovaps {{.*#+}} ymm0 = [0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0,0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0]
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packuswb_fold:
				; X64: ## %bb.0:
				; X64-NEXT: vmovaps {{.*#+}} ymm0 = [0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0,0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0]
				; X64-NEXT: retq
				%res = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678, i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <16 x i16> zeroinitializer)
				ret <32 x i8> %res
				}


				define <16 x i16> @test_x86_avx2_packusdw(<8 x i32> %a0, <8 x i32> %a1) {
				; X86-LABEL: test_x86_avx2_packusdw:
				; X86: ## %bb.0:
				; X86-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packusdw:
				; X64: ## %bb.0:
				; X64-NEXT: vpackusdw %ymm1, %ymm0, %ymm0
				; X64-NEXT: retq
				%res = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a0, <8 x i32> %a1) ; <<16 x i16>> [#uses=1]
				ret <16 x i16> %res
				}
				declare <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32>, <8 x i32>) nounwind readnone


				define <16 x i16> @test_x86_avx2_packusdw_unary(<8 x i32> %a) {
				; X86-LABEL: test_x86_avx2_packusdw_unary:
				; X86: ## %bb.0:
				; X86-NEXT: vpackusdw %ymm0, %ymm0, %ymm0
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packusdw_unary:
				; X64: ## %bb.0:
				; X64-NEXT: vpackusdw %ymm0, %ymm0, %ymm0
				; X64-NEXT: retq
				%res = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %a) ; <<16 x i16>> [#uses=1]
				ret <16 x i16> %res
				}


				define <16 x i16> @test_x86_avx2_packusdw_fold() {
				; X86-LABEL: test_x86_avx2_packusdw_fold:
				; X86: ## %bb.0:
				; X86-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]
				; X86-NEXT: retl
				;
				; X64-LABEL: test_x86_avx2_packusdw_fold:
				; X64: ## %bb.0:
				; X64-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]
				; X64-NEXT: retq
				%res = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> zeroinitializer, <8 x i32> <i32 255, i32 32767, i32 65535, i32 -1, i32 -32767, i32 -65535, i32 0, i32 -256>)
				ret <16 x i16> %res
				}


	define <16 x i16> @test_x86_avx2_pblendw(<16 x i16> %a0, <16 x i16> %a1) {			define <16 x i16> @test_x86_avx2_pblendw(<16 x i16> %a0, <16 x i16> %a1) {
	; X86-LABEL: test_x86_avx2_pblendw:			; X86-LABEL: test_x86_avx2_pblendw:
	; X86: ## %bb.0:			; X86: ## %bb.0:
	; X86-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7],ymm1[8,9,10],ymm0[11,12,13,14,15]			; X86-NEXT: vpblendw {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7],ymm1[8,9,10],ymm0[11,12,13,14,15]
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_x86_avx2_pblendw:			; X64-LABEL: test_x86_avx2_pblendw:
	; X64: ## %bb.0:			; X64: ## %bb.0:
	▲ Show 20 Lines • Show All 866 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx2-intrinsics-x86.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=avx2 -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX2 --check-prefix=X86 --check-prefix=X86-AVX		; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=avx2 -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX2 --check-prefix=X86 --check-prefix=X86-AVX
; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512VL --check-prefix=X86 --check-prefix=X86-AVX512VL		; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512VL --check-prefix=X86 --check-prefix=X86-AVX512VL
; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=avx2 -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX2 --check-prefix=X64 --check-prefix=X64-AVX		; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=avx2 -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX2 --check-prefix=X64 --check-prefix=X64-AVX
; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512VL --check-prefix=X64 --check-prefix=X64-AVX512VL		; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq -show-mc-encoding \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512VL --check-prefix=X64 --check-prefix=X64-AVX512VL

define <16 x i16> @test_x86_avx2_packssdw(<8 x i32> %a0, <8 x i32> %a1) {
; X86-AVX-LABEL: test_x86_avx2_packssdw:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpackssdw %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0x6b,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_packssdw:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpackssdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6b,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_packssdw:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpackssdw %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0x6b,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_packssdw:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpackssdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6b,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a0, <8 x i32> %a1) ; <<16 x i16>> [#uses=1]
ret <16 x i16> %res
}
declare <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32>, <8 x i32>) nounwind readnone


define <16 x i16> @test_x86_avx2_packssdw_fold() {
; X86-AVX-LABEL: test_x86_avx2_packssdw_fold:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,32767,65535,0,0,0,0,32769,32768,0,65280]
; X86-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI1_0, kind: FK_Data_4
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_packssdw_fold:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vmovaps LCPI1_0, %ymm0 ## EVEX TO VEX Compression ymm0 = [0,0,0,0,255,32767,32767,65535,0,0,0,0,32769,32768,0,65280]
; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI1_0, kind: FK_Data_4
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_packssdw_fold:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,32767,65535,0,0,0,0,32769,32768,0,65280]
; X64-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI1_0-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_packssdw_fold:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vmovaps {{.*}}(%rip), %ymm0 ## EVEX TO VEX Compression ymm0 = [0,0,0,0,255,32767,32767,65535,0,0,0,0,32769,32768,0,65280]
; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI1_0-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> zeroinitializer, <8 x i32> <i32 255, i32 32767, i32 65535, i32 -1, i32 -32767, i32 -65535, i32 0, i32 -256>)
ret <16 x i16> %res
}


define <32 x i8> @test_x86_avx2_packsswb(<16 x i16> %a0, <16 x i16> %a1) {
; X86-AVX-LABEL: test_x86_avx2_packsswb:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpacksswb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0x63,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_packsswb:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpacksswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x63,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_packsswb:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpacksswb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0x63,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_packsswb:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpacksswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x63,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a0, <16 x i16> %a1) ; <<32 x i8>> [#uses=1]
ret <32 x i8> %res
}
declare <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16>, <16 x i16>) nounwind readnone


define <32 x i8> @test_x86_avx2_packsswb_fold() {
; X86-AVX-LABEL: test_x86_avx2_packsswb_fold:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0,0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0]
; X86-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI3_0, kind: FK_Data_4
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_packsswb_fold:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vmovaps LCPI3_0, %ymm0 ## EVEX TO VEX Compression ymm0 = [0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0,0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0]
; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI3_0, kind: FK_Data_4
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_packsswb_fold:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0,0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0]
; X64-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI3_0-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_packsswb_fold:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vmovaps {{.*}}(%rip), %ymm0 ## EVEX TO VEX Compression ymm0 = [0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0,0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0]
; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI3_0-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678, i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <16 x i16> zeroinitializer)
ret <32 x i8> %res
}


define <32 x i8> @test_x86_avx2_packuswb(<16 x i16> %a0, <16 x i16> %a1) {
; X86-AVX-LABEL: test_x86_avx2_packuswb:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpackuswb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0x67,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_packuswb:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x67,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_packuswb:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpackuswb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0x67,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_packuswb:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpackuswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x67,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a0, <16 x i16> %a1) ; <<32 x i8>> [#uses=1]
ret <32 x i8> %res
}
declare <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16>, <16 x i16>) nounwind readnone


define <32 x i8> @test_x86_avx2_packuswb_fold() {
; X86-AVX-LABEL: test_x86_avx2_packuswb_fold:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0,0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0]
; X86-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI5_0, kind: FK_Data_4
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_packuswb_fold:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vmovaps LCPI5_0, %ymm0 ## EVEX TO VEX Compression ymm0 = [0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0,0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0]
; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI5_0, kind: FK_Data_4
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_packuswb_fold:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0,0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0]
; X64-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI5_0-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_packuswb_fold:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vmovaps {{.*}}(%rip), %ymm0 ## EVEX TO VEX Compression ymm0 = [0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0,0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0]
; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI5_0-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678, i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <16 x i16> zeroinitializer)
ret <32 x i8> %res
}


define <32 x i8> @test_x86_avx2_padds_b(<32 x i8> %a0, <32 x i8> %a1) {		define <32 x i8> @test_x86_avx2_padds_b(<32 x i8> %a0, <32 x i8> %a1) {
; X86-AVX-LABEL: test_x86_avx2_padds_b:		; X86-AVX-LABEL: test_x86_avx2_padds_b:
; X86-AVX: ## %bb.0:		; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xec,0xc1]		; X86-AVX-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xec,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]		; X86-AVX-NEXT: retl ## encoding: [0xc3]
;		;
; X86-AVX512VL-LABEL: test_x86_avx2_padds_b:		; X86-AVX512VL-LABEL: test_x86_avx2_padds_b:
; X86-AVX512VL: ## %bb.0:		; X86-AVX512VL: ## %bb.0:
▲ Show 20 Lines • Show All 1,102 Lines • ▼ Show 20 Lines
; X64-NEXT: vmpsadbw $7, %ymm1, %ymm0, %ymm0 ## encoding: [0xc4,0xe3,0x7d,0x42,0xc1,0x07]		; X64-NEXT: vmpsadbw $7, %ymm1, %ymm0, %ymm0 ## encoding: [0xc4,0xe3,0x7d,0x42,0xc1,0x07]
; X64-NEXT: retq ## encoding: [0xc3]		; X64-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx2.mpsadbw(<32 x i8> %a0, <32 x i8> %a1, i8 7) ; <<16 x i16>> [#uses=1]		%res = call <16 x i16> @llvm.x86.avx2.mpsadbw(<32 x i8> %a0, <32 x i8> %a1, i8 7) ; <<16 x i16>> [#uses=1]
ret <16 x i16> %res		ret <16 x i16> %res
}		}
declare <16 x i16> @llvm.x86.avx2.mpsadbw(<32 x i8>, <32 x i8>, i8) nounwind readnone		declare <16 x i16> @llvm.x86.avx2.mpsadbw(<32 x i8>, <32 x i8>, i8) nounwind readnone


define <16 x i16> @test_x86_avx2_packusdw(<8 x i32> %a0, <8 x i32> %a1) {
; X86-AVX-LABEL: test_x86_avx2_packusdw:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpackusdw %ymm1, %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x2b,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_packusdw:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpackusdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x2b,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_packusdw:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpackusdw %ymm1, %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x2b,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_packusdw:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpackusdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x2b,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a0, <8 x i32> %a1) ; <<16 x i16>> [#uses=1]
ret <16 x i16> %res
}
declare <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32>, <8 x i32>) nounwind readnone


define <16 x i16> @test_x86_avx2_packusdw_fold() {
; X86-AVX-LABEL: test_x86_avx2_packusdw_fold:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]
; X86-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI54_0, kind: FK_Data_4
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_packusdw_fold:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vmovaps LCPI54_0, %ymm0 ## EVEX TO VEX Compression ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]
; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI54_0, kind: FK_Data_4
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_packusdw_fold:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]
; X64-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI54_0-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_packusdw_fold:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vmovaps {{.*}}(%rip), %ymm0 ## EVEX TO VEX Compression ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]
; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI54_0-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> zeroinitializer, <8 x i32> <i32 255, i32 32767, i32 65535, i32 -1, i32 -32767, i32 -65535, i32 0, i32 -256>)
ret <16 x i16> %res
}


define <32 x i8> @test_x86_avx2_pblendvb(<32 x i8> %a0, <32 x i8> %a1, <32 x i8> %a2) {		define <32 x i8> @test_x86_avx2_pblendvb(<32 x i8> %a0, <32 x i8> %a1, <32 x i8> %a2) {
; X86-LABEL: test_x86_avx2_pblendvb:		; X86-LABEL: test_x86_avx2_pblendvb:
; X86: ## %bb.0:		; X86: ## %bb.0:
; X86-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0 ## encoding: [0xc4,0xe3,0x7d,0x4c,0xc1,0x20]		; X86-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0 ## encoding: [0xc4,0xe3,0x7d,0x4c,0xc1,0x20]
; X86-NEXT: retl ## encoding: [0xc3]		; X86-NEXT: retl ## encoding: [0xc3]
;		;
; X64-LABEL: test_x86_avx2_pblendvb:		; X64-LABEL: test_x86_avx2_pblendvb:
; X64: ## %bb.0:		; X64: ## %bb.0:
▲ Show 20 Lines • Show All 697 Lines • ▼ Show 20 Lines	; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
ret <4 x i32> %res		ret <4 x i32> %res
}		}

define <4 x i32> @test_x86_avx2_psrav_d_const(<4 x i32> %a0, <4 x i32> %a1) {		define <4 x i32> @test_x86_avx2_psrav_d_const(<4 x i32> %a0, <4 x i32> %a1) {
; X86-AVX-LABEL: test_x86_avx2_psrav_d_const:		; X86-AVX-LABEL: test_x86_avx2_psrav_d_const:
; X86-AVX: ## %bb.0:		; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vmovdqa {{.*#+}} xmm0 = [2,9,4294967284,23]		; X86-AVX-NEXT: vmovdqa {{.*#+}} xmm0 = [2,9,4294967284,23]
; X86-AVX-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]		; X86-AVX-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI86_0, kind: FK_Data_4		; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI78_0, kind: FK_Data_4
; X86-AVX-NEXT: vpsravd LCPI86_1, %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]		; X86-AVX-NEXT: vpsravd LCPI78_1, %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 5, value: LCPI86_1, kind: FK_Data_4		; X86-AVX-NEXT: ## fixup A - offset: 5, value: LCPI78_1, kind: FK_Data_4
; X86-AVX-NEXT: retl ## encoding: [0xc3]		; X86-AVX-NEXT: retl ## encoding: [0xc3]
;		;
; X86-AVX512VL-LABEL: test_x86_avx2_psrav_d_const:		; X86-AVX512VL-LABEL: test_x86_avx2_psrav_d_const:
; X86-AVX512VL: ## %bb.0:		; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vmovdqa LCPI86_0, %xmm0 ## EVEX TO VEX Compression xmm0 = [2,9,4294967284,23]		; X86-AVX512VL-NEXT: vmovdqa LCPI78_0, %xmm0 ## EVEX TO VEX Compression xmm0 = [2,9,4294967284,23]
; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]		; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI86_0, kind: FK_Data_4		; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI78_0, kind: FK_Data_4
; X86-AVX512VL-NEXT: vpsravd LCPI86_1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]		; X86-AVX512VL-NEXT: vpsravd LCPI78_1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI86_1, kind: FK_Data_4		; X86-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI78_1, kind: FK_Data_4
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]		; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;		;
; X64-AVX-LABEL: test_x86_avx2_psrav_d_const:		; X64-AVX-LABEL: test_x86_avx2_psrav_d_const:
; X64-AVX: ## %bb.0:		; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vmovdqa {{.*#+}} xmm0 = [2,9,4294967284,23]		; X64-AVX-NEXT: vmovdqa {{.*#+}} xmm0 = [2,9,4294967284,23]
; X64-AVX-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]		; X64-AVX-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI86_0-4, kind: reloc_riprel_4byte		; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI78_0-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]		; X64-AVX-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 5, value: LCPI86_1-4, kind: reloc_riprel_4byte		; X64-AVX-NEXT: ## fixup A - offset: 5, value: LCPI78_1-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: retq ## encoding: [0xc3]		; X64-AVX-NEXT: retq ## encoding: [0xc3]
;		;
; X64-AVX512VL-LABEL: test_x86_avx2_psrav_d_const:		; X64-AVX512VL-LABEL: test_x86_avx2_psrav_d_const:
; X64-AVX512VL: ## %bb.0:		; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vmovdqa {{.*}}(%rip), %xmm0 ## EVEX TO VEX Compression xmm0 = [2,9,4294967284,23]		; X64-AVX512VL-NEXT: vmovdqa {{.*}}(%rip), %xmm0 ## EVEX TO VEX Compression xmm0 = [2,9,4294967284,23]
; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]		; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI86_0-4, kind: reloc_riprel_4byte		; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI78_0-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]		; X64-AVX512VL-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI86_1-4, kind: reloc_riprel_4byte		; X64-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI78_1-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]		; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <4 x i32> @llvm.x86.avx2.psrav.d(<4 x i32> <i32 2, i32 9, i32 -12, i32 23>, <4 x i32> <i32 1, i32 18, i32 35, i32 52>)		%res = call <4 x i32> @llvm.x86.avx2.psrav.d(<4 x i32> <i32 2, i32 9, i32 -12, i32 23>, <4 x i32> <i32 1, i32 18, i32 35, i32 52>)
ret <4 x i32> %res		ret <4 x i32> %res
}		}
declare <4 x i32> @llvm.x86.avx2.psrav.d(<4 x i32>, <4 x i32>) nounwind readnone		declare <4 x i32> @llvm.x86.avx2.psrav.d(<4 x i32>, <4 x i32>) nounwind readnone

define <8 x i32> @test_x86_avx2_psrav_d_256(<8 x i32> %a0, <8 x i32> %a1) {		define <8 x i32> @test_x86_avx2_psrav_d_256(<8 x i32> %a0, <8 x i32> %a1) {
; X86-AVX-LABEL: test_x86_avx2_psrav_d_256:		; X86-AVX-LABEL: test_x86_avx2_psrav_d_256:
Show All 19 Lines	; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
ret <8 x i32> %res		ret <8 x i32> %res
}		}

define <8 x i32> @test_x86_avx2_psrav_d_256_const(<8 x i32> %a0, <8 x i32> %a1) {		define <8 x i32> @test_x86_avx2_psrav_d_256_const(<8 x i32> %a0, <8 x i32> %a1) {
; X86-AVX-LABEL: test_x86_avx2_psrav_d_256_const:		; X86-AVX-LABEL: test_x86_avx2_psrav_d_256_const:
; X86-AVX: ## %bb.0:		; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vmovdqa {{.*#+}} ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]		; X86-AVX-NEXT: vmovdqa {{.*#+}} ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]
; X86-AVX-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]		; X86-AVX-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI88_0, kind: FK_Data_4		; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI80_0, kind: FK_Data_4
; X86-AVX-NEXT: vpsravd LCPI88_1, %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]		; X86-AVX-NEXT: vpsravd LCPI80_1, %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 5, value: LCPI88_1, kind: FK_Data_4		; X86-AVX-NEXT: ## fixup A - offset: 5, value: LCPI80_1, kind: FK_Data_4
; X86-AVX-NEXT: retl ## encoding: [0xc3]		; X86-AVX-NEXT: retl ## encoding: [0xc3]
;		;
; X86-AVX512VL-LABEL: test_x86_avx2_psrav_d_256_const:		; X86-AVX512VL-LABEL: test_x86_avx2_psrav_d_256_const:
; X86-AVX512VL: ## %bb.0:		; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vmovdqa LCPI88_0, %ymm0 ## EVEX TO VEX Compression ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]		; X86-AVX512VL-NEXT: vmovdqa LCPI80_0, %ymm0 ## EVEX TO VEX Compression ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]
; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]		; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI88_0, kind: FK_Data_4		; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI80_0, kind: FK_Data_4
; X86-AVX512VL-NEXT: vpsravd LCPI88_1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]		; X86-AVX512VL-NEXT: vpsravd LCPI80_1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI88_1, kind: FK_Data_4		; X86-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI80_1, kind: FK_Data_4
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]		; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;		;
; X64-AVX-LABEL: test_x86_avx2_psrav_d_256_const:		; X64-AVX-LABEL: test_x86_avx2_psrav_d_256_const:
; X64-AVX: ## %bb.0:		; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vmovdqa {{.*#+}} ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]		; X64-AVX-NEXT: vmovdqa {{.*#+}} ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]
; X64-AVX-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]		; X64-AVX-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI88_0-4, kind: reloc_riprel_4byte		; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI80_0-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]		; X64-AVX-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 5, value: LCPI88_1-4, kind: reloc_riprel_4byte		; X64-AVX-NEXT: ## fixup A - offset: 5, value: LCPI80_1-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: retq ## encoding: [0xc3]		; X64-AVX-NEXT: retq ## encoding: [0xc3]
;		;
; X64-AVX512VL-LABEL: test_x86_avx2_psrav_d_256_const:		; X64-AVX512VL-LABEL: test_x86_avx2_psrav_d_256_const:
; X64-AVX512VL: ## %bb.0:		; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vmovdqa {{.*}}(%rip), %ymm0 ## EVEX TO VEX Compression ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]		; X64-AVX512VL-NEXT: vmovdqa {{.*}}(%rip), %ymm0 ## EVEX TO VEX Compression ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]
; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]		; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI88_0-4, kind: reloc_riprel_4byte		; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI80_0-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]		; X64-AVX512VL-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI88_1-4, kind: reloc_riprel_4byte		; X64-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI80_1-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]		; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i32> @llvm.x86.avx2.psrav.d.256(<8 x i32> <i32 2, i32 9, i32 -12, i32 23, i32 -26, i32 37, i32 -40, i32 51>, <8 x i32> <i32 1, i32 18, i32 35, i32 52, i32 69, i32 15, i32 32, i32 49>)		%res = call <8 x i32> @llvm.x86.avx2.psrav.d.256(<8 x i32> <i32 2, i32 9, i32 -12, i32 23, i32 -26, i32 37, i32 -40, i32 51>, <8 x i32> <i32 1, i32 18, i32 35, i32 52, i32 69, i32 15, i32 32, i32 49>)
ret <8 x i32> %res		ret <8 x i32> %res
}		}
declare <8 x i32> @llvm.x86.avx2.psrav.d.256(<8 x i32>, <8 x i32>) nounwind readnone		declare <8 x i32> @llvm.x86.avx2.psrav.d.256(<8 x i32>, <8 x i32>) nounwind readnone

define <2 x double> @test_x86_avx2_gather_d_pd(<2 x double> %a0, i8* %a1, <4 x i32> %idx, <2 x double> %mask) {		define <2 x double> @test_x86_avx2_gather_d_pd(<2 x double> %a0, i8* %a1, <4 x i32> %idx, <2 x double> %mask) {
; X86-LABEL: test_x86_avx2_gather_d_pd:		; X86-LABEL: test_x86_avx2_gather_d_pd:
▲ Show 20 Lines • Show All 334 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512bw-intrinsics-upgrade.ll

	Show First 20 Lines • Show All 1,131 Lines • ▼ Show 20 Lines
	; AVX512F-32-LABEL: test_int_x86_avx512_cvtmask2w_512:			; AVX512F-32-LABEL: test_int_x86_avx512_cvtmask2w_512:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k0			; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k0
	; AVX512F-32-NEXT: vpmovm2w %k0, %zmm0			; AVX512F-32-NEXT: vpmovm2w %k0, %zmm0
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%res = call <32 x i16> @llvm.x86.avx512.cvtmask2w.512(i32 %x0)			%res = call <32 x i16> @llvm.x86.avx512.cvtmask2w.512(i32 %x0)
	ret <32 x i16> %res			ret <32 x i16> %res
	}			}


				define <32 x i16> @test_packs_epi32_rr_512(<16 x i32> %a, <16 x i32> %b) {
				; AVX512BW-LABEL: test_packs_epi32_rr_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackssdw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi32_rr_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpackssdw %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
				ret <32 x i16> %1
				}

				define <32 x i16> @test_packs_epi32_rr_512_unary(<16 x i32> %a) {
				; AVX512BW-LABEL: test_packs_epi32_rr_512_unary:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackssdw %zmm0, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi32_rr_512_unary:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpackssdw %zmm0, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %a)
				ret <32 x i16> %1
				}

				define <32 x i16> @test_packs_epi32_rrk_512(<16 x i32> %a, <16 x i32> %b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_packs_epi32_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpackssdw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi32_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackssdw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
				ret <32 x i16> %3
				}

				define <32 x i16> @test_packs_epi32_rrkz_512(<16 x i32> %a, <16 x i32> %b, i32 %mask) {
				; AVX512BW-LABEL: test_packs_epi32_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpackssdw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi32_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackssdw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
				ret <32 x i16> %3
				}

				define <32 x i16> @test_packs_epi32_rm_512(<16 x i32> %a, <16 x i32>* %ptr_b) {
				; AVX512BW-LABEL: test_packs_epi32_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackssdw (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi32_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpackssdw (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <16 x i32>, <16 x i32>* %ptr_b
				%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
				ret <32 x i16> %1
				}

				define <32 x i16> @test_packs_epi32_rmk_512(<16 x i32> %a, <16 x i32>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_packs_epi32_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpackssdw (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi32_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackssdw (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <16 x i32>, <16 x i32>* %ptr_b
				%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
				ret <32 x i16> %3
				}

				define <32 x i16> @test_packs_epi32_rmkz_512(<16 x i32> %a, <16 x i32>* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_packs_epi32_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpackssdw (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi32_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackssdw (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <16 x i32>, <16 x i32>* %ptr_b
				%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
				ret <32 x i16> %3
				}

				define <32 x i16> @test_packs_epi32_rmb_512(<16 x i32> %a, i32* %ptr_b) {
				; AVX512BW-LABEL: test_packs_epi32_rmb_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackssdw (%rdi){1to16}, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi32_rmb_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpackssdw (%eax){1to16}, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
				%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
				%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
				ret <32 x i16> %1
				}

				define <32 x i16> @test_mask_packs_epi32_rmbk_512(<16 x i32> %a, i32* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_packs_epi32_rmbk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpackssdw (%rdi){1to16}, %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_packs_epi32_rmbk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackssdw (%eax){1to16}, %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
				%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
				%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
				ret <32 x i16> %3
				}

				define <32 x i16> @test_mask_packs_epi32_rmbkz_512(<16 x i32> %a, i32* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_packs_epi32_rmbkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpackssdw (%rdi){1to16}, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_packs_epi32_rmbkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackssdw (%eax){1to16}, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
				%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
				%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
				ret <32 x i16> %3
				}

				declare <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32>, <16 x i32>)

				define <64 x i8> @test_packs_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {
				; AVX512BW-LABEL: test_packs_epi16_rr_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpacksswb %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi16_rr_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpacksswb %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
				ret <64 x i8> %1
				}

				define <64 x i8> @test_packs_epi16_rr_512_unary(<32 x i16> %a) {
				; AVX512BW-LABEL: test_packs_epi16_rr_512_unary:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpacksswb %zmm0, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi16_rr_512_unary:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpacksswb %zmm0, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %a)
				ret <64 x i8> %1
				}

				define <64 x i8> @test_mask_packs_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <64 x i8> %passThru, i64 %mask) {
				; AVX512BW-LABEL: test_mask_packs_epi16_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovq %rdi, %k1
				; AVX512BW-NEXT: vpacksswb %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_packs_epi16_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpacksswb %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
				%2 = bitcast i64 %mask to <64 x i1>
				%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passThru
				ret <64 x i8> %3
				}

				define <64 x i8> @test_epi16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i64 %mask) {
				; AVX512BW-LABEL: test_epi16_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovq %rdi, %k1
				; AVX512BW-NEXT: vpacksswb %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_epi16_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpacksswb %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
				%2 = bitcast i64 %mask to <64 x i1>
				%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> zeroinitializer
				ret <64 x i8> %3
				}

				define <64 x i8> @test_packs_epi16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
				; AVX512BW-LABEL: test_packs_epi16_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpacksswb (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi16_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpacksswb (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
				ret <64 x i8> %1
				}

				define <64 x i8> @test_packs_epi16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <64 x i8> %passThru, i64 %mask) {
				; AVX512BW-LABEL: test_packs_epi16_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovq %rsi, %k1
				; AVX512BW-NEXT: vpacksswb (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi16_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpacksswb (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
				%2 = bitcast i64 %mask to <64 x i1>
				%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passThru
				ret <64 x i8> %3
				}

				define <64 x i8> @test_packs_epi16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i64 %mask) {
				; AVX512BW-LABEL: test_packs_epi16_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovq %rsi, %k1
				; AVX512BW-NEXT: vpacksswb (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packs_epi16_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpacksswb (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
				%2 = bitcast i64 %mask to <64 x i1>
				%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> zeroinitializer
				ret <64 x i8> %3
				}

				declare <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16>, <32 x i16>)

				define <32 x i16> @test_packus_epi32_rr_512(<16 x i32> %a, <16 x i32> %b) {
				; AVX512BW-LABEL: test_packus_epi32_rr_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackusdw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi32_rr_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpackusdw %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
				ret <32 x i16> %1
				}

				define <32 x i16> @test_packus_epi32_rr_512_unary(<16 x i32> %a) {
				; AVX512BW-LABEL: test_packus_epi32_rr_512_unary:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackusdw %zmm0, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi32_rr_512_unary:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpackusdw %zmm0, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %a)
				ret <32 x i16> %1
				}

				define <32 x i16> @test_packus_epi32_rrk_512(<16 x i32> %a, <16 x i32> %b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_packus_epi32_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpackusdw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi32_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackusdw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
				ret <32 x i16> %3
				}

				define <32 x i16> @test_packus_epi32_rrkz_512(<16 x i32> %a, <16 x i32> %b, i32 %mask) {
				; AVX512BW-LABEL: test_packus_epi32_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpackusdw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi32_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackusdw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
				ret <32 x i16> %3
				}

				define <32 x i16> @test_packus_epi32_rm_512(<16 x i32> %a, <16 x i32>* %ptr_b) {
				; AVX512BW-LABEL: test_packus_epi32_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackusdw (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi32_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpackusdw (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <16 x i32>, <16 x i32>* %ptr_b
				%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
				ret <32 x i16> %1
				}

				define <32 x i16> @test_packus_epi32_rmk_512(<16 x i32> %a, <16 x i32>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_packus_epi32_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpackusdw (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi32_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackusdw (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <16 x i32>, <16 x i32>* %ptr_b
				%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
				ret <32 x i16> %3
				}

				define <32 x i16> @test_packus_epi32_rmkz_512(<16 x i32> %a, <16 x i32>* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_packus_epi32_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpackusdw (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi32_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackusdw (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <16 x i32>, <16 x i32>* %ptr_b
				%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
				ret <32 x i16> %3
				}

				define <32 x i16> @test_packus_epi32_rmb_512(<16 x i32> %a, i32* %ptr_b) {
				; AVX512BW-LABEL: test_packus_epi32_rmb_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackusdw (%rdi){1to16}, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi32_rmb_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpackusdw (%eax){1to16}, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
				%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
				%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
				ret <32 x i16> %1
				}

				define <32 x i16> @test_packus_epi32_rmbk_512(<16 x i32> %a, i32* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_packus_epi32_rmbk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpackusdw (%rdi){1to16}, %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi32_rmbk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackusdw (%eax){1to16}, %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
				%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
				%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
				ret <32 x i16> %3
				}

				define <32 x i16> @test_packus_epi32_rmbkz_512(<16 x i32> %a, i32* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_packus_epi32_rmbkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpackusdw (%rdi){1to16}, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi32_rmbkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackusdw (%eax){1to16}, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
				%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
				%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
				ret <32 x i16> %3
				}

				declare <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32>, <16 x i32>)

				define <64 x i8> @test_packus_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {
				; AVX512BW-LABEL: test_packus_epi16_rr_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi16_rr_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
				ret <64 x i8> %1
				}

				define <64 x i8> @test_packus_epi16_rr_512_unary(<32 x i16> %a) {
				; AVX512BW-LABEL: test_packus_epi16_rr_512_unary:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackuswb %zmm0, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi16_rr_512_unary:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpackuswb %zmm0, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %a)
				ret <64 x i8> %1
				}

				define <64 x i8> @test_packus_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <64 x i8> %passThru, i64 %mask) {
				; AVX512BW-LABEL: test_packus_epi16_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovq %rdi, %k1
				; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi16_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackuswb %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
				%2 = bitcast i64 %mask to <64 x i1>
				%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passThru
				ret <64 x i8> %3
				}

				define <64 x i8> @test_packus_epi16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i64 %mask) {
				; AVX512BW-LABEL: test_packus_epi16_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovq %rdi, %k1
				; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi16_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackuswb %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
				%2 = bitcast i64 %mask to <64 x i1>
				%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> zeroinitializer
				ret <64 x i8> %3
				}

				define <64 x i8> @test_packus_epi16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
				; AVX512BW-LABEL: test_packus_epi16_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackuswb (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi16_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpackuswb (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
				ret <64 x i8> %1
				}

				define <64 x i8> @test_packus_epi16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <64 x i8> %passThru, i64 %mask) {
				; AVX512BW-LABEL: test_packus_epi16_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovq %rsi, %k1
				; AVX512BW-NEXT: vpackuswb (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi16_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackuswb (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
				%2 = bitcast i64 %mask to <64 x i1>
				%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passThru
				ret <64 x i8> %3
				}

				define <64 x i8> @test_packus_epi16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i64 %mask) {
				; AVX512BW-LABEL: test_packus_epi16_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovq %rsi, %k1
				; AVX512BW-NEXT: vpackuswb (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_packus_epi16_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpackuswb (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
				%2 = bitcast i64 %mask to <64 x i1>
				%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> zeroinitializer
				ret <64 x i8> %3
				}

				declare <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16>, <32 x i16>)

	define <32 x i16> @test_mask_packs_epi32_rr_512(<16 x i32> %a, <16 x i32> %b) {			define <32 x i16> @test_mask_packs_epi32_rr_512(<16 x i32> %a, <16 x i32> %b) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rr_512:			; AVX512BW-LABEL: test_mask_packs_epi32_rr_512:
	; AVX512BW: ## %bb.0:			; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpackssdw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpackssdw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rr_512:			; AVX512F-32-LABEL: test_mask_packs_epi32_rr_512:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: vpackssdw %zmm1, %zmm0, %zmm0			; AVX512F-32-NEXT: vpackssdw %zmm1, %zmm0, %zmm0
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%res = call <32 x i16> @llvm.x86.avx512.mask.packssdw.512(<16 x i32> %a, <16 x i32> %b, <32 x i16> zeroinitializer, i32 -1)			%res = call <32 x i16> @llvm.x86.avx512.mask.packssdw.512(<16 x i32> %a, <16 x i32> %b, <32 x i16> zeroinitializer, i32 -1)
	ret <32 x i16> %res			ret <32 x i16> %res
	}			}

				define <32 x i16> @test_mask_packs_epi32_rr_512_unary(<16 x i32> %a) {
				; AVX512BW-LABEL: test_mask_packs_epi32_rr_512_unary:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackssdw %zmm0, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_packs_epi32_rr_512_unary:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpackssdw %zmm0, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.packssdw.512(<16 x i32> %a, <16 x i32> %a, <32 x i16> zeroinitializer, i32 -1)
				ret <32 x i16> %res
				}

	define <32 x i16> @test_mask_packs_epi32_rrk_512(<16 x i32> %a, <16 x i32> %b, <32 x i16> %passThru, i32 %mask) {			define <32 x i16> @test_mask_packs_epi32_rrk_512(<16 x i32> %a, <16 x i32> %b, <32 x i16> %passThru, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rrk_512:			; AVX512BW-LABEL: test_mask_packs_epi32_rrk_512:
	; AVX512BW: ## %bb.0:			; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %edi, %k1			; AVX512BW-NEXT: kmovd %edi, %k1
	; AVX512BW-NEXT: vpackssdw %zmm1, %zmm0, %zmm2 {%k1}			; AVX512BW-NEXT: vpackssdw %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0			; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%q = load i32, i32* %ptr_b			%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0			%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
	%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer			%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
	%res = call <32 x i16> @llvm.x86.avx512.mask.packssdw.512(<16 x i32> %a, <16 x i32> %b, <32 x i16> zeroinitializer, i32 -1)			%res = call <32 x i16> @llvm.x86.avx512.mask.packssdw.512(<16 x i32> %a, <16 x i32> %b, <32 x i16> zeroinitializer, i32 -1)
	ret <32 x i16> %res			ret <32 x i16> %res
	}			}

	define <32 x i16> @test_mask_packs_epi32_rmbk_512(<16 x i32> %a, i32* %ptr_b, <32 x i16> %passThru, i32 %mask) {			define <32 x i16> @test_packs_epi32_rmbk_512(<16 x i32> %a, i32* %ptr_b, <32 x i16> %passThru, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rmbk_512:			; AVX512BW-LABEL: test_packs_epi32_rmbk_512:
	; AVX512BW: ## %bb.0:			; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %esi, %k1			; AVX512BW-NEXT: kmovd %esi, %k1
	; AVX512BW-NEXT: vpackssdw (%rdi){1to16}, %zmm0, %zmm1 {%k1}			; AVX512BW-NEXT: vpackssdw (%rdi){1to16}, %zmm0, %zmm1 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0			; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rmbk_512:			; AVX512F-32-LABEL: test_packs_epi32_rmbk_512:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax			; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1			; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackssdw (%eax){1to16}, %zmm0, %zmm1 {%k1}			; AVX512F-32-NEXT: vpackssdw (%eax){1to16}, %zmm0, %zmm1 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0			; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%q = load i32, i32* %ptr_b			%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0			%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
	%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer			%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
	%res = call <32 x i16> @llvm.x86.avx512.mask.packssdw.512(<16 x i32> %a, <16 x i32> %b, <32 x i16> %passThru, i32 %mask)			%res = call <32 x i16> @llvm.x86.avx512.mask.packssdw.512(<16 x i32> %a, <16 x i32> %b, <32 x i16> %passThru, i32 %mask)
	ret <32 x i16> %res			ret <32 x i16> %res
	}			}

	define <32 x i16> @test_mask_packs_epi32_rmbkz_512(<16 x i32> %a, i32* %ptr_b, i32 %mask) {			define <32 x i16> @test_packs_epi32_rmbkz_512(<16 x i32> %a, i32* %ptr_b, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rmbkz_512:			; AVX512BW-LABEL: test_packs_epi32_rmbkz_512:
	; AVX512BW: ## %bb.0:			; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %esi, %k1			; AVX512BW-NEXT: kmovd %esi, %k1
	; AVX512BW-NEXT: vpackssdw (%rdi){1to16}, %zmm0, %zmm0 {%k1} {z}			; AVX512BW-NEXT: vpackssdw (%rdi){1to16}, %zmm0, %zmm0 {%k1} {z}
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rmbkz_512:			; AVX512F-32-LABEL: test_packs_epi32_rmbkz_512:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax			; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1			; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackssdw (%eax){1to16}, %zmm0, %zmm0 {%k1} {z}			; AVX512F-32-NEXT: vpackssdw (%eax){1to16}, %zmm0, %zmm0 {%k1} {z}
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%q = load i32, i32* %ptr_b			%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0			%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
	%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer			%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
	Show All 12 Lines
	; AVX512F-32-LABEL: test_mask_packs_epi16_rr_512:			; AVX512F-32-LABEL: test_mask_packs_epi16_rr_512:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: vpacksswb %zmm1, %zmm0, %zmm0			; AVX512F-32-NEXT: vpacksswb %zmm1, %zmm0, %zmm0
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%res = call <64 x i8> @llvm.x86.avx512.mask.packsswb.512(<32 x i16> %a, <32 x i16> %b, <64 x i8> zeroinitializer, i64 -1)			%res = call <64 x i8> @llvm.x86.avx512.mask.packsswb.512(<32 x i16> %a, <32 x i16> %b, <64 x i8> zeroinitializer, i64 -1)
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}

	define <64 x i8> @test_mask_packs_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <64 x i8> %passThru, i64 %mask) {			define <64 x i8> @test_mask_packs_epi16_rr_512_unary(<32 x i16> %a) {
	; AVX512BW-LABEL: test_mask_packs_epi16_rrk_512:			; AVX512BW-LABEL: test_mask_packs_epi16_rr_512_unary:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpacksswb %zmm0, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_packs_epi16_rr_512_unary:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpacksswb %zmm0, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <64 x i8> @llvm.x86.avx512.mask.packsswb.512(<32 x i16> %a, <32 x i16> %a, <64 x i8> zeroinitializer, i64 -1)
				ret <64 x i8> %res
				}

				define <64 x i8> @test_packs_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <64 x i8> %passThru, i64 %mask) {
				; AVX512BW-LABEL: test_packs_epi16_rrk_512:
	; AVX512BW: ## %bb.0:			; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovq %rdi, %k1			; AVX512BW-NEXT: kmovq %rdi, %k1
	; AVX512BW-NEXT: vpacksswb %zmm1, %zmm0, %zmm2 {%k1}			; AVX512BW-NEXT: vpacksswb %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0			; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512F-32-LABEL: test_mask_packs_epi16_rrk_512:			; AVX512F-32-LABEL: test_packs_epi16_rrk_512:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1			; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpacksswb %zmm1, %zmm0, %zmm2 {%k1}			; AVX512F-32-NEXT: vpacksswb %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0			; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%res = call <64 x i8> @llvm.x86.avx512.mask.packsswb.512(<32 x i16> %a, <32 x i16> %b, <64 x i8> %passThru, i64 %mask)			%res = call <64 x i8> @llvm.x86.avx512.mask.packsswb.512(<32 x i16> %a, <32 x i16> %b, <64 x i8> %passThru, i64 %mask)
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; AVX512F-32-LABEL: test_mask_packus_epi32_rr_512:			; AVX512F-32-LABEL: test_mask_packus_epi32_rr_512:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: vpackusdw %zmm1, %zmm0, %zmm0			; AVX512F-32-NEXT: vpackusdw %zmm1, %zmm0, %zmm0
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%res = call <32 x i16> @llvm.x86.avx512.mask.packusdw.512(<16 x i32> %a, <16 x i32> %b, <32 x i16> zeroinitializer, i32 -1)			%res = call <32 x i16> @llvm.x86.avx512.mask.packusdw.512(<16 x i32> %a, <16 x i32> %b, <32 x i16> zeroinitializer, i32 -1)
	ret <32 x i16> %res			ret <32 x i16> %res
	}			}

				define <32 x i16> @test_mask_packus_epi32_rr_512_unary(<16 x i32> %a) {
				; AVX512BW-LABEL: test_mask_packus_epi32_rr_512_unary:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackusdw %zmm0, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_packus_epi32_rr_512_unary:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpackusdw %zmm0, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.packusdw.512(<16 x i32> %a, <16 x i32> %a, <32 x i16> zeroinitializer, i32 -1)
				ret <32 x i16> %res
				}

	define <32 x i16> @test_mask_packus_epi32_rrk_512(<16 x i32> %a, <16 x i32> %b, <32 x i16> %passThru, i32 %mask) {			define <32 x i16> @test_mask_packus_epi32_rrk_512(<16 x i32> %a, <16 x i32> %b, <32 x i16> %passThru, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi32_rrk_512:			; AVX512BW-LABEL: test_mask_packus_epi32_rrk_512:
	; AVX512BW: ## %bb.0:			; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %edi, %k1			; AVX512BW-NEXT: kmovd %edi, %k1
	; AVX512BW-NEXT: vpackusdw %zmm1, %zmm0, %zmm2 {%k1}			; AVX512BW-NEXT: vpackusdw %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0			; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; AVX512F-32-LABEL: test_mask_packus_epi16_rr_512:			; AVX512F-32-LABEL: test_mask_packus_epi16_rr_512:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: vpackuswb %zmm1, %zmm0, %zmm0			; AVX512F-32-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%res = call <64 x i8> @llvm.x86.avx512.mask.packuswb.512(<32 x i16> %a, <32 x i16> %b, <64 x i8> zeroinitializer, i64 -1)			%res = call <64 x i8> @llvm.x86.avx512.mask.packuswb.512(<32 x i16> %a, <32 x i16> %b, <64 x i8> zeroinitializer, i64 -1)
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}

				define <64 x i8> @test_mask_packus_epi16_rr_512_unary(<32 x i16> %a) {
				; AVX512BW-LABEL: test_mask_packus_epi16_rr_512_unary:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpackuswb %zmm0, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_packus_epi16_rr_512_unary:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpackuswb %zmm0, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <64 x i8> @llvm.x86.avx512.mask.packuswb.512(<32 x i16> %a, <32 x i16> %a, <64 x i8> zeroinitializer, i64 -1)
				ret <64 x i8> %res
				}

	define <64 x i8> @test_mask_packus_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <64 x i8> %passThru, i64 %mask) {			define <64 x i8> @test_mask_packus_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <64 x i8> %passThru, i64 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi16_rrk_512:			; AVX512BW-LABEL: test_mask_packus_epi16_rrk_512:
	; AVX512BW: ## %bb.0:			; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovq %rdi, %k1			; AVX512BW-NEXT: kmovq %rdi, %k1
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm2 {%k1}			; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0			; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 1,149 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512bw-intrinsics.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512BW			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512BW
	; RUN: llc < %s -mtriple=i386-unknown-linux-gnu -mcpu=knl -mattr=+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512F-32			; RUN: llc < %s -mtriple=i386-unknown-linux-gnu -mcpu=knl -mattr=+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512F-32

	define <32 x i16> @test_mask_packs_epi32_rr_512(<16 x i32> %a, <16 x i32> %b) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rr_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpackssdw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rr_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: vpackssdw %zmm1, %zmm0, %zmm0
	; AVX512F-32-NEXT: retl
	%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
	ret <32 x i16> %1
	}

	define <32 x i16> @test_mask_packs_epi32_rrk_512(<16 x i32> %a, <16 x i32> %b, <32 x i16> %passThru, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rrk_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %edi, %k1
	; AVX512BW-NEXT: vpackssdw %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rrk_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackssdw %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512F-32-NEXT: retl
	%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
	ret <32 x i16> %3
	}

	define <32 x i16> @test_mask_packs_epi32_rrkz_512(<16 x i32> %a, <16 x i32> %b, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rrkz_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %edi, %k1
	; AVX512BW-NEXT: vpackssdw %zmm1, %zmm0, %zmm0 {%k1} {z}
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rrkz_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackssdw %zmm1, %zmm0, %zmm0 {%k1} {z}
	; AVX512F-32-NEXT: retl
	%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
	ret <32 x i16> %3
	}

	define <32 x i16> @test_mask_packs_epi32_rm_512(<16 x i32> %a, <16 x i32>* %ptr_b) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rm_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpackssdw (%rdi), %zmm0, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rm_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: vpackssdw (%eax), %zmm0, %zmm0
	; AVX512F-32-NEXT: retl
	%b = load <16 x i32>, <16 x i32>* %ptr_b
	%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
	ret <32 x i16> %1
	}

	define <32 x i16> @test_mask_packs_epi32_rmk_512(<16 x i32> %a, <16 x i32>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rmk_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %esi, %k1
	; AVX512BW-NEXT: vpackssdw (%rdi), %zmm0, %zmm1 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rmk_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackssdw (%eax), %zmm0, %zmm1 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512F-32-NEXT: retl
	%b = load <16 x i32>, <16 x i32>* %ptr_b
	%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
	ret <32 x i16> %3
	}

	define <32 x i16> @test_mask_packs_epi32_rmkz_512(<16 x i32> %a, <16 x i32>* %ptr_b, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rmkz_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %esi, %k1
	; AVX512BW-NEXT: vpackssdw (%rdi), %zmm0, %zmm0 {%k1} {z}
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rmkz_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackssdw (%eax), %zmm0, %zmm0 {%k1} {z}
	; AVX512F-32-NEXT: retl
	%b = load <16 x i32>, <16 x i32>* %ptr_b
	%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
	ret <32 x i16> %3
	}

	define <32 x i16> @test_mask_packs_epi32_rmb_512(<16 x i32> %a, i32* %ptr_b) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rmb_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpackssdw (%rdi){1to16}, %zmm0, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rmb_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: vpackssdw (%eax){1to16}, %zmm0, %zmm0
	; AVX512F-32-NEXT: retl
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
	%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
	%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
	ret <32 x i16> %1
	}

	define <32 x i16> @test_mask_packs_epi32_rmbk_512(<16 x i32> %a, i32* %ptr_b, <32 x i16> %passThru, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rmbk_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %esi, %k1
	; AVX512BW-NEXT: vpackssdw (%rdi){1to16}, %zmm0, %zmm1 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rmbk_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackssdw (%eax){1to16}, %zmm0, %zmm1 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512F-32-NEXT: retl
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
	%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
	%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
	ret <32 x i16> %3
	}

	define <32 x i16> @test_mask_packs_epi32_rmbkz_512(<16 x i32> %a, i32* %ptr_b, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi32_rmbkz_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %esi, %k1
	; AVX512BW-NEXT: vpackssdw (%rdi){1to16}, %zmm0, %zmm0 {%k1} {z}
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi32_rmbkz_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackssdw (%eax){1to16}, %zmm0, %zmm0 {%k1} {z}
	; AVX512F-32-NEXT: retl
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
	%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
	%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
	ret <32 x i16> %3
	}

	declare <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32>, <16 x i32>)

	define <64 x i8> @test_mask_packs_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {
	; AVX512BW-LABEL: test_mask_packs_epi16_rr_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpacksswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi16_rr_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: vpacksswb %zmm1, %zmm0, %zmm0
	; AVX512F-32-NEXT: retl
	%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
	ret <64 x i8> %1
	}

	define <64 x i8> @test_mask_packs_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <64 x i8> %passThru, i64 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi16_rrk_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovq %rdi, %k1
	; AVX512BW-NEXT: vpacksswb %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi16_rrk_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpacksswb %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512F-32-NEXT: retl
	%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
	%2 = bitcast i64 %mask to <64 x i1>
	%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passThru
	ret <64 x i8> %3
	}

	define <64 x i8> @test_mask_packs_epi16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i64 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi16_rrkz_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovq %rdi, %k1
	; AVX512BW-NEXT: vpacksswb %zmm1, %zmm0, %zmm0 {%k1} {z}
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi16_rrkz_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpacksswb %zmm1, %zmm0, %zmm0 {%k1} {z}
	; AVX512F-32-NEXT: retl
	%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
	%2 = bitcast i64 %mask to <64 x i1>
	%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> zeroinitializer
	ret <64 x i8> %3
	}

	define <64 x i8> @test_mask_packs_epi16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
	; AVX512BW-LABEL: test_mask_packs_epi16_rm_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpacksswb (%rdi), %zmm0, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi16_rm_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: vpacksswb (%eax), %zmm0, %zmm0
	; AVX512F-32-NEXT: retl
	%b = load <32 x i16>, <32 x i16>* %ptr_b
	%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
	ret <64 x i8> %1
	}

	define <64 x i8> @test_mask_packs_epi16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <64 x i8> %passThru, i64 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi16_rmk_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovq %rsi, %k1
	; AVX512BW-NEXT: vpacksswb (%rdi), %zmm0, %zmm1 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi16_rmk_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpacksswb (%eax), %zmm0, %zmm1 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512F-32-NEXT: retl
	%b = load <32 x i16>, <32 x i16>* %ptr_b
	%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
	%2 = bitcast i64 %mask to <64 x i1>
	%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passThru
	ret <64 x i8> %3
	}

	define <64 x i8> @test_mask_packs_epi16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i64 %mask) {
	; AVX512BW-LABEL: test_mask_packs_epi16_rmkz_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovq %rsi, %k1
	; AVX512BW-NEXT: vpacksswb (%rdi), %zmm0, %zmm0 {%k1} {z}
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packs_epi16_rmkz_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpacksswb (%eax), %zmm0, %zmm0 {%k1} {z}
	; AVX512F-32-NEXT: retl
	%b = load <32 x i16>, <32 x i16>* %ptr_b
	%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %a, <32 x i16> %b)
	%2 = bitcast i64 %mask to <64 x i1>
	%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> zeroinitializer
	ret <64 x i8> %3
	}

	declare <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16>, <32 x i16>)


	define <32 x i16> @test_mask_packus_epi32_rr_512(<16 x i32> %a, <16 x i32> %b) {
	; AVX512BW-LABEL: test_mask_packus_epi32_rr_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpackusdw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi32_rr_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: vpackusdw %zmm1, %zmm0, %zmm0
	; AVX512F-32-NEXT: retl
	%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
	ret <32 x i16> %1
	}

	define <32 x i16> @test_mask_packus_epi32_rrk_512(<16 x i32> %a, <16 x i32> %b, <32 x i16> %passThru, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi32_rrk_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %edi, %k1
	; AVX512BW-NEXT: vpackusdw %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi32_rrk_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackusdw %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512F-32-NEXT: retl
	%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
	ret <32 x i16> %3
	}

	define <32 x i16> @test_mask_packus_epi32_rrkz_512(<16 x i32> %a, <16 x i32> %b, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi32_rrkz_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %edi, %k1
	; AVX512BW-NEXT: vpackusdw %zmm1, %zmm0, %zmm0 {%k1} {z}
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi32_rrkz_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackusdw %zmm1, %zmm0, %zmm0 {%k1} {z}
	; AVX512F-32-NEXT: retl
	%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
	ret <32 x i16> %3
	}

	define <32 x i16> @test_mask_packus_epi32_rm_512(<16 x i32> %a, <16 x i32>* %ptr_b) {
	; AVX512BW-LABEL: test_mask_packus_epi32_rm_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpackusdw (%rdi), %zmm0, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi32_rm_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: vpackusdw (%eax), %zmm0, %zmm0
	; AVX512F-32-NEXT: retl
	%b = load <16 x i32>, <16 x i32>* %ptr_b
	%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
	ret <32 x i16> %1
	}

	define <32 x i16> @test_mask_packus_epi32_rmk_512(<16 x i32> %a, <16 x i32>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi32_rmk_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %esi, %k1
	; AVX512BW-NEXT: vpackusdw (%rdi), %zmm0, %zmm1 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi32_rmk_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackusdw (%eax), %zmm0, %zmm1 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512F-32-NEXT: retl
	%b = load <16 x i32>, <16 x i32>* %ptr_b
	%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
	ret <32 x i16> %3
	}

	define <32 x i16> @test_mask_packus_epi32_rmkz_512(<16 x i32> %a, <16 x i32>* %ptr_b, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi32_rmkz_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %esi, %k1
	; AVX512BW-NEXT: vpackusdw (%rdi), %zmm0, %zmm0 {%k1} {z}
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi32_rmkz_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackusdw (%eax), %zmm0, %zmm0 {%k1} {z}
	; AVX512F-32-NEXT: retl
	%b = load <16 x i32>, <16 x i32>* %ptr_b
	%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
	ret <32 x i16> %3
	}

	define <32 x i16> @test_mask_packus_epi32_rmb_512(<16 x i32> %a, i32* %ptr_b) {
	; AVX512BW-LABEL: test_mask_packus_epi32_rmb_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpackusdw (%rdi){1to16}, %zmm0, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi32_rmb_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: vpackusdw (%eax){1to16}, %zmm0, %zmm0
	; AVX512F-32-NEXT: retl
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
	%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
	%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
	ret <32 x i16> %1
	}

	define <32 x i16> @test_mask_packus_epi32_rmbk_512(<16 x i32> %a, i32* %ptr_b, <32 x i16> %passThru, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi32_rmbk_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %esi, %k1
	; AVX512BW-NEXT: vpackusdw (%rdi){1to16}, %zmm0, %zmm1 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi32_rmbk_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackusdw (%eax){1to16}, %zmm0, %zmm1 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512F-32-NEXT: retl
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
	%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
	%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> %passThru
	ret <32 x i16> %3
	}

	define <32 x i16> @test_mask_packus_epi32_rmbkz_512(<16 x i32> %a, i32* %ptr_b, i32 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi32_rmbkz_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovd %esi, %k1
	; AVX512BW-NEXT: vpackusdw (%rdi){1to16}, %zmm0, %zmm0 {%k1} {z}
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi32_rmbkz_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackusdw (%eax){1to16}, %zmm0, %zmm0 {%k1} {z}
	; AVX512F-32-NEXT: retl
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <16 x i32> undef, i32 %q, i32 0
	%b = shufflevector <16 x i32> %vecinit.i, <16 x i32> undef, <16 x i32> zeroinitializer
	%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %a, <16 x i32> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i16> %1, <32 x i16> zeroinitializer
	ret <32 x i16> %3
	}

	declare <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32>, <16 x i32>)

	define <64 x i8> @test_mask_packus_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {
	; AVX512BW-LABEL: test_mask_packus_epi16_rr_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi16_rr_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: vpackuswb %zmm1, %zmm0, %zmm0
	; AVX512F-32-NEXT: retl
	%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
	ret <64 x i8> %1
	}

	define <64 x i8> @test_mask_packus_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <64 x i8> %passThru, i64 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi16_rrk_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovq %rdi, %k1
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi16_rrk_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackuswb %zmm1, %zmm0, %zmm2 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
	; AVX512F-32-NEXT: retl
	%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
	%2 = bitcast i64 %mask to <64 x i1>
	%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passThru
	ret <64 x i8> %3
	}

	define <64 x i8> @test_mask_packus_epi16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i64 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi16_rrkz_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovq %rdi, %k1
	; AVX512BW-NEXT: vpackuswb %zmm1, %zmm0, %zmm0 {%k1} {z}
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi16_rrkz_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackuswb %zmm1, %zmm0, %zmm0 {%k1} {z}
	; AVX512F-32-NEXT: retl
	%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
	%2 = bitcast i64 %mask to <64 x i1>
	%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> zeroinitializer
	ret <64 x i8> %3
	}

	define <64 x i8> @test_mask_packus_epi16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
	; AVX512BW-LABEL: test_mask_packus_epi16_rm_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpackuswb (%rdi), %zmm0, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi16_rm_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: vpackuswb (%eax), %zmm0, %zmm0
	; AVX512F-32-NEXT: retl
	%b = load <32 x i16>, <32 x i16>* %ptr_b
	%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
	ret <64 x i8> %1
	}

	define <64 x i8> @test_mask_packus_epi16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <64 x i8> %passThru, i64 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi16_rmk_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovq %rsi, %k1
	; AVX512BW-NEXT: vpackuswb (%rdi), %zmm0, %zmm1 {%k1}
	; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi16_rmk_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackuswb (%eax), %zmm0, %zmm1 {%k1}
	; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
	; AVX512F-32-NEXT: retl
	%b = load <32 x i16>, <32 x i16>* %ptr_b
	%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
	%2 = bitcast i64 %mask to <64 x i1>
	%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> %passThru
	ret <64 x i8> %3
	}

	define <64 x i8> @test_mask_packus_epi16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i64 %mask) {
	; AVX512BW-LABEL: test_mask_packus_epi16_rmkz_512:
	; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: kmovq %rsi, %k1
	; AVX512BW-NEXT: vpackuswb (%rdi), %zmm0, %zmm0 {%k1} {z}
	; AVX512BW-NEXT: retq
	;
	; AVX512F-32-LABEL: test_mask_packus_epi16_rmkz_512:
	; AVX512F-32: # %bb.0:
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: kmovq {{[0-9]+}}(%esp), %k1
	; AVX512F-32-NEXT: vpackuswb (%eax), %zmm0, %zmm0 {%k1} {z}
	; AVX512F-32-NEXT: retl
	%b = load <32 x i16>, <32 x i16>* %ptr_b
	%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
	%2 = bitcast i64 %mask to <64 x i1>
	%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> zeroinitializer
	ret <64 x i8> %3
	}

	declare <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16>, <32 x i16>)

	define <32 x i16> @test_mask_adds_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {			define <32 x i16> @test_mask_adds_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {
	; AVX512BW-LABEL: test_mask_adds_epi16_rr_512:			; AVX512BW-LABEL: test_mask_adds_epi16_rr_512:
	; AVX512BW: ## %bb.0:			; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpaddsw %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddsw %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512F-32-LABEL: test_mask_adds_epi16_rr_512:			; AVX512F-32-LABEL: test_mask_adds_epi16_rr_512:
	; AVX512F-32: # %bb.0:			; AVX512F-32: # %bb.0:
	▲ Show 20 Lines • Show All 1,326 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512bwvl-intrinsics-upgrade.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 2,103 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test_int_x86_avx512_cvtmask2w_256:			; CHECK-LABEL: test_int_x86_avx512_cvtmask2w_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k0 ## encoding: [0xc5,0xfb,0x92,0xc7]			; CHECK-NEXT: kmovd %edi, %k0 ## encoding: [0xc5,0xfb,0x92,0xc7]
	; CHECK-NEXT: vpmovm2w %k0, %ymm0 ## encoding: [0x62,0xf2,0xfe,0x28,0x28,0xc0]			; CHECK-NEXT: vpmovm2w %k0, %ymm0 ## encoding: [0x62,0xf2,0xfe,0x28,0x28,0xc0]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <16 x i16> @llvm.x86.avx512.cvtmask2w.256(i16 %x0)			%res = call <16 x i16> @llvm.x86.avx512.cvtmask2w.256(i16 %x0)
	ret <16 x i16> %res			ret <16 x i16> %res
	}			}

				define <8 x i16> @test_packs_epi32_rr_128(<4 x i32> %a, <4 x i32> %b) {
				; CHECK-LABEL: test_packs_epi32_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackssdw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6b,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
				ret <8 x i16> %1
				}

				define <8 x i16> @test_packs_epi32_rr_128_unary(<4 x i32> %a) {
				; CHECK-LABEL: test_packs_epi32_rr_128_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackssdw %xmm0, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6b,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %a)
				ret <8 x i16> %1
				}

				define <8 x i16> @test_packs_epi32_rrk_128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_packs_epi32_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackssdw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x6b,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
				ret <8 x i16> %3
				}

				define <8 x i16> @test_packs_epi32_rrkz_128(<4 x i32> %a, <4 x i32> %b, i8 %mask) {
				; CHECK-LABEL: test_packs_epi32_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackssdw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x6b,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
				ret <8 x i16> %3
				}

				define <8 x i16> @test_packs_epi32_rm_128(<4 x i32> %a, <4 x i32>* %ptr_b) {
				; CHECK-LABEL: test_packs_epi32_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackssdw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <4 x i32>, <4 x i32>* %ptr_b
				%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
				ret <8 x i16> %1
				}

				define <8 x i16> @test_packs_epi32_rmk_128(<4 x i32> %a, <4 x i32>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_packs_epi32_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackssdw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x6b,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <4 x i32>, <4 x i32>* %ptr_b
				%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
				ret <8 x i16> %3
				}

				define <8 x i16> @test_packs_epi32_rmkz_128(<4 x i32> %a, <4 x i32>* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_packs_epi32_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackssdw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x6b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <4 x i32>, <4 x i32>* %ptr_b
				%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
				ret <8 x i16> %3
				}

				define <8 x i16> @test_packs_epi32_rmb_128(<4 x i32> %a, i32* %ptr_b) {
				; CHECK-LABEL: test_packs_epi32_rmb_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackssdw (%rdi){1to4}, %xmm0, %xmm0 ## encoding: [0x62,0xf1,0x7d,0x18,0x6b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
				%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
				%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
				ret <8 x i16> %1
				}

				define <8 x i16> @test_packs_epi32_rmbk_128(<4 x i32> %a, i32* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_packs_epi32_rmbk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackssdw (%rdi){1to4}, %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x19,0x6b,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
				%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
				%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
				ret <8 x i16> %3
				}

				define <8 x i16> @test_packs_epi32_rmbkz_128(<4 x i32> %a, i32* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_packs_epi32_rmbkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackssdw (%rdi){1to4}, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x99,0x6b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
				%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
				%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
				ret <8 x i16> %3
				}

				declare <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32>, <4 x i32>)

				define <16 x i16> @test_packs_epi32_rr_256(<8 x i32> %a, <8 x i32> %b) {
				; CHECK-LABEL: test_packs_epi32_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6b,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
				ret <16 x i16> %1
				}

				define <16 x i16> @test_packs_epi32_rr_256_unary(<8 x i32> %a) {
				; CHECK-LABEL: test_packs_epi32_rr_256_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackssdw %ymm0, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6b,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %a)
				ret <16 x i16> %1
				}

				define <16 x i16> @test_packs_epi32_rrk_256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_packs_epi32_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x6b,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
				ret <16 x i16> %3
				}

				define <16 x i16> @test_packs_epi32_rrkz_256(<8 x i32> %a, <8 x i32> %b, i16 %mask) {
				; CHECK-LABEL: test_packs_epi32_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x6b,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
				ret <16 x i16> %3
				}

				define <16 x i16> @test_packs_epi32_rm_256(<8 x i32> %a, <8 x i32>* %ptr_b) {
				; CHECK-LABEL: test_packs_epi32_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackssdw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i32>, <8 x i32>* %ptr_b
				%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
				ret <16 x i16> %1
				}

				define <16 x i16> @test_packs_epi32_rmk_256(<8 x i32> %a, <8 x i32>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_packs_epi32_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackssdw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x6b,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i32>, <8 x i32>* %ptr_b
				%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
				ret <16 x i16> %3
				}

				define <16 x i16> @test_packs_epi32_rmkz_256(<8 x i32> %a, <8 x i32>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_packs_epi32_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackssdw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x6b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i32>, <8 x i32>* %ptr_b
				%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
				ret <16 x i16> %3
				}

				define <16 x i16> @test_packs_epi32_rmb_256(<8 x i32> %a, i32* %ptr_b) {
				; CHECK-LABEL: test_packs_epi32_rmb_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackssdw (%rdi){1to8}, %ymm0, %ymm0 ## encoding: [0x62,0xf1,0x7d,0x38,0x6b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
				%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
				%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
				ret <16 x i16> %1
				}

				define <16 x i16> @test_packs_epi32_rmbk_256(<8 x i32> %a, i32* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_packs_epi32_rmbk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackssdw (%rdi){1to8}, %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x39,0x6b,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
				%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
				%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
				ret <16 x i16> %3
				}

				define <16 x i16> @test_packs_epi32_rmbkz_256(<8 x i32> %a, i32* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_packs_epi32_rmbkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackssdw (%rdi){1to8}, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xb9,0x6b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
				%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
				%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
				ret <16 x i16> %3
				}

				declare <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32>, <8 x i32>)

				define <16 x i8> @test_packs_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_packs_epi16_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpacksswb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x63,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
				ret <16 x i8> %1
				}

				define <16 x i8> @test_packs_epi16_rr_128_unary(<8 x i16> %a) {
				; CHECK-LABEL: test_packs_epi16_rr_128_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpacksswb %xmm0, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x63,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %a)
				ret <16 x i8> %1
				}

				define <16 x i8> @test_packs_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_packs_epi16_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpacksswb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x63,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passThru
				ret <16 x i8> %3
				}

				define <16 x i8> @test_packs_epi16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i16 %mask) {
				; CHECK-LABEL: test_packs_epi16_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpacksswb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x63,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
				ret <16 x i8> %3
				}

				define <16 x i8> @test_packs_epi16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
				; CHECK-LABEL: test_packs_epi16_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpacksswb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x63,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
				ret <16 x i8> %1
				}

				define <16 x i8> @test_packs_epi16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_packs_epi16_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpacksswb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x63,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passThru
				ret <16 x i8> %3
				}

				define <16 x i8> @test_packs_epi16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_packs_epi16_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpacksswb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x63,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
				ret <16 x i8> %3
				}

				declare <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16>, <8 x i16>)

				define <32 x i8> @test_packs_epi16_rr_256(<16 x i16> %a, <16 x i16> %b) {
				; CHECK-LABEL: test_packs_epi16_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x63,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
				ret <32 x i8> %1
				}

				define <32 x i8> @test_packs_epi16_rr_256_unary(<16 x i16> %a) {
				; CHECK-LABEL: test_packs_epi16_rr_256_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpacksswb %ymm0, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x63,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %a)
				ret <32 x i8> %1
				}

				define <32 x i8> @test_packs_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_packs_epi16_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x63,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passThru
				ret <32 x i8> %3
				}

				define <32 x i8> @test_packs_epi16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i32 %mask) {
				; CHECK-LABEL: test_packs_epi16_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x63,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
				ret <32 x i8> %3
				}

				define <32 x i8> @test_packs_epi16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
				; CHECK-LABEL: test_packs_epi16_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpacksswb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x63,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
				ret <32 x i8> %1
				}

				define <32 x i8> @test_packs_epi16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_packs_epi16_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpacksswb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x63,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passThru
				ret <32 x i8> %3
				}

				define <32 x i8> @test_packs_epi16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i32 %mask) {
				; CHECK-LABEL: test_packs_epi16_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpacksswb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x63,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
				ret <32 x i8> %3
				}

				declare <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16>, <16 x i16>)


				define <8 x i16> @test_packus_epi32_rr_128(<4 x i32> %a, <4 x i32> %b) {
				; CHECK-LABEL: test_packus_epi32_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackusdw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x2b,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
				ret <8 x i16> %1
				}

				define <8 x i16> @test_packus_epi32_rr_128_unary(<4 x i32> %a) {
				; CHECK-LABEL: test_packus_epi32_rr_128_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackusdw %xmm0, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x2b,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %a)
				ret <8 x i16> %1
				}

				define <8 x i16> @test_packus_epi32_rrk_128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_packus_epi32_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackusdw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf2,0x7d,0x09,0x2b,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
				ret <8 x i16> %3
				}

				define <8 x i16> @test_packus_epi32_rrkz_128(<4 x i32> %a, <4 x i32> %b, i8 %mask) {
				; CHECK-LABEL: test_packus_epi32_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackusdw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0x89,0x2b,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
				ret <8 x i16> %3
				}

				define <8 x i16> @test_packus_epi32_rm_128(<4 x i32> %a, <4 x i32>* %ptr_b) {
				; CHECK-LABEL: test_packus_epi32_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackusdw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x2b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <4 x i32>, <4 x i32>* %ptr_b
				%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
				ret <8 x i16> %1
				}

				define <8 x i16> @test_packus_epi32_rmk_128(<4 x i32> %a, <4 x i32>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_packus_epi32_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackusdw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf2,0x7d,0x09,0x2b,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <4 x i32>, <4 x i32>* %ptr_b
				%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
				ret <8 x i16> %3
				}

				define <8 x i16> @test_packus_epi32_rmkz_128(<4 x i32> %a, <4 x i32>* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_packus_epi32_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackusdw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0x89,0x2b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <4 x i32>, <4 x i32>* %ptr_b
				%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
				ret <8 x i16> %3
				}

				define <8 x i16> @test_packus_epi32_rmb_128(<4 x i32> %a, i32* %ptr_b) {
				; CHECK-LABEL: test_packus_epi32_rmb_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackusdw (%rdi){1to4}, %xmm0, %xmm0 ## encoding: [0x62,0xf2,0x7d,0x18,0x2b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
				%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
				%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
				ret <8 x i16> %1
				}

				define <8 x i16> @test_packus_epi32_rmbk_128(<4 x i32> %a, i32* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_packus_epi32_rmbk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackusdw (%rdi){1to4}, %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf2,0x7d,0x19,0x2b,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
				%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
				%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
				ret <8 x i16> %3
				}

				define <8 x i16> @test_packus_epi32_rmbkz_128(<4 x i32> %a, i32* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_packus_epi32_rmbkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackusdw (%rdi){1to4}, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0x99,0x2b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
				%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
				%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
				%2 = bitcast i8 %mask to <8 x i1>
				%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
				ret <8 x i16> %3
				}

				declare <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32>, <4 x i32>)

				define <16 x i16> @test_packus_epi32_rr_256(<8 x i32> %a, <8 x i32> %b) {
				; CHECK-LABEL: test_packus_epi32_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x2b,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
				ret <16 x i16> %1
				}

				define <16 x i16> @test_packus_epi32_rr_256_unary(<8 x i32> %a) {
				; CHECK-LABEL: test_packus_epi32_rr_256_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackusdw %ymm0, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x2b,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %a)
				ret <16 x i16> %1
				}

				define <16 x i16> @test_packus_epi32_rrk_256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_packus_epi32_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf2,0x7d,0x29,0x2b,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
				ret <16 x i16> %3
				}

				define <16 x i16> @test_packus_epi32_rrkz_256(<8 x i32> %a, <8 x i32> %b, i16 %mask) {
				; CHECK-LABEL: test_packus_epi32_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0xa9,0x2b,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
				ret <16 x i16> %3
				}

				define <16 x i16> @test_packus_epi32_rm_256(<8 x i32> %a, <8 x i32>* %ptr_b) {
				; CHECK-LABEL: test_packus_epi32_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackusdw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x2b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i32>, <8 x i32>* %ptr_b
				%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
				ret <16 x i16> %1
				}

				define <16 x i16> @test_packus_epi32_rmk_256(<8 x i32> %a, <8 x i32>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_packus_epi32_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackusdw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf2,0x7d,0x29,0x2b,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i32>, <8 x i32>* %ptr_b
				%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
				ret <16 x i16> %3
				}

				define <16 x i16> @test_packus_epi32_rmkz_256(<8 x i32> %a, <8 x i32>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_packus_epi32_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackusdw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0xa9,0x2b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i32>, <8 x i32>* %ptr_b
				%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
				ret <16 x i16> %3
				}

				define <16 x i16> @test_packus_epi32_rmb_256(<8 x i32> %a, i32* %ptr_b) {
				; CHECK-LABEL: test_packus_epi32_rmb_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackusdw (%rdi){1to8}, %ymm0, %ymm0 ## encoding: [0x62,0xf2,0x7d,0x38,0x2b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
				%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
				%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
				ret <16 x i16> %1
				}

				define <16 x i16> @test_packus_epi32_rmbk_256(<8 x i32> %a, i32* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_packus_epi32_rmbk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackusdw (%rdi){1to8}, %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf2,0x7d,0x39,0x2b,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
				%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
				%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
				ret <16 x i16> %3
				}

				define <16 x i16> @test_packus_epi32_rmbkz_256(<8 x i32> %a, i32* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_packus_epi32_rmbkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackusdw (%rdi){1to8}, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0xb9,0x2b,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%q = load i32, i32* %ptr_b
				%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
				%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
				%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
				ret <16 x i16> %3
				}

				declare <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32>, <8 x i32>)

				define <16 x i8> @test_packus_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_packus_epi16_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackuswb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x67,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
				ret <16 x i8> %1
				}

				define <16 x i8> @test_packus_epi16_rr_128_unary(<8 x i16> %a) {
				; CHECK-LABEL: test_packus_epi16_rr_128_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackuswb %xmm0, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x67,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %a)
				ret <16 x i8> %1
				}

				define <16 x i8> @test_packus_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_packus_epi16_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackuswb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x67,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passThru
				ret <16 x i8> %3
				}

				define <16 x i8> @test_packus_epi16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i16 %mask) {
				; CHECK-LABEL: test_packus_epi16_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackuswb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x67,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
				ret <16 x i8> %3
				}

				define <16 x i8> @test_packus_epi16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
				; CHECK-LABEL: test_packus_epi16_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackuswb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x67,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
				ret <16 x i8> %1
				}

				define <16 x i8> @test_packus_epi16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_packus_epi16_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackuswb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x67,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passThru
				ret <16 x i8> %3
				}

				define <16 x i8> @test_packus_epi16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_packus_epi16_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackuswb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x67,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
				%2 = bitcast i16 %mask to <16 x i1>
				%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
				ret <16 x i8> %3
				}

				declare <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16>, <8 x i16>)

				define <32 x i8> @test_packus_epi16_rr_256(<16 x i16> %a, <16 x i16> %b) {
				; CHECK-LABEL: test_packus_epi16_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x67,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
				ret <32 x i8> %1
				}

				define <32 x i8> @test_packus_epi16_rr_256_unary(<16 x i16> %a) {
				; CHECK-LABEL: test_packus_epi16_rr_256_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackuswb %ymm0, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x67,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %a)
				ret <32 x i8> %1
				}

				define <32 x i8> @test_packus_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_packus_epi16_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x67,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passThru
				ret <32 x i8> %3
				}

				define <32 x i8> @test_packus_epi16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i32 %mask) {
				; CHECK-LABEL: test_packus_epi16_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x67,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
				ret <32 x i8> %3
				}

				define <32 x i8> @test_packus_epi16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
				; CHECK-LABEL: test_packus_epi16_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackuswb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x67,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
				ret <32 x i8> %1
				}

				define <32 x i8> @test_packus_epi16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_packus_epi16_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackuswb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x67,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passThru
				ret <32 x i8> %3
				}

				define <32 x i8> @test_packus_epi16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i32 %mask) {
				; CHECK-LABEL: test_packus_epi16_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpackuswb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x67,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
				%2 = bitcast i32 %mask to <32 x i1>
				%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
				ret <32 x i8> %3
				}

				declare <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16>, <16 x i16>)

	define <8 x i16> @test_mask_packs_epi32_rr_128(<4 x i32> %a, <4 x i32> %b) {			define <8 x i16> @test_mask_packs_epi32_rr_128(<4 x i32> %a, <4 x i32> %b) {
	; CHECK-LABEL: test_mask_packs_epi32_rr_128:			; CHECK-LABEL: test_mask_packs_epi32_rr_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackssdw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6b,0xc1]			; CHECK-NEXT: vpackssdw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.avx512.mask.packssdw.128(<4 x i32> %a, <4 x i32> %b, <8 x i16> zeroinitializer, i8 -1)			%res = call <8 x i16> @llvm.x86.avx512.mask.packssdw.128(<4 x i32> %a, <4 x i32> %b, <8 x i16> zeroinitializer, i8 -1)
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}

				define <8 x i16> @test_mask_packs_epi32_rr_128_unary(<4 x i32> %a) {
				; CHECK-LABEL: test_mask_packs_epi32_rr_128_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackssdw %xmm0, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6b,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.packssdw.128(<4 x i32> %a, <4 x i32> %a, <8 x i16> zeroinitializer, i8 -1)
				ret <8 x i16> %res
				}

	define <8 x i16> @test_mask_packs_epi32_rrk_128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask) {			define <8 x i16> @test_mask_packs_epi32_rrk_128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rrk_128:			; CHECK-LABEL: test_mask_packs_epi32_rrk_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]			; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackssdw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x6b,0xd1]			; CHECK-NEXT: vpackssdw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x6b,0xd1]
	; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]			; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.avx512.mask.packssdw.128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask)			%res = call <8 x i16> @llvm.x86.avx512.mask.packssdw.128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask)
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test_mask_packs_epi32_rr_256:			; CHECK-LABEL: test_mask_packs_epi32_rr_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6b,0xc1]			; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <16 x i16> @llvm.x86.avx512.mask.packssdw.256(<8 x i32> %a, <8 x i32> %b, <16 x i16> zeroinitializer, i16 -1)			%res = call <16 x i16> @llvm.x86.avx512.mask.packssdw.256(<8 x i32> %a, <8 x i32> %b, <16 x i16> zeroinitializer, i16 -1)
	ret <16 x i16> %res			ret <16 x i16> %res
	}			}

				define <16 x i16> @test_mask_packs_epi32_rr_256_unary(<8 x i32> %a) {
				; CHECK-LABEL: test_mask_packs_epi32_rr_256_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackssdw %ymm0, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6b,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.packssdw.256(<8 x i32> %a, <8 x i32> %a, <16 x i16> zeroinitializer, i16 -1)
				ret <16 x i16> %res
				}

	define <16 x i16> @test_mask_packs_epi32_rrk_256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask) {			define <16 x i16> @test_mask_packs_epi32_rrk_256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rrk_256:			; CHECK-LABEL: test_mask_packs_epi32_rrk_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]			; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x6b,0xd1]			; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x6b,0xd1]
	; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]			; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <16 x i16> @llvm.x86.avx512.mask.packssdw.256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask)			%res = call <16 x i16> @llvm.x86.avx512.mask.packssdw.256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask)
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test_mask_packs_epi16_rr_128:			; CHECK-LABEL: test_mask_packs_epi16_rr_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpacksswb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x63,0xc1]			; CHECK-NEXT: vpacksswb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x63,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.avx512.mask.packsswb.128(<8 x i16> %a, <8 x i16> %b, <16 x i8> zeroinitializer, i16 -1)			%res = call <16 x i8> @llvm.x86.avx512.mask.packsswb.128(<8 x i16> %a, <8 x i16> %b, <16 x i8> zeroinitializer, i16 -1)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

				define <16 x i8> @test_mask_packs_epi16_rr_128_unary(<8 x i16> %a) {
				; CHECK-LABEL: test_mask_packs_epi16_rr_128_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpacksswb %xmm0, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x63,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.packsswb.128(<8 x i16> %a, <8 x i16> %a, <16 x i8> zeroinitializer, i16 -1)
				ret <16 x i8> %res
				}

	define <16 x i8> @test_mask_packs_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask) {			define <16 x i8> @test_mask_packs_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi16_rrk_128:			; CHECK-LABEL: test_mask_packs_epi16_rrk_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]			; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpacksswb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x63,0xd1]			; CHECK-NEXT: vpacksswb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x63,0xd1]
	; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]			; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.avx512.mask.packsswb.128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask)			%res = call <16 x i8> @llvm.x86.avx512.mask.packsswb.128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask)
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test_mask_packs_epi16_rr_256:			; CHECK-LABEL: test_mask_packs_epi16_rr_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x63,0xc1]			; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x63,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <32 x i8> @llvm.x86.avx512.mask.packsswb.256(<16 x i16> %a, <16 x i16> %b, <32 x i8> zeroinitializer, i32 -1)			%res = call <32 x i8> @llvm.x86.avx512.mask.packsswb.256(<16 x i16> %a, <16 x i16> %b, <32 x i8> zeroinitializer, i32 -1)
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}

				define <32 x i8> @test_mask_packs_epi16_rr_256_unary(<16 x i16> %a) {
				; CHECK-LABEL: test_mask_packs_epi16_rr_256_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpacksswb %ymm0, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x63,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.packsswb.256(<16 x i16> %a, <16 x i16> %a, <32 x i8> zeroinitializer, i32 -1)
				ret <32 x i8> %res
				}

	define <32 x i8> @test_mask_packs_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask) {			define <32 x i8> @test_mask_packs_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask) {
	; CHECK-LABEL: test_mask_packs_epi16_rrk_256:			; CHECK-LABEL: test_mask_packs_epi16_rrk_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]			; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x63,0xd1]			; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x63,0xd1]
	; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]			; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <32 x i8> @llvm.x86.avx512.mask.packsswb.256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask)			%res = call <32 x i8> @llvm.x86.avx512.mask.packsswb.256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask)
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test_mask_packus_epi32_rr_128:			; CHECK-LABEL: test_mask_packus_epi32_rr_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackusdw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x2b,0xc1]			; CHECK-NEXT: vpackusdw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x2b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.avx512.mask.packusdw.128(<4 x i32> %a, <4 x i32> %b, <8 x i16> zeroinitializer, i8 -1)			%res = call <8 x i16> @llvm.x86.avx512.mask.packusdw.128(<4 x i32> %a, <4 x i32> %b, <8 x i16> zeroinitializer, i8 -1)
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}

				define <8 x i16> @test_mask_packus_epi32_rr_128_unary(<4 x i32> %a) {
				; CHECK-LABEL: test_mask_packus_epi32_rr_128_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackusdw %xmm0, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x2b,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.packusdw.128(<4 x i32> %a, <4 x i32> %a, <8 x i16> zeroinitializer, i8 -1)
				ret <8 x i16> %res
				}

	define <8 x i16> @test_mask_packus_epi32_rrk_128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask) {			define <8 x i16> @test_mask_packus_epi32_rrk_128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rrk_128:			; CHECK-LABEL: test_mask_packus_epi32_rrk_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]			; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackusdw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf2,0x7d,0x09,0x2b,0xd1]			; CHECK-NEXT: vpackusdw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf2,0x7d,0x09,0x2b,0xd1]
	; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]			; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.avx512.mask.packusdw.128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask)			%res = call <8 x i16> @llvm.x86.avx512.mask.packusdw.128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask)
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test_mask_packus_epi32_rr_256:			; CHECK-LABEL: test_mask_packus_epi32_rr_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x2b,0xc1]			; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x2b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <16 x i16> @llvm.x86.avx512.mask.packusdw.256(<8 x i32> %a, <8 x i32> %b, <16 x i16> zeroinitializer, i16 -1)			%res = call <16 x i16> @llvm.x86.avx512.mask.packusdw.256(<8 x i32> %a, <8 x i32> %b, <16 x i16> zeroinitializer, i16 -1)
	ret <16 x i16> %res			ret <16 x i16> %res
	}			}

				define <16 x i16> @test_mask_packus_epi32_rr_256_unary(<8 x i32> %a) {
				; CHECK-LABEL: test_mask_packus_epi32_rr_256_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackusdw %ymm0, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x2b,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.packusdw.256(<8 x i32> %a, <8 x i32> %a, <16 x i16> zeroinitializer, i16 -1)
				ret <16 x i16> %res
				}

	define <16 x i16> @test_mask_packus_epi32_rrk_256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask) {			define <16 x i16> @test_mask_packus_epi32_rrk_256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rrk_256:			; CHECK-LABEL: test_mask_packus_epi32_rrk_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]			; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf2,0x7d,0x29,0x2b,0xd1]			; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf2,0x7d,0x29,0x2b,0xd1]
	; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]			; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <16 x i16> @llvm.x86.avx512.mask.packusdw.256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask)			%res = call <16 x i16> @llvm.x86.avx512.mask.packusdw.256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask)
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test_mask_packus_epi16_rr_128:			; CHECK-LABEL: test_mask_packus_epi16_rr_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackuswb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x67,0xc1]			; CHECK-NEXT: vpackuswb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x67,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.avx512.mask.packuswb.128(<8 x i16> %a, <8 x i16> %b, <16 x i8> zeroinitializer, i16 -1)			%res = call <16 x i8> @llvm.x86.avx512.mask.packuswb.128(<8 x i16> %a, <8 x i16> %b, <16 x i8> zeroinitializer, i16 -1)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

				define <16 x i8> @test_mask_packus_epi16_rr_128_unary(<8 x i16> %a) {
				; CHECK-LABEL: test_mask_packus_epi16_rr_128_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackuswb %xmm0, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x67,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.packuswb.128(<8 x i16> %a, <8 x i16> %a, <16 x i8> zeroinitializer, i16 -1)
				ret <16 x i8> %res
				}

	define <16 x i8> @test_mask_packus_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask) {			define <16 x i8> @test_mask_packus_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi16_rrk_128:			; CHECK-LABEL: test_mask_packus_epi16_rrk_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]			; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackuswb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x67,0xd1]			; CHECK-NEXT: vpackuswb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x67,0xd1]
	; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]			; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.avx512.mask.packuswb.128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask)			%res = call <16 x i8> @llvm.x86.avx512.mask.packuswb.128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask)
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: test_mask_packus_epi16_rr_256:			; CHECK-LABEL: test_mask_packus_epi16_rr_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x67,0xc1]			; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x67,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <32 x i8> @llvm.x86.avx512.mask.packuswb.256(<16 x i16> %a, <16 x i16> %b, <32 x i8> zeroinitializer, i32 -1)			%res = call <32 x i8> @llvm.x86.avx512.mask.packuswb.256(<16 x i16> %a, <16 x i16> %b, <32 x i8> zeroinitializer, i32 -1)
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}

				define <32 x i8> @test_mask_packus_epi16_rr_256_unary(<16 x i16> %a) {
				; CHECK-LABEL: test_mask_packus_epi16_rr_256_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpackuswb %ymm0, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x67,0xc0]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.packuswb.256(<16 x i16> %a, <16 x i16> %a, <32 x i8> zeroinitializer, i32 -1)
				ret <32 x i8> %res
				}

	define <32 x i8> @test_mask_packus_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask) {			define <32 x i8> @test_mask_packus_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask) {
	; CHECK-LABEL: test_mask_packus_epi16_rrk_256:			; CHECK-LABEL: test_mask_packus_epi16_rrk_256:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]			; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x67,0xd1]			; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x67,0xd1]
	; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]			; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <32 x i8> @llvm.x86.avx512.mask.packuswb.256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask)			%res = call <32 x i8> @llvm.x86.avx512.mask.packuswb.256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask)
	▲ Show 20 Lines • Show All 1,272 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512bwvl-intrinsics.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw -mattr=+avx512vl --show-mc-encoding\| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw -mattr=+avx512vl --show-mc-encoding\| FileCheck %s

	define <8 x i16> @test_mask_packs_epi32_rr_128(<4 x i32> %a, <4 x i32> %b) {
	; CHECK-LABEL: test_mask_packs_epi32_rr_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackssdw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
	ret <8 x i16> %1
	}

	define <8 x i16> @test_mask_packs_epi32_rrk_128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rrk_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackssdw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x6b,0xd1]
	; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
	ret <8 x i16> %3
	}

	define <8 x i16> @test_mask_packs_epi32_rrkz_128(<4 x i32> %a, <4 x i32> %b, i8 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rrkz_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackssdw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x6b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
	ret <8 x i16> %3
	}

	define <8 x i16> @test_mask_packs_epi32_rm_128(<4 x i32> %a, <4 x i32>* %ptr_b) {
	; CHECK-LABEL: test_mask_packs_epi32_rm_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackssdw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <4 x i32>, <4 x i32>* %ptr_b
	%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
	ret <8 x i16> %1
	}

	define <8 x i16> @test_mask_packs_epi32_rmk_128(<4 x i32> %a, <4 x i32>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rmk_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackssdw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x6b,0x0f]
	; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <4 x i32>, <4 x i32>* %ptr_b
	%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
	ret <8 x i16> %3
	}

	define <8 x i16> @test_mask_packs_epi32_rmkz_128(<4 x i32> %a, <4 x i32>* %ptr_b, i8 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rmkz_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackssdw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x6b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <4 x i32>, <4 x i32>* %ptr_b
	%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
	ret <8 x i16> %3
	}

	define <8 x i16> @test_mask_packs_epi32_rmb_128(<4 x i32> %a, i32* %ptr_b) {
	; CHECK-LABEL: test_mask_packs_epi32_rmb_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackssdw (%rdi){1to4}, %xmm0, %xmm0 ## encoding: [0x62,0xf1,0x7d,0x18,0x6b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
	%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
	%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
	ret <8 x i16> %1
	}

	define <8 x i16> @test_mask_packs_epi32_rmbk_128(<4 x i32> %a, i32* %ptr_b, <8 x i16> %passThru, i8 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rmbk_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackssdw (%rdi){1to4}, %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x19,0x6b,0x0f]
	; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
	%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
	%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
	ret <8 x i16> %3
	}

	define <8 x i16> @test_mask_packs_epi32_rmbkz_128(<4 x i32> %a, i32* %ptr_b, i8 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rmbkz_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackssdw (%rdi){1to4}, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x99,0x6b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
	%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
	%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
	ret <8 x i16> %3
	}

	declare <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32>, <4 x i32>)

	define <16 x i16> @test_mask_packs_epi32_rr_256(<8 x i32> %a, <8 x i32> %b) {
	; CHECK-LABEL: test_mask_packs_epi32_rr_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
	ret <16 x i16> %1
	}

	define <16 x i16> @test_mask_packs_epi32_rrk_256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rrk_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x6b,0xd1]
	; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
	ret <16 x i16> %3
	}

	define <16 x i16> @test_mask_packs_epi32_rrkz_256(<8 x i32> %a, <8 x i32> %b, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rrkz_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackssdw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x6b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
	ret <16 x i16> %3
	}

	define <16 x i16> @test_mask_packs_epi32_rm_256(<8 x i32> %a, <8 x i32>* %ptr_b) {
	; CHECK-LABEL: test_mask_packs_epi32_rm_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackssdw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i32>, <8 x i32>* %ptr_b
	%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
	ret <16 x i16> %1
	}

	define <16 x i16> @test_mask_packs_epi32_rmk_256(<8 x i32> %a, <8 x i32>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rmk_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackssdw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x6b,0x0f]
	; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i32>, <8 x i32>* %ptr_b
	%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
	ret <16 x i16> %3
	}

	define <16 x i16> @test_mask_packs_epi32_rmkz_256(<8 x i32> %a, <8 x i32>* %ptr_b, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rmkz_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackssdw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x6b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i32>, <8 x i32>* %ptr_b
	%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
	ret <16 x i16> %3
	}

	define <16 x i16> @test_mask_packs_epi32_rmb_256(<8 x i32> %a, i32* %ptr_b) {
	; CHECK-LABEL: test_mask_packs_epi32_rmb_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackssdw (%rdi){1to8}, %ymm0, %ymm0 ## encoding: [0x62,0xf1,0x7d,0x38,0x6b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
	%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
	%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
	ret <16 x i16> %1
	}

	define <16 x i16> @test_mask_packs_epi32_rmbk_256(<8 x i32> %a, i32* %ptr_b, <16 x i16> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rmbk_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackssdw (%rdi){1to8}, %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x39,0x6b,0x0f]
	; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
	%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
	%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
	ret <16 x i16> %3
	}

	define <16 x i16> @test_mask_packs_epi32_rmbkz_256(<8 x i32> %a, i32* %ptr_b, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi32_rmbkz_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackssdw (%rdi){1to8}, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xb9,0x6b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
	%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
	%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
	ret <16 x i16> %3
	}

	declare <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32>, <8 x i32>)

	define <16 x i8> @test_mask_packs_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {
	; CHECK-LABEL: test_mask_packs_epi16_rr_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpacksswb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x63,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
	ret <16 x i8> %1
	}

	define <16 x i8> @test_mask_packs_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi16_rrk_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpacksswb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x63,0xd1]
	; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passThru
	ret <16 x i8> %3
	}

	define <16 x i8> @test_mask_packs_epi16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi16_rrkz_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpacksswb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x63,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
	ret <16 x i8> %3
	}

	define <16 x i8> @test_mask_packs_epi16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
	; CHECK-LABEL: test_mask_packs_epi16_rm_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpacksswb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x63,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i16>, <8 x i16>* %ptr_b
	%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
	ret <16 x i8> %1
	}

	define <16 x i8> @test_mask_packs_epi16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi16_rmk_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpacksswb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x63,0x0f]
	; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i16>, <8 x i16>* %ptr_b
	%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passThru
	ret <16 x i8> %3
	}

	define <16 x i8> @test_mask_packs_epi16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i16 %mask) {
	; CHECK-LABEL: test_mask_packs_epi16_rmkz_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpacksswb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x63,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i16>, <8 x i16>* %ptr_b
	%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
	ret <16 x i8> %3
	}

	declare <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16>, <8 x i16>)

	define <32 x i8> @test_mask_packs_epi16_rr_256(<16 x i16> %a, <16 x i16> %b) {
	; CHECK-LABEL: test_mask_packs_epi16_rr_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x63,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
	ret <32 x i8> %1
	}

	define <32 x i8> @test_mask_packs_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask) {
	; CHECK-LABEL: test_mask_packs_epi16_rrk_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x63,0xd1]
	; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passThru
	ret <32 x i8> %3
	}

	define <32 x i8> @test_mask_packs_epi16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i32 %mask) {
	; CHECK-LABEL: test_mask_packs_epi16_rrkz_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpacksswb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x63,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
	ret <32 x i8> %3
	}

	define <32 x i8> @test_mask_packs_epi16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
	; CHECK-LABEL: test_mask_packs_epi16_rm_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpacksswb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x63,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <16 x i16>, <16 x i16>* %ptr_b
	%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
	ret <32 x i8> %1
	}

	define <32 x i8> @test_mask_packs_epi16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
	; CHECK-LABEL: test_mask_packs_epi16_rmk_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpacksswb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x63,0x0f]
	; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <16 x i16>, <16 x i16>* %ptr_b
	%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passThru
	ret <32 x i8> %3
	}

	define <32 x i8> @test_mask_packs_epi16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i32 %mask) {
	; CHECK-LABEL: test_mask_packs_epi16_rmkz_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpacksswb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x63,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <16 x i16>, <16 x i16>* %ptr_b
	%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %a, <16 x i16> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
	ret <32 x i8> %3
	}

	declare <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16>, <16 x i16>)


	define <8 x i16> @test_mask_packus_epi32_rr_128(<4 x i32> %a, <4 x i32> %b) {
	; CHECK-LABEL: test_mask_packus_epi32_rr_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackusdw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x2b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
	ret <8 x i16> %1
	}

	define <8 x i16> @test_mask_packus_epi32_rrk_128(<4 x i32> %a, <4 x i32> %b, <8 x i16> %passThru, i8 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rrk_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackusdw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf2,0x7d,0x09,0x2b,0xd1]
	; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
	ret <8 x i16> %3
	}

	define <8 x i16> @test_mask_packus_epi32_rrkz_128(<4 x i32> %a, <4 x i32> %b, i8 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rrkz_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackusdw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0x89,0x2b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
	ret <8 x i16> %3
	}

	define <8 x i16> @test_mask_packus_epi32_rm_128(<4 x i32> %a, <4 x i32>* %ptr_b) {
	; CHECK-LABEL: test_mask_packus_epi32_rm_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackusdw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x2b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <4 x i32>, <4 x i32>* %ptr_b
	%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
	ret <8 x i16> %1
	}

	define <8 x i16> @test_mask_packus_epi32_rmk_128(<4 x i32> %a, <4 x i32>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rmk_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackusdw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf2,0x7d,0x09,0x2b,0x0f]
	; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <4 x i32>, <4 x i32>* %ptr_b
	%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
	ret <8 x i16> %3
	}

	define <8 x i16> @test_mask_packus_epi32_rmkz_128(<4 x i32> %a, <4 x i32>* %ptr_b, i8 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rmkz_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackusdw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0x89,0x2b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <4 x i32>, <4 x i32>* %ptr_b
	%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
	ret <8 x i16> %3
	}

	define <8 x i16> @test_mask_packus_epi32_rmb_128(<4 x i32> %a, i32* %ptr_b) {
	; CHECK-LABEL: test_mask_packus_epi32_rmb_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackusdw (%rdi){1to4}, %xmm0, %xmm0 ## encoding: [0x62,0xf2,0x7d,0x18,0x2b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
	%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
	%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
	ret <8 x i16> %1
	}

	define <8 x i16> @test_mask_packus_epi32_rmbk_128(<4 x i32> %a, i32* %ptr_b, <8 x i16> %passThru, i8 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rmbk_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackusdw (%rdi){1to4}, %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf2,0x7d,0x19,0x2b,0x0f]
	; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
	%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
	%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> %passThru
	ret <8 x i16> %3
	}

	define <8 x i16> @test_mask_packus_epi32_rmbkz_128(<4 x i32> %a, i32* %ptr_b, i8 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rmbkz_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackusdw (%rdi){1to4}, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0x99,0x2b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <4 x i32> undef, i32 %q, i32 0
	%b = shufflevector <4 x i32> %vecinit.i, <4 x i32> undef, <4 x i32> zeroinitializer
	%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %b)
	%2 = bitcast i8 %mask to <8 x i1>
	%3 = select <8 x i1> %2, <8 x i16> %1, <8 x i16> zeroinitializer
	ret <8 x i16> %3
	}

	declare <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32>, <4 x i32>)

	define <16 x i16> @test_mask_packus_epi32_rr_256(<8 x i32> %a, <8 x i32> %b) {
	; CHECK-LABEL: test_mask_packus_epi32_rr_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x2b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
	ret <16 x i16> %1
	}

	define <16 x i16> @test_mask_packus_epi32_rrk_256(<8 x i32> %a, <8 x i32> %b, <16 x i16> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rrk_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf2,0x7d,0x29,0x2b,0xd1]
	; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
	ret <16 x i16> %3
	}

	define <16 x i16> @test_mask_packus_epi32_rrkz_256(<8 x i32> %a, <8 x i32> %b, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rrkz_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackusdw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0xa9,0x2b,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
	ret <16 x i16> %3
	}

	define <16 x i16> @test_mask_packus_epi32_rm_256(<8 x i32> %a, <8 x i32>* %ptr_b) {
	; CHECK-LABEL: test_mask_packus_epi32_rm_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackusdw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x2b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i32>, <8 x i32>* %ptr_b
	%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
	ret <16 x i16> %1
	}

	define <16 x i16> @test_mask_packus_epi32_rmk_256(<8 x i32> %a, <8 x i32>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rmk_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackusdw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf2,0x7d,0x29,0x2b,0x0f]
	; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i32>, <8 x i32>* %ptr_b
	%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
	ret <16 x i16> %3
	}

	define <16 x i16> @test_mask_packus_epi32_rmkz_256(<8 x i32> %a, <8 x i32>* %ptr_b, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rmkz_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackusdw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0xa9,0x2b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i32>, <8 x i32>* %ptr_b
	%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
	ret <16 x i16> %3
	}

	define <16 x i16> @test_mask_packus_epi32_rmb_256(<8 x i32> %a, i32* %ptr_b) {
	; CHECK-LABEL: test_mask_packus_epi32_rmb_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackusdw (%rdi){1to8}, %ymm0, %ymm0 ## encoding: [0x62,0xf2,0x7d,0x38,0x2b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
	%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
	%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
	ret <16 x i16> %1
	}

	define <16 x i16> @test_mask_packus_epi32_rmbk_256(<8 x i32> %a, i32* %ptr_b, <16 x i16> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rmbk_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackusdw (%rdi){1to8}, %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf2,0x7d,0x39,0x2b,0x0f]
	; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
	%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
	%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> %passThru
	ret <16 x i16> %3
	}

	define <16 x i16> @test_mask_packus_epi32_rmbkz_256(<8 x i32> %a, i32* %ptr_b, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi32_rmbkz_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackusdw (%rdi){1to8}, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf2,0x7d,0xb9,0x2b,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%q = load i32, i32* %ptr_b
	%vecinit.i = insertelement <8 x i32> undef, i32 %q, i32 0
	%b = shufflevector <8 x i32> %vecinit.i, <8 x i32> undef, <8 x i32> zeroinitializer
	%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %a, <8 x i32> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> zeroinitializer
	ret <16 x i16> %3
	}

	declare <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32>, <8 x i32>)

	define <16 x i8> @test_mask_packus_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {
	; CHECK-LABEL: test_mask_packus_epi16_rr_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackuswb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x67,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
	ret <16 x i8> %1
	}

	define <16 x i8> @test_mask_packus_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <16 x i8> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi16_rrk_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackuswb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x67,0xd1]
	; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passThru
	ret <16 x i8> %3
	}

	define <16 x i8> @test_mask_packus_epi16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi16_rrkz_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackuswb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x67,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
	ret <16 x i8> %3
	}

	define <16 x i8> @test_mask_packus_epi16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
	; CHECK-LABEL: test_mask_packus_epi16_rm_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackuswb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x67,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i16>, <8 x i16>* %ptr_b
	%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
	ret <16 x i8> %1
	}

	define <16 x i8> @test_mask_packus_epi16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi16_rmk_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackuswb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0x67,0x0f]
	; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i16>, <8 x i16>* %ptr_b
	%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> %passThru
	ret <16 x i8> %3
	}

	define <16 x i8> @test_mask_packus_epi16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i16 %mask) {
	; CHECK-LABEL: test_mask_packus_epi16_rmkz_128:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackuswb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0x67,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <8 x i16>, <8 x i16>* %ptr_b
	%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %b)
	%2 = bitcast i16 %mask to <16 x i1>
	%3 = select <16 x i1> %2, <16 x i8> %1, <16 x i8> zeroinitializer
	ret <16 x i8> %3
	}

	declare <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16>, <8 x i16>)

	define <32 x i8> @test_mask_packus_epi16_rr_256(<16 x i16> %a, <16 x i16> %b) {
	; CHECK-LABEL: test_mask_packus_epi16_rr_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x67,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
	ret <32 x i8> %1
	}

	define <32 x i8> @test_mask_packus_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <32 x i8> %passThru, i32 %mask) {
	; CHECK-LABEL: test_mask_packus_epi16_rrk_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x67,0xd1]
	; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passThru
	ret <32 x i8> %3
	}

	define <32 x i8> @test_mask_packus_epi16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i32 %mask) {
	; CHECK-LABEL: test_mask_packus_epi16_rrkz_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpackuswb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x67,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
	ret <32 x i8> %3
	}

	define <32 x i8> @test_mask_packus_epi16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
	; CHECK-LABEL: test_mask_packus_epi16_rm_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: vpackuswb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x67,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <16 x i16>, <16 x i16>* %ptr_b
	%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
	ret <32 x i8> %1
	}

	define <32 x i8> @test_mask_packus_epi16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
	; CHECK-LABEL: test_mask_packus_epi16_rmk_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackuswb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0x67,0x0f]
	; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <16 x i16>, <16 x i16>* %ptr_b
	%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> %passThru
	ret <32 x i8> %3
	}

	define <32 x i8> @test_mask_packus_epi16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i32 %mask) {
	; CHECK-LABEL: test_mask_packus_epi16_rmkz_256:
	; CHECK: ## %bb.0:
	; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
	; CHECK-NEXT: vpackuswb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0x67,0x07]
	; CHECK-NEXT: retq ## encoding: [0xc3]
	%b = load <16 x i16>, <16 x i16>* %ptr_b
	%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
	%2 = bitcast i32 %mask to <32 x i1>
	%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
	ret <32 x i8> %3
	}

	declare <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16>, <16 x i16>)

	define <8 x i16> @test_mask_adds_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {			define <8 x i16> @test_mask_adds_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {
	; CHECK-LABEL: test_mask_adds_epi16_rr_128:			; CHECK-LABEL: test_mask_adds_epi16_rr_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xed,0xc1]			; CHECK-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xed,0xc1]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)			%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}
	▲ Show 20 Lines • Show All 1,719 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

	Show First 20 Lines • Show All 1,996 Lines • ▼ Show 20 Lines
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_packs_epi16:			; X64-LABEL: test_mm_packs_epi16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: packsswb %xmm1, %xmm0			; X64-NEXT: packsswb %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <8 x i16>			%arg0 = bitcast <2 x i64> %a0 to <8 x i16>
	%arg1 = bitcast <2 x i64> %a1 to <8 x i16>			%arg1 = bitcast <2 x i64> %a1 to <8 x i16>
	%res = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %arg0, <8 x i16> %arg1)			%1 = shufflevector <8 x i16> %arg0, <8 x i16> %arg1, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
				%2 = icmp slt <16 x i16> %1, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%4 = icmp sgt <16 x i16> %3, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%res = trunc <16 x i16> %5 to <16 x i8>
	%bc = bitcast <16 x i8> %res to <2 x i64>			%bc = bitcast <16 x i8> %res to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16>, <8 x i16>) nounwind readnone

	define <2 x i64> @test_mm_packs_epi32(<2 x i64> %a0, <2 x i64> %a1) {			define <2 x i64> @test_mm_packs_epi32(<2 x i64> %a0, <2 x i64> %a1) {
	; X32-LABEL: test_mm_packs_epi32:			; X32-LABEL: test_mm_packs_epi32:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: packssdw %xmm1, %xmm0			; X32-NEXT: packssdw %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_packs_epi32:			; X64-LABEL: test_mm_packs_epi32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: packssdw %xmm1, %xmm0			; X64-NEXT: packssdw %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <4 x i32>			%arg0 = bitcast <2 x i64> %a0 to <4 x i32>
	%arg1 = bitcast <2 x i64> %a1 to <4 x i32>			%arg1 = bitcast <2 x i64> %a1 to <4 x i32>
	%res = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %arg0, <4 x i32> %arg1)			%1 = shufflevector <4 x i32> %arg0, <4 x i32> %arg1, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
				%2 = icmp slt <8 x i32> %1, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%3 = select <8 x i1> %2, <8 x i32> %1, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%4 = icmp sgt <8 x i32> %3, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%res = trunc <8 x i32> %5 to <8 x i16>
	%bc = bitcast <8 x i16> %res to <2 x i64>			%bc = bitcast <8 x i16> %res to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32>, <4 x i32>) nounwind readnone

	define <2 x i64> @test_mm_packus_epi16(<2 x i64> %a0, <2 x i64> %a1) {			define <2 x i64> @test_mm_packus_epi16(<2 x i64> %a0, <2 x i64> %a1) {
	; X32-LABEL: test_mm_packus_epi16:			; X32-LABEL: test_mm_packus_epi16:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: packuswb %xmm1, %xmm0			; X32-NEXT: packuswb %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_packus_epi16:			; X64-LABEL: test_mm_packus_epi16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: packuswb %xmm1, %xmm0			; X64-NEXT: packuswb %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <8 x i16>			%arg0 = bitcast <2 x i64> %a0 to <8 x i16>
	%arg1 = bitcast <2 x i64> %a1 to <8 x i16>			%arg1 = bitcast <2 x i64> %a1 to <8 x i16>
	%res = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %arg0, <8 x i16> %arg1)			%1 = shufflevector <8 x i16> %arg0, <8 x i16> %arg1, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
				%2 = icmp slt <16 x i16> %1, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%3 = select <16 x i1> %2, <16 x i16> %1, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%4 = icmp sgt <16 x i16> %3, zeroinitializer
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> zeroinitializer
				%res = trunc <16 x i16> %5 to <16 x i8>
	%bc = bitcast <16 x i8> %res to <2 x i64>			%bc = bitcast <16 x i8> %res to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16>, <8 x i16>) nounwind readnone

	define void @test_mm_pause() nounwind {			define void @test_mm_pause() nounwind {
	; X32-LABEL: test_mm_pause:			; X32-LABEL: test_mm_pause:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: pause			; X32-NEXT: pause
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_pause:			; X64-LABEL: test_mm_pause:
	▲ Show 20 Lines • Show All 1,851 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/sse2-intrinsics-x86-upgrade.ll

	Show First 20 Lines • Show All 220 Lines • ▼ Show 20 Lines
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: divsd %xmm1, %xmm0			; CHECK-NEXT: divsd %xmm1, %xmm0
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	%res = call <2 x double> @llvm.x86.sse2.div.sd(<2 x double> %a0, <2 x double> %a1) ; <<2 x double>> [#uses=1]			%res = call <2 x double> @llvm.x86.sse2.div.sd(<2 x double> %a0, <2 x double> %a1) ; <<2 x double>> [#uses=1]
	ret <2 x double> %res			ret <2 x double> %res
	}			}
	declare <2 x double> @llvm.x86.sse2.div.sd(<2 x double>, <2 x double>) nounwind readnone			declare <2 x double> @llvm.x86.sse2.div.sd(<2 x double>, <2 x double>) nounwind readnone


				define <8 x i16> @test_x86_sse2_packssdw_128(<4 x i32> %a0, <4 x i32> %a1) {
				; CHECK-LABEL: test_x86_sse2_packssdw_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: packssdw %xmm1, %xmm0
				; CHECK-NEXT: retl
				%res = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a0, <4 x i32> %a1) ; <<8 x i16>> [#uses=1]
				ret <8 x i16> %res
				}
				declare <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32>, <4 x i32>) nounwind readnone


				define <8 x i16> @test_x86_sse2_packssdw_128_unary(<4 x i32> %a) {
				; CHECK-LABEL: test_x86_sse2_packssdw_128_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: packssdw %xmm0, %xmm0
				; CHECK-NEXT: retl
				%res = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %a) ; <<8 x i16>> [#uses=1]
				ret <8 x i16> %res
				}


				define <8 x i16> @test_x86_sse2_packssdw_128_fold() {
				; CHECK-LABEL: test_x86_sse2_packssdw_128_fold:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: movaps {{.*#+}} xmm0 = [0,0,0,0,32767,32767,65535,32768]
				; CHECK-NEXT: retl
				%res = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> zeroinitializer, <4 x i32> <i32 65535, i32 65536, i32 -1, i32 -131072>)
				ret <8 x i16> %res
				}


				define <16 x i8> @test_x86_sse2_packsswb_128(<8 x i16> %a0, <8 x i16> %a1) {
				; CHECK-LABEL: test_x86_sse2_packsswb_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: packsswb %xmm1, %xmm0
				; CHECK-NEXT: retl
				%res = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a0, <8 x i16> %a1) ; <<16 x i8>> [#uses=1]
				ret <16 x i8> %res
				}
				declare <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16>, <8 x i16>) nounwind readnone


				define <16 x i8> @test_x86_sse2_packsswb_128_unary(<8 x i16> %a) {
				; CHECK-LABEL: test_x86_sse2_packsswb_128_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: packsswb %xmm0, %xmm0
				; CHECK-NEXT: retl
				%res = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a, <8 x i16> %a) ; <<16 x i8>> [#uses=1]
				ret <16 x i8> %res
				}


				define <16 x i8> @test_x86_sse2_packsswb_128_fold() {
				; CHECK-LABEL: test_x86_sse2_packsswb_128_fold:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: movaps {{.*#+}} xmm0 = [0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0]
				; CHECK-NEXT: retl
				%res = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <8 x i16> zeroinitializer)
				ret <16 x i8> %res
				}


				define <16 x i8> @test_x86_sse2_packuswb_128(<8 x i16> %a0, <8 x i16> %a1) {
				; CHECK-LABEL: test_x86_sse2_packuswb_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: packuswb %xmm1, %xmm0
				; CHECK-NEXT: retl
				%res = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a0, <8 x i16> %a1) ; <<16 x i8>> [#uses=1]
				ret <16 x i8> %res
				}
				declare <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16>, <8 x i16>) nounwind readnone


				define <16 x i8> @test_x86_sse2_packuswb_128_unary(<8 x i16> %a) {
				; CHECK-LABEL: test_x86_sse2_packuswb_128_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: packuswb %xmm0, %xmm0
				; CHECK-NEXT: retl
				%res = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a, <8 x i16> %a) ; <<16 x i8>> [#uses=1]
				ret <16 x i8> %res
				}


				define <16 x i8> @test_x86_sse2_packuswb_128_fold() {
				; CHECK-LABEL: test_x86_sse2_packuswb_128_fold:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: movaps {{.*#+}} xmm0 = [0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0]
				; CHECK-NEXT: retl
				%res = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <8 x i16> zeroinitializer)
				ret <16 x i8> %res
				}


	define <16 x i8> @mm_avg_epu8(<16 x i8> %a0, <16 x i8> %a1) {			define <16 x i8> @mm_avg_epu8(<16 x i8> %a0, <16 x i8> %a1) {
	; CHECK-LABEL: mm_avg_epu8:			; CHECK-LABEL: mm_avg_epu8:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: pavgb %xmm1, %xmm0			; CHECK-NEXT: pavgb %xmm1, %xmm0
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	%res = call <16 x i8> @llvm.x86.sse2.pavg.b(<16 x i8> %a0, <16 x i8> %a1) ; <<16 x i8>> [#uses=1]			%res = call <16 x i8> @llvm.x86.sse2.pavg.b(<16 x i8> %a0, <16 x i8> %a1) ; <<16 x i8>> [#uses=1]
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}
	Show All 22 Lines

llvm/test/CodeGen/X86/sse2-intrinsics-x86.ll

	Show First 20 Lines • Show All 735 Lines • ▼ Show 20 Lines
	; VCHECK-NEXT: vmovmskpd %xmm0, %eax ## encoding: [0xc5,0xf9,0x50,0xc0]			; VCHECK-NEXT: vmovmskpd %xmm0, %eax ## encoding: [0xc5,0xf9,0x50,0xc0]
	; VCHECK-NEXT: retl ## encoding: [0xc3]			; VCHECK-NEXT: retl ## encoding: [0xc3]
	%res = call i32 @llvm.x86.sse2.movmsk.pd(<2 x double> %a0) ; <i32> [#uses=1]			%res = call i32 @llvm.x86.sse2.movmsk.pd(<2 x double> %a0) ; <i32> [#uses=1]
	ret i32 %res			ret i32 %res
	}			}
	declare i32 @llvm.x86.sse2.movmsk.pd(<2 x double>) nounwind readnone			declare i32 @llvm.x86.sse2.movmsk.pd(<2 x double>) nounwind readnone


	define <8 x i16> @test_x86_sse2_packssdw_128(<4 x i32> %a0, <4 x i32> %a1) {
	; SSE-LABEL: test_x86_sse2_packssdw_128:
	; SSE: ## %bb.0:
	; SSE-NEXT: packssdw %xmm1, %xmm0 ## encoding: [0x66,0x0f,0x6b,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_packssdw_128:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpackssdw %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0x6b,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_packssdw_128:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpackssdw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6b,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a0, <4 x i32> %a1) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res
	}
	declare <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32>, <4 x i32>) nounwind readnone


	define <8 x i16> @test_x86_sse2_packssdw_128_fold() {
	; SSE-LABEL: test_x86_sse2_packssdw_128_fold:
	; SSE: ## %bb.0:
	; SSE-NEXT: movaps {{.*#+}} xmm0 = [0,0,0,0,32767,32767,65535,32768]
	; SSE-NEXT: ## encoding: [0x0f,0x28,0x05,A,A,A,A]
	; SSE-NEXT: ## fixup A - offset: 3, value: LCPI35_0, kind: FK_Data_4
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_packssdw_128_fold:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vmovaps {{.*#+}} xmm0 = [0,0,0,0,32767,32767,65535,32768]
	; AVX2-NEXT: ## encoding: [0xc5,0xf8,0x28,0x05,A,A,A,A]
	; AVX2-NEXT: ## fixup A - offset: 4, value: LCPI35_0, kind: FK_Data_4
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_packssdw_128_fold:
	; SKX: ## %bb.0:
	; SKX-NEXT: vmovaps LCPI35_0, %xmm0 ## EVEX TO VEX Compression xmm0 = [0,0,0,0,32767,32767,65535,32768]
	; SKX-NEXT: ## encoding: [0xc5,0xf8,0x28,0x05,A,A,A,A]
	; SKX-NEXT: ## fixup A - offset: 4, value: LCPI35_0, kind: FK_Data_4
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> zeroinitializer, <4 x i32> <i32 65535, i32 65536, i32 -1, i32 -131072>)
	ret <8 x i16> %res
	}


	define <16 x i8> @test_x86_sse2_packsswb_128(<8 x i16> %a0, <8 x i16> %a1) {
	; SSE-LABEL: test_x86_sse2_packsswb_128:
	; SSE: ## %bb.0:
	; SSE-NEXT: packsswb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0x63,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_packsswb_128:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpacksswb %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0x63,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_packsswb_128:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpacksswb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x63,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %a0, <8 x i16> %a1) ; <<16 x i8>> [#uses=1]
	ret <16 x i8> %res
	}
	declare <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16>, <8 x i16>) nounwind readnone


	define <16 x i8> @test_x86_sse2_packsswb_128_fold() {
	; SSE-LABEL: test_x86_sse2_packsswb_128_fold:
	; SSE: ## %bb.0:
	; SSE-NEXT: movaps {{.*#+}} xmm0 = [0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0]
	; SSE-NEXT: ## encoding: [0x0f,0x28,0x05,A,A,A,A]
	; SSE-NEXT: ## fixup A - offset: 3, value: LCPI37_0, kind: FK_Data_4
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_packsswb_128_fold:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vmovaps {{.*#+}} xmm0 = [0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0]
	; AVX2-NEXT: ## encoding: [0xc5,0xf8,0x28,0x05,A,A,A,A]
	; AVX2-NEXT: ## fixup A - offset: 4, value: LCPI37_0, kind: FK_Data_4
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_packsswb_128_fold:
	; SKX: ## %bb.0:
	; SKX-NEXT: vmovaps LCPI37_0, %xmm0 ## EVEX TO VEX Compression xmm0 = [0,127,127,255,255,128,128,128,0,0,0,0,0,0,0,0]
	; SKX-NEXT: ## encoding: [0xc5,0xf8,0x28,0x05,A,A,A,A]
	; SKX-NEXT: ## fixup A - offset: 4, value: LCPI37_0, kind: FK_Data_4
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <8 x i16> zeroinitializer)
	ret <16 x i8> %res
	}


	define <16 x i8> @test_x86_sse2_packuswb_128(<8 x i16> %a0, <8 x i16> %a1) {
	; SSE-LABEL: test_x86_sse2_packuswb_128:
	; SSE: ## %bb.0:
	; SSE-NEXT: packuswb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0x67,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_packuswb_128:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0x67,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_packuswb_128:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpackuswb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x67,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %a0, <8 x i16> %a1) ; <<16 x i8>> [#uses=1]
	ret <16 x i8> %res
	}
	declare <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16>, <8 x i16>) nounwind readnone


	define <16 x i8> @test_x86_sse2_packuswb_128_fold() {
	; SSE-LABEL: test_x86_sse2_packuswb_128_fold:
	; SSE: ## %bb.0:
	; SSE-NEXT: movaps {{.*#+}} xmm0 = [0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; SSE-NEXT: ## encoding: [0x0f,0x28,0x05,A,A,A,A]
	; SSE-NEXT: ## fixup A - offset: 3, value: LCPI39_0, kind: FK_Data_4
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_packuswb_128_fold:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vmovaps {{.*#+}} xmm0 = [0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; AVX2-NEXT: ## encoding: [0xc5,0xf8,0x28,0x05,A,A,A,A]
	; AVX2-NEXT: ## fixup A - offset: 4, value: LCPI39_0, kind: FK_Data_4
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_packuswb_128_fold:
	; SKX: ## %bb.0:
	; SKX-NEXT: vmovaps LCPI39_0, %xmm0 ## EVEX TO VEX Compression xmm0 = [0,255,255,0,0,0,0,0,0,0,0,0,0,0,0,0]
	; SKX-NEXT: ## encoding: [0xc5,0xf8,0x28,0x05,A,A,A,A]
	; SKX-NEXT: ## fixup A - offset: 4, value: LCPI39_0, kind: FK_Data_4
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <8 x i16> zeroinitializer)
	ret <16 x i8> %res
	}


	define <16 x i8> @test_x86_sse2_padds_b(<16 x i8> %a0, <16 x i8> %a1) {			define <16 x i8> @test_x86_sse2_padds_b(<16 x i8> %a0, <16 x i8> %a1) {
	; SSE-LABEL: test_x86_sse2_padds_b:			; SSE-LABEL: test_x86_sse2_padds_b:
	; SSE: ## %bb.0:			; SSE: ## %bb.0:
	; SSE-NEXT: paddsb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xec,0xc1]			; SSE-NEXT: paddsb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xec,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]			; SSE-NEXT: retl ## encoding: [0xc3]
	;			;
	; AVX2-LABEL: test_x86_sse2_padds_b:			; AVX2-LABEL: test_x86_sse2_padds_b:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	▲ Show 20 Lines • Show All 962 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/sse41-intrinsics-fast-isel.ll

	Show First 20 Lines • Show All 841 Lines • ▼ Show 20 Lines
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_packus_epi32:			; X64-LABEL: test_mm_packus_epi32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: packusdw %xmm1, %xmm0			; X64-NEXT: packusdw %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <4 x i32>			%arg0 = bitcast <2 x i64> %a0 to <4 x i32>
	%arg1 = bitcast <2 x i64> %a1 to <4 x i32>			%arg1 = bitcast <2 x i64> %a1 to <4 x i32>
	%res = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %arg0, <4 x i32> %arg1)			%1 = shufflevector <4 x i32> %arg0, <4 x i32> %arg1, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
				%2 = icmp slt <8 x i32> %1, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%3 = select <8 x i1> %2, <8 x i32> %1, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%4 = icmp sgt <8 x i32> %3, zeroinitializer
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> zeroinitializer
				%res = trunc <8 x i32> %5 to <8 x i16>
	%bc = bitcast <8 x i16> %res to <2 x i64>			%bc = bitcast <8 x i16> %res to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32>, <4 x i32>) nounwind readnone

	define <2 x double> @test_mm_round_pd(<2 x double> %a0) {			define <2 x double> @test_mm_round_pd(<2 x double> %a0) {
	; X32-LABEL: test_mm_round_pd:			; X32-LABEL: test_mm_round_pd:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: roundpd $4, %xmm0, %xmm0			; X32-NEXT: roundpd $4, %xmm0, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_round_pd:			; X64-LABEL: test_mm_round_pd:
	▲ Show 20 Lines • Show All 178 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/sse41-intrinsics-x86-upgrade.ll

	Show First 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: mpsadbw $7, %xmm1, %xmm0			; CHECK-NEXT: mpsadbw $7, %xmm1, %xmm0
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	%res = call <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8> %a0, <16 x i8> %a1, i32 7) ; <<8 x i16>> [#uses=1]			%res = call <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8> %a0, <16 x i8> %a1, i32 7) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}
	declare <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8>, <16 x i8>, i32) nounwind readnone			declare <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8>, <16 x i8>, i32) nounwind readnone


				define <8 x i16> @test_x86_sse41_packusdw(<4 x i32> %a0, <4 x i32> %a1) {
				; CHECK-LABEL: test_x86_sse41_packusdw:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: packusdw %xmm1, %xmm0
				; CHECK-NEXT: retl
				%res = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a0, <4 x i32> %a1) ; <<8 x i16>> [#uses=1]
				ret <8 x i16> %res
				}
				declare <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32>, <4 x i32>) nounwind readnone


				define <8 x i16> @test_x86_sse41_packusdw_unary(<4 x i32> %a) {
				; CHECK-LABEL: test_x86_sse41_packusdw_unary:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: packusdw %xmm0, %xmm0
				; CHECK-NEXT: retl
				%res = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a, <4 x i32> %a) ; <<8 x i16>> [#uses=1]
				ret <8 x i16> %res
				}


				define <8 x i16> @test_x86_sse41_packusdw_fold() {
				; CHECK-LABEL: test_x86_sse41_packusdw_fold:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: movaps {{.*#+}} xmm0 = [0,0,0,0,65535,65535,0,0]
				; CHECK-NEXT: retl
				%res = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> zeroinitializer, <4 x i32> <i32 65535, i32 65536, i32 -1, i32 -131072>)
				ret <8 x i16> %res
				}


	define <8 x i16> @test_x86_sse41_pblendw(<8 x i16> %a0, <8 x i16> %a1) {			define <8 x i16> @test_x86_sse41_pblendw(<8 x i16> %a0, <8 x i16> %a1) {
	; CHECK-LABEL: test_x86_sse41_pblendw:			; CHECK-LABEL: test_x86_sse41_pblendw:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[3,4,5,6,7]			; CHECK-NEXT: pblendw {{.*#+}} xmm0 = xmm1[0,1,2],xmm0[3,4,5,6,7]
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	%res = call <8 x i16> @llvm.x86.sse41.pblendw(<8 x i16> %a0, <8 x i16> %a1, i32 7) ; <<8 x i16>> [#uses=1]			%res = call <8 x i16> @llvm.x86.sse41.pblendw(<8 x i16> %a0, <8 x i16> %a1, i32 7) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}
	▲ Show 20 Lines • Show All 224 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/sse41-intrinsics-x86.ll

	Show First 20 Lines • Show All 108 Lines • ▼ Show 20 Lines
	; VCHECK-NEXT: vmpsadbw $7, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x42,0xc1,0x07]			; VCHECK-NEXT: vmpsadbw $7, %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe3,0x79,0x42,0xc1,0x07]
	; VCHECK-NEXT: retl ## encoding: [0xc3]			; VCHECK-NEXT: retl ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8> %a0, <16 x i8> %a1, i8 7) ; <<8 x i16>> [#uses=1]			%res = call <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8> %a0, <16 x i8> %a1, i8 7) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}
	declare <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8>, <16 x i8>, i8) nounwind readnone			declare <8 x i16> @llvm.x86.sse41.mpsadbw(<16 x i8>, <16 x i8>, i8) nounwind readnone


	define <8 x i16> @test_x86_sse41_packusdw(<4 x i32> %a0, <4 x i32> %a1) {
	; SSE41-LABEL: test_x86_sse41_packusdw:
	; SSE41: ## %bb.0:
	; SSE41-NEXT: packusdw %xmm1, %xmm0 ## encoding: [0x66,0x0f,0x38,0x2b,0xc1]
	; SSE41-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse41_packusdw:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpackusdw %xmm1, %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x2b,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse41_packusdw:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpackusdw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x2b,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %a0, <4 x i32> %a1) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res
	}
	declare <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32>, <4 x i32>) nounwind readnone


	define <8 x i16> @test_x86_sse41_packusdw_fold() {
	; SSE41-LABEL: test_x86_sse41_packusdw_fold:
	; SSE41: ## %bb.0:
	; SSE41-NEXT: movaps {{.*#+}} xmm0 = [0,0,0,0,65535,65535,0,0]
	; SSE41-NEXT: ## encoding: [0x0f,0x28,0x05,A,A,A,A]
	; SSE41-NEXT: ## fixup A - offset: 3, value: LCPI7_0, kind: FK_Data_4
	; SSE41-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse41_packusdw_fold:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vmovaps {{.*#+}} xmm0 = [0,0,0,0,65535,65535,0,0]
	; AVX2-NEXT: ## encoding: [0xc5,0xf8,0x28,0x05,A,A,A,A]
	; AVX2-NEXT: ## fixup A - offset: 4, value: LCPI7_0, kind: FK_Data_4
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse41_packusdw_fold:
	; SKX: ## %bb.0:
	; SKX-NEXT: vmovaps LCPI7_0, %xmm0 ## EVEX TO VEX Compression xmm0 = [0,0,0,0,65535,65535,0,0]
	; SKX-NEXT: ## encoding: [0xc5,0xf8,0x28,0x05,A,A,A,A]
	; SKX-NEXT: ## fixup A - offset: 4, value: LCPI7_0, kind: FK_Data_4
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> zeroinitializer, <4 x i32> <i32 65535, i32 65536, i32 -1, i32 -131072>)
	ret <8 x i16> %res
	}
	RKSimonUnsubmitted Not Done Reply Inline Actions Please can you leave these tests for now - add a FIXME comment about this PACKS being upgraded if you wish. RKSimon: Please can you leave these tests for now - add a FIXME comment about this PACKS being upgraded…


	define <16 x i8> @test_x86_sse41_pblendvb(<16 x i8> %a0, <16 x i8> %a1, <16 x i8> %a2) {			define <16 x i8> @test_x86_sse41_pblendvb(<16 x i8> %a0, <16 x i8> %a1, <16 x i8> %a2) {
	; SSE41-LABEL: test_x86_sse41_pblendvb:			; SSE41-LABEL: test_x86_sse41_pblendvb:
	; SSE41: ## %bb.0:			; SSE41: ## %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm3 ## encoding: [0x66,0x0f,0x6f,0xd8]			; SSE41-NEXT: movdqa %xmm0, %xmm3 ## encoding: [0x66,0x0f,0x6f,0xd8]
	; SSE41-NEXT: movaps %xmm2, %xmm0 ## encoding: [0x0f,0x28,0xc2]			; SSE41-NEXT: movaps %xmm2, %xmm0 ## encoding: [0x0f,0x28,0xc2]
	; SSE41-NEXT: pblendvb %xmm0, %xmm1, %xmm3 ## encoding: [0x66,0x0f,0x38,0x10,0xd9]			; SSE41-NEXT: pblendvb %xmm0, %xmm1, %xmm3 ## encoding: [0x66,0x0f,0x38,0x10,0xd9]
	; SSE41-NEXT: movdqa %xmm3, %xmm0 ## encoding: [0x66,0x0f,0x6f,0xc3]			; SSE41-NEXT: movdqa %xmm3, %xmm0 ## encoding: [0x66,0x0f,0x6f,0xc3]
	; SSE41-NEXT: retl ## encoding: [0xc3]			; SSE41-NEXT: retl ## encoding: [0xc3]
	▲ Show 20 Lines • Show All 361 Lines • Show Last 20 Lines

llvm/test/Instrumentation/MemorySanitizer/vector_pack.ll

	; RUN: opt < %s -msan -msan-check-access-address=0 -S \| FileCheck %s			; RUN: opt < %s -msan -msan-check-access-address=0 -S \| FileCheck %s
	; REQUIRES: x86-registered-target			; REQUIRES: x86-registered-target

	target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-s0:64:64-f80:128:128-n8:16:32:64-S128"			target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-s0:64:64-f80:128:128-n8:16:32:64-S128"
	target triple = "x86_64-unknown-linux-gnu"			target triple = "x86_64-unknown-linux-gnu"

	declare <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32>, <4 x i32>) nounwind readnone
	declare <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b) nounwind readnone
	declare x86_mmx @llvm.x86.mmx.packuswb(x86_mmx, x86_mmx) nounwind readnone			declare x86_mmx @llvm.x86.mmx.packuswb(x86_mmx, x86_mmx) nounwind readnone

	define <8 x i16> @Test_packssdw_128(<4 x i32> %a, <4 x i32> %b) sanitize_memory {
	entry:
	%c = tail call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %a, <4 x i32> %b) nounwind
	ret <8 x i16> %c
	}

	; CHECK-LABEL: @Test_packssdw_128(
	; CHECK-DAG: icmp ne <4 x i32> {{.*}}, zeroinitializer
	; CHECK-DAG: sext <4 x i1> {{.*}} to <4 x i32>
	; CHECK-DAG: icmp ne <4 x i32> {{.*}}, zeroinitializer
	; CHECK-DAG: sext <4 x i1> {{.*}} to <4 x i32>
	; CHECK-DAG: call <8 x i16> @llvm.x86.sse2.packssdw.128(
	; CHECK-DAG: call <8 x i16> @llvm.x86.sse2.packssdw.128(
	; CHECK: ret <8 x i16>


	define <32 x i8> @Test_avx_packuswb(<16 x i16> %a, <16 x i16> %b) sanitize_memory {
	entry:
	%c = tail call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b) nounwind
	ret <32 x i8> %c
	}

	; CHECK-LABEL: @Test_avx_packuswb(
	; CHECK-DAG: icmp ne <16 x i16> {{.*}}, zeroinitializer
	; CHECK-DAG: sext <16 x i1> {{.*}} to <16 x i16>
	; CHECK-DAG: icmp ne <16 x i16> {{.*}}, zeroinitializer
	; CHECK-DAG: sext <16 x i1> {{.*}} to <16 x i16>
	; CHECK-DAG: call <32 x i8> @llvm.x86.avx2.packsswb(
	; CHECK-DAG: call <32 x i8> @llvm.x86.avx2.packuswb(
	; CHECK: ret <32 x i8>


	define x86_mmx @Test_mmx_packuswb(x86_mmx %a, x86_mmx %b) sanitize_memory {			define x86_mmx @Test_mmx_packuswb(x86_mmx %a, x86_mmx %b) sanitize_memory {
	entry:			entry:
	%c = tail call x86_mmx @llvm.x86.mmx.packuswb(x86_mmx %a, x86_mmx %b) nounwind			%c = tail call x86_mmx @llvm.x86.mmx.packuswb(x86_mmx %a, x86_mmx %b) nounwind
	ret x86_mmx %c			ret x86_mmx %c
	}			}

	; CHECK-LABEL: @Test_mmx_packuswb(			; CHECK-LABEL: @Test_mmx_packuswb(
	; CHECK-DAG: bitcast i64 {{.*}} to <4 x i16>			; CHECK-DAG: bitcast i64 {{.*}} to <4 x i16>
	Show All 11 Lines

llvm/test/Transforms/InstCombine/X86/x86-pack.ll

This file was deleted.

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt < %s -instcombine -S \| FileCheck %s

	;
	; UNDEF Elts
	;

	define <8 x i16> @undef_packssdw_128() {
	; CHECK-LABEL: @undef_packssdw_128(
	; CHECK-NEXT: ret <8 x i16> undef
	;
	%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> undef, <4 x i32> undef)
	ret <8 x i16> %1
	}

	define <8 x i16> @undef_packusdw_128() {
	; CHECK-LABEL: @undef_packusdw_128(
	; CHECK-NEXT: ret <8 x i16> undef
	;
	%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> undef, <4 x i32> undef)
	ret <8 x i16> %1
	}

	define <16 x i8> @undef_packsswb_128() {
	; CHECK-LABEL: @undef_packsswb_128(
	; CHECK-NEXT: ret <16 x i8> undef
	;
	%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> undef, <8 x i16> undef)
	ret <16 x i8> %1
	}

	define <16 x i8> @undef_packuswb_128() {
	; CHECK-LABEL: @undef_packuswb_128(
	; CHECK-NEXT: ret <16 x i8> undef
	;
	%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> undef, <8 x i16> undef)
	ret <16 x i8> %1
	}

	define <16 x i16> @undef_packssdw_256() {
	; CHECK-LABEL: @undef_packssdw_256(
	; CHECK-NEXT: ret <16 x i16> undef
	;
	%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> undef, <8 x i32> undef)
	ret <16 x i16> %1
	}

	define <16 x i16> @undef_packusdw_256() {
	; CHECK-LABEL: @undef_packusdw_256(
	; CHECK-NEXT: ret <16 x i16> undef
	;
	%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> undef, <8 x i32> undef)
	ret <16 x i16> %1
	}

	define <32 x i8> @undef_packsswb_256() {
	; CHECK-LABEL: @undef_packsswb_256(
	; CHECK-NEXT: ret <32 x i8> undef
	;
	%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> undef, <16 x i16> undef)
	ret <32 x i8> %1
	}

	define <32 x i8> @undef_packuswb_256() {
	; CHECK-LABEL: @undef_packuswb_256(
	; CHECK-NEXT: ret <32 x i8> undef
	;
	%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> undef, <16 x i16> undef)
	ret <32 x i8> %1
	}

	define <32 x i16> @undef_packssdw_512() {
	; CHECK-LABEL: @undef_packssdw_512(
	; CHECK-NEXT: ret <32 x i16> undef
	;
	%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> undef, <16 x i32> undef)
	ret <32 x i16> %1
	}

	define <32 x i16> @undef_packusdw_512() {
	; CHECK-LABEL: @undef_packusdw_512(
	; CHECK-NEXT: ret <32 x i16> undef
	;
	%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> undef, <16 x i32> undef)
	ret <32 x i16> %1
	}

	define <64 x i8> @undef_packsswb_512() {
	; CHECK-LABEL: @undef_packsswb_512(
	; CHECK-NEXT: ret <64 x i8> undef
	;
	%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> undef, <32 x i16> undef)
	ret <64 x i8> %1
	}

	define <64 x i8> @undef_packuswb_512() {
	; CHECK-LABEL: @undef_packuswb_512(
	; CHECK-NEXT: ret <64 x i8> undef
	;
	%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> undef, <32 x i16> undef)
	ret <64 x i8> %1
	}

	;
	; Constant Folding
	;

	define <8 x i16> @fold_packssdw_128() {
	; CHECK-LABEL: @fold_packssdw_128(
	; CHECK-NEXT: ret <8 x i16> <i16 0, i16 -1, i16 32767, i16 -32768, i16 0, i16 0, i16 0, i16 0>
	;
	%1 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> <i32 0, i32 -1, i32 65536, i32 -131072>, <4 x i32> zeroinitializer)
	ret <8 x i16> %1
	}

	define <8 x i16> @fold_packusdw_128() {
	; CHECK-LABEL: @fold_packusdw_128(
	; CHECK-NEXT: ret <8 x i16> <i16 undef, i16 undef, i16 undef, i16 undef, i16 0, i16 0, i16 -32768, i16 -1>
	;
	%1 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> undef, <4 x i32> <i32 0, i32 -1, i32 32768, i32 65537>)
	ret <8 x i16> %1
	}

	define <16 x i8> @fold_packsswb_128() {
	; CHECK-LABEL: @fold_packsswb_128(
	; CHECK-NEXT: ret <16 x i8> <i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef>
	;
	%1 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> zeroinitializer, <8 x i16> undef)
	ret <16 x i8> %1
	}

	define <16 x i8> @fold_packuswb_128() {
	; CHECK-LABEL: @fold_packuswb_128(
	; CHECK-NEXT: ret <16 x i8> <i8 0, i8 1, i8 0, i8 -1, i8 0, i8 0, i8 0, i8 15, i8 0, i8 127, i8 0, i8 1, i8 0, i8 1, i8 0, i8 0>
	;
	%1 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> <i16 0, i16 1, i16 -1, i16 255, i16 65535, i16 -32768, i16 -127, i16 15>, <8 x i16> <i16 -15, i16 127, i16 32768, i16 -65535, i16 -255, i16 1, i16 -1, i16 0>)
	ret <16 x i8> %1
	}

	define <16 x i16> @fold_packssdw_256() {
	; CHECK-LABEL: @fold_packssdw_256(
	; CHECK-NEXT: ret <16 x i16> <i16 0, i16 256, i16 32767, i16 -32768, i16 undef, i16 undef, i16 undef, i16 undef, i16 -127, i16 -32768, i16 -32767, i16 32767, i16 undef, i16 undef, i16 undef, i16 undef>
	;
	%1 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> <i32 0, i32 256, i32 65535, i32 -65536, i32 -127, i32 -32768, i32 -32767, i32 32767>, <8 x i32> undef)
	ret <16 x i16> %1
	}

	define <16 x i16> @fold_packusdw_256() {
	; CHECK-LABEL: @fold_packusdw_256(
	; CHECK-NEXT: ret <16 x i16> <i16 0, i16 0, i16 0, i16 -1, i16 0, i16 256, i16 -1, i16 0, i16 127, i16 -32768, i16 32767, i16 0, i16 0, i16 0, i16 0, i16 32767>
	;
	%1 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> <i32 0, i32 -256, i32 -65535, i32 65536, i32 127, i32 32768, i32 32767, i32 -32767>, <8 x i32> <i32 0, i32 256, i32 65535, i32 -65536, i32 -127, i32 -32768, i32 -32767, i32 32767>)
	ret <16 x i16> %1
	}

	define <32 x i8> @fold_packsswb_256() {
	; CHECK-LABEL: @fold_packsswb_256(
	; CHECK-NEXT: ret <32 x i8> <i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0>
	;
	%1 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> undef, <16 x i16> zeroinitializer)
	ret <32 x i8> %1
	}

	define <32 x i8> @fold_packuswb_256() {
	; CHECK-LABEL: @fold_packuswb_256(
	; CHECK-NEXT: ret <32 x i8> <i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64>
	;
	%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> zeroinitializer, <16 x i16> <i16 0, i16 -127, i16 -128, i16 -32768, i16 65536, i16 255, i16 256, i16 512, i16 -1, i16 1, i16 2, i16 4, i16 8, i16 16, i16 32, i16 64>)
	ret <32 x i8> %1
	}

	define <32 x i16> @fold_packssdw_512() {
	; CHECK-LABEL: @fold_packssdw_512(
	; CHECK-NEXT: ret <32 x i16> <i16 0, i16 512, i16 32767, i16 -32768, i16 undef, i16 undef, i16 undef, i16 undef, i16 -127, i16 -32768, i16 -32767, i16 32767, i16 undef, i16 undef, i16 undef, i16 undef, i16 0, i16 512, i16 32767, i16 -32768, i16 undef, i16 undef, i16 undef, i16 undef, i16 -127, i16 -32768, i16 -32767, i16 32767, i16 undef, i16 undef, i16 undef, i16 undef>
	;
	%1 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> <i32 0, i32 512, i32 65535, i32 -65536, i32 -127, i32 -32768, i32 -32767, i32 32767, i32 0, i32 512, i32 65535, i32 -65536, i32 -127, i32 -32768, i32 -32767, i32 32767>, <16 x i32> undef)
	ret <32 x i16> %1
	}

	define <32 x i16> @fold_packusdw_512() {
	; CHECK-LABEL: @fold_packusdw_512(
	; CHECK-NEXT: ret <32 x i16> <i16 0, i16 0, i16 0, i16 -1, i16 0, i16 512, i16 -1, i16 0, i16 127, i16 -32768, i16 32767, i16 0, i16 0, i16 0, i16 0, i16 32767, i16 0, i16 0, i16 0, i16 -1, i16 0, i16 512, i16 -1, i16 0, i16 127, i16 -32768, i16 32767, i16 0, i16 0, i16 0, i16 0, i16 32767>
	;
	%1 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> <i32 0, i32 -512, i32 -65535, i32 65536, i32 127, i32 32768, i32 32767, i32 -32767, i32 0, i32 -512, i32 -65535, i32 65536, i32 127, i32 32768, i32 32767, i32 -32767>, <16 x i32> <i32 0, i32 512, i32 65535, i32 -65536, i32 -127, i32 -32768, i32 -32767, i32 32767, i32 0, i32 512, i32 65535, i32 -65536, i32 -127, i32 -32768, i32 -32767, i32 32767>)
	ret <32 x i16> %1
	}

	define <64 x i8> @fold_packsswb_512() {
	; CHECK-LABEL: @fold_packsswb_512(
	; CHECK-NEXT: ret <64 x i8> <i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 undef, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0>
	;
	%1 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> undef, <32 x i16> zeroinitializer)
	ret <64 x i8> %1
	}

	define <64 x i8> @fold_packuswb_512() {
	; CHECK-LABEL: @fold_packuswb_512(
	; CHECK-NEXT: ret <64 x i8> <i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 -1, i8 -1, i8 -1, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 0, i8 1, i8 2, i8 4, i8 8, i8 16, i8 32, i8 64>
	;
	%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> zeroinitializer, <32 x i16> <i16 0, i16 -127, i16 -128, i16 -32768, i16 65536, i16 255, i16 512, i16 512, i16 -1, i16 1, i16 2, i16 4, i16 8, i16 16, i16 32, i16 64, i16 0, i16 -127, i16 -128, i16 -32768, i16 65536, i16 255, i16 512, i16 512, i16 -1, i16 1, i16 2, i16 4, i16 8, i16 16, i16 32, i16 64>)
	ret <64 x i8> %1
	}

	;
	; Demanded Elts
	;

	define <8 x i16> @elts_packssdw_128(<4 x i32> %a0, <4 x i32> %a1) {
	; CHECK-LABEL: @elts_packssdw_128(
	; CHECK-NEXT: [[TMP1:%.]] = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> [[A0:%.]], <4 x i32> undef)
	; CHECK-NEXT: [[TMP2:%.*]] = shufflevector <8 x i16> [[TMP1]], <8 x i16> undef, <8 x i32> <i32 1, i32 1, i32 1, i32 1, i32 undef, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: ret <8 x i16> [[TMP2]]
	;
	%1 = shufflevector <4 x i32> %a0, <4 x i32> undef, <4 x i32> <i32 3, i32 1, i32 undef, i32 undef>
	%2 = shufflevector <4 x i32> %a1, <4 x i32> undef, <4 x i32> <i32 undef, i32 2, i32 1, i32 undef>
	%3 = call <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32> %1, <4 x i32> %2)
	%4 = shufflevector <8 x i16> %3, <8 x i16> undef, <8 x i32> <i32 1, i32 1, i32 1, i32 1, i32 7, i32 7, i32 7, i32 7>
	ret <8 x i16> %4
	}

	define <8 x i16> @elts_packusdw_128(<4 x i32> %a0, <4 x i32> %a1) {
	; CHECK-LABEL: @elts_packusdw_128(
	; CHECK-NEXT: [[TMP1:%.]] = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> [[A0:%.]], <4 x i32> [[A1:%.*]])
	; CHECK-NEXT: ret <8 x i16> [[TMP1]]
	;
	%1 = insertelement <4 x i32> %a0, i32 0, i32 0
	%2 = insertelement <4 x i32> %a1, i32 0, i32 3
	%3 = call <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32> %1, <4 x i32> %2)
	%4 = shufflevector <8 x i16> %3, <8 x i16> undef, <8 x i32> <i32 undef, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 undef>
	ret <8 x i16> %4
	}

	define <16 x i8> @elts_packsswb_128(<8 x i16> %a0, <8 x i16> %a1) {
	; CHECK-LABEL: @elts_packsswb_128(
	; CHECK-NEXT: ret <16 x i8> zeroinitializer
	;
	%1 = insertelement <8 x i16> %a0, i16 0, i32 0
	%2 = insertelement <8 x i16> %a1, i16 0, i32 0
	%3 = call <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16> %1, <8 x i16> %2)
	%4 = shufflevector <16 x i8> %3, <16 x i8> undef, <16 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 8, i32 8, i32 8, i32 8, i32 8, i32 8, i32 8, i32 8>
	ret <16 x i8> %4
	}

	define <16 x i8> @elts_packuswb_128(<8 x i16> %a0, <8 x i16> %a1) {
	; CHECK-LABEL: @elts_packuswb_128(
	; CHECK-NEXT: ret <16 x i8> undef
	;
	%1 = insertelement <8 x i16> undef, i16 0, i32 0
	%2 = insertelement <8 x i16> undef, i16 0, i32 0
	%3 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %1, <8 x i16> %2)
	%4 = shufflevector <16 x i8> %3, <16 x i8> undef, <16 x i32> <i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 15, i32 15, i32 15, i32 15, i32 15, i32 15, i32 15, i32 15>
	ret <16 x i8> %4
	}

	define <16 x i16> @elts_packssdw_256(<8 x i32> %a0, <8 x i32> %a1) {
	; CHECK-LABEL: @elts_packssdw_256(
	; CHECK-NEXT: [[TMP1:%.]] = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> [[A0:%.]], <8 x i32> undef)
	; CHECK-NEXT: ret <16 x i16> [[TMP1]]
	;
	%1 = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 1, i32 0, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	%2 = shufflevector <8 x i32> %a1, <8 x i32> undef, <8 x i32> <i32 undef, i32 2, i32 1, i32 undef, i32 undef, i32 6, i32 5, i32 undef>
	%3 = call <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32> %1, <8 x i32> %2)
	%4 = shufflevector <16 x i16> %3, <16 x i16> undef, <16 x i32> <i32 undef, i32 undef, i32 2, i32 3, i32 4, i32 undef, i32 undef, i32 7, i32 8, i32 undef, i32 undef, i32 11, i32 12, i32 undef, i32 undef, i32 15>
	ret <16 x i16> %4
	}

	define <16 x i16> @elts_packusdw_256(<8 x i32> %a0, <8 x i32> %a1) {
	; CHECK-LABEL: @elts_packusdw_256(
	; CHECK-NEXT: [[TMP1:%.]] = shufflevector <8 x i32> [[A1:%.]], <8 x i32> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
	; CHECK-NEXT: [[TMP2:%.*]] = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> undef, <8 x i32> [[TMP1]])
	; CHECK-NEXT: [[TMP3:%.*]] = shufflevector <16 x i16> [[TMP2]], <16 x i16> undef, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: ret <16 x i16> [[TMP3]]
	;
	%1 = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	%2 = shufflevector <8 x i32> %a1, <8 x i32> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
	%3 = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> %1, <8 x i32> %2)
	%4 = shufflevector <16 x i16> %3, <16 x i16> undef, <16 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <16 x i16> %4
	}

	define <32 x i8> @elts_packsswb_256(<16 x i16> %a0, <16 x i16> %a1) {
	; CHECK-LABEL: @elts_packsswb_256(
	; CHECK-NEXT: ret <32 x i8> zeroinitializer
	;
	%1 = insertelement <16 x i16> %a0, i16 0, i32 0
	%2 = insertelement <16 x i16> %a1, i16 0, i32 8
	%3 = call <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16> %1, <16 x i16> %2)
	%4 = shufflevector <32 x i8> %3, <32 x i8> undef, <32 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24>
	ret <32 x i8> %4
	}

	define <32 x i8> @elts_packuswb_256(<16 x i16> %a0, <16 x i16> %a1) {
	; CHECK-LABEL: @elts_packuswb_256(
	; CHECK-NEXT: ret <32 x i8> undef
	;
	%1 = insertelement <16 x i16> undef, i16 0, i32 1
	%2 = insertelement <16 x i16> undef, i16 0, i32 0
	%3 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %1, <16 x i16> %2)
	%4 = shufflevector <32 x i8> %3, <32 x i8> undef, <32 x i32> zeroinitializer
	ret <32 x i8> %4
	}

	define <32 x i16> @elts_packssdw_512(<16 x i32> %a0, <16 x i32> %a1) {
	; CHECK-LABEL: @elts_packssdw_512(
	; CHECK-NEXT: [[TMP1:%.]] = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> [[A0:%.]], <16 x i32> undef)
	; CHECK-NEXT: ret <32 x i16> [[TMP1]]
	;
	%1 = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 1, i32 0, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 9, i32 8, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%2 = shufflevector <16 x i32> %a1, <16 x i32> undef, <16 x i32> <i32 undef, i32 2, i32 1, i32 undef, i32 undef, i32 6, i32 5, i32 undef, i32 undef, i32 10, i32 9, i32 undef, i32 undef, i32 14, i32 13, i32 undef>
	%3 = call <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32> %1, <16 x i32> %2)
	%4 = shufflevector <32 x i16> %3, <32 x i16> undef, <32 x i32> <i32 undef, i32 undef, i32 2, i32 3, i32 4, i32 undef, i32 undef, i32 7, i32 8, i32 undef, i32 undef, i32 11, i32 12, i32 undef, i32 undef, i32 15, i32 undef, i32 undef, i32 18, i32 19, i32 20, i32 undef, i32 undef, i32 23, i32 24, i32 undef, i32 undef, i32 27, i32 28, i32 undef, i32 undef, i32 31>
	ret <32 x i16> %4
	}

	define <32 x i16> @elts_packusdw_512(<16 x i32> %a0, <16 x i32> %a1) {
	; CHECK-LABEL: @elts_packusdw_512(
	; CHECK-NEXT: [[TMP1:%.]] = shufflevector <16 x i32> [[A1:%.]], <16 x i32> undef, <16 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8>
	; CHECK-NEXT: [[TMP2:%.*]] = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> undef, <16 x i32> [[TMP1]])
	; CHECK-NEXT: [[TMP3:%.*]] = shufflevector <32 x i16> [[TMP2]], <32 x i16> undef, <32 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 20, i32 21, i32 22, i32 23, i32 undef, i32 undef, i32 undef, i32 undef, i32 28, i32 29, i32 30, i32 31, i32 undef, i32 undef, i32 undef, i32 undef>
	; CHECK-NEXT: ret <32 x i16> [[TMP3]]
	;
	%1 = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%2 = shufflevector <16 x i32> %a1, <16 x i32> undef, <16 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8>
	%3 = call <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32> %1, <16 x i32> %2)
	%4 = shufflevector <32 x i16> %3, <32 x i16> undef, <32 x i32> <i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 12, i32 13, i32 14, i32 15, i32 undef, i32 undef, i32 undef, i32 undef, i32 20, i32 21, i32 22, i32 23, i32 undef, i32 undef, i32 undef, i32 undef, i32 28, i32 29, i32 30, i32 31, i32 undef, i32 undef, i32 undef, i32 undef>
	ret <32 x i16> %4
	}

	define <64 x i8> @elts_packsswb_512(<32 x i16> %a0, <32 x i16> %a1) {
	; CHECK-LABEL: @elts_packsswb_512(
	; CHECK-NEXT: ret <64 x i8> zeroinitializer
	;
	%1 = insertelement <32 x i16> %a0, i16 0, i32 0
	%2 = insertelement <32 x i16> %a1, i16 0, i32 8
	%3 = insertelement <32 x i16> %1, i16 0, i32 16
	%4 = insertelement <32 x i16> %2, i16 0, i32 24
	%5 = call <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16> %3, <32 x i16> %4)
	%6 = shufflevector <64 x i8> %5, <64 x i8> undef, <64 x i32> <i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 0, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 24, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 32, i32 56, i32 56, i32 56, i32 56, i32 56, i32 56, i32 56, i32 56, i32 56, i32 56, i32 56, i32 56, i32 56, i32 56, i32 56, i32 56>
	ret <64 x i8> %6
	}

	define <64 x i8> @elts_packuswb_512(<32 x i16> %a0, <32 x i16> %a1) {
	; CHECK-LABEL: @elts_packuswb_512(
	; CHECK-NEXT: ret <64 x i8> undef
	;
	%1 = insertelement <32 x i16> undef, i16 0, i32 1
	%2 = insertelement <32 x i16> undef, i16 0, i32 0
	%3 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %1, <32 x i16> %2)
	%4 = shufflevector <64 x i8> %3, <64 x i8> undef, <64 x i32> zeroinitializer
	ret <64 x i8> %4
	}

	declare <8 x i16> @llvm.x86.sse2.packssdw.128(<4 x i32>, <4 x i32>) nounwind readnone
	declare <16 x i8> @llvm.x86.sse2.packsswb.128(<8 x i16>, <8 x i16>) nounwind readnone
	declare <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16>, <8 x i16>) nounwind readnone
	declare <8 x i16> @llvm.x86.sse41.packusdw(<4 x i32>, <4 x i32>) nounwind readnone

	declare <16 x i16> @llvm.x86.avx2.packssdw(<8 x i32>, <8 x i32>) nounwind readnone
	declare <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32>, <8 x i32>) nounwind readnone
	declare <32 x i8> @llvm.x86.avx2.packsswb(<16 x i16>, <16 x i16>) nounwind readnone
	declare <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16>, <16 x i16>) nounwind readnone

	declare <32 x i16> @llvm.x86.avx512.packssdw.512(<16 x i32>, <16 x i32>) nounwind readnone
	declare <32 x i16> @llvm.x86.avx512.packusdw.512(<16 x i32>, <16 x i32>) nounwind readnone
	declare <64 x i8> @llvm.x86.avx512.packsswb.512(<32 x i16>, <32 x i16>) nounwind readnone
	declare <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16>, <32 x i16>) nounwind readnone

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Lowering PACK*S (pack with saturation) intrinsics to native IR (LLVM side)
AbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 145441

llvm/include/llvm/IR/IntrinsicsX86.td

llvm/lib/IR/AutoUpgrade.cpp

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86IntrinsicsInfo.h

llvm/lib/Transforms/InstCombine/InstCombineCalls.cpp

llvm/lib/Transforms/InstCombine/InstCombineSimplifyDemanded.cpp

llvm/lib/Transforms/Instrumentation/MemorySanitizer.cpp

llvm/test/CodeGen/X86/avx2-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/avx2-intrinsics-x86-upgrade.ll

llvm/test/CodeGen/X86/avx2-intrinsics-x86.ll

llvm/test/CodeGen/X86/avx512bw-intrinsics-upgrade.ll

llvm/test/CodeGen/X86/avx512bw-intrinsics.ll

llvm/test/CodeGen/X86/avx512bwvl-intrinsics-upgrade.ll

llvm/test/CodeGen/X86/avx512bwvl-intrinsics.ll

llvm/test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/sse2-intrinsics-x86-upgrade.ll

llvm/test/CodeGen/X86/sse2-intrinsics-x86.ll

llvm/test/CodeGen/X86/sse41-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/sse41-intrinsics-x86-upgrade.ll

llvm/test/CodeGen/X86/sse41-intrinsics-x86.ll

llvm/test/Instrumentation/MemorySanitizer/vector_pack.ll

llvm/test/Transforms/InstCombine/X86/x86-pack.ll

This is an archive of the discontinued LLVM Phabricator instance.

[X86] Lowering PACK*S (pack with saturation) intrinsics to native IR (LLVM side)AbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 145441

llvm/include/llvm/IR/IntrinsicsX86.td

llvm/lib/IR/AutoUpgrade.cpp

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86IntrinsicsInfo.h

llvm/lib/Transforms/InstCombine/InstCombineCalls.cpp

llvm/lib/Transforms/InstCombine/InstCombineSimplifyDemanded.cpp

llvm/lib/Transforms/Instrumentation/MemorySanitizer.cpp

llvm/test/CodeGen/X86/avx2-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/avx2-intrinsics-x86-upgrade.ll

llvm/test/CodeGen/X86/avx2-intrinsics-x86.ll

llvm/test/CodeGen/X86/avx512bw-intrinsics-upgrade.ll

llvm/test/CodeGen/X86/avx512bw-intrinsics.ll

llvm/test/CodeGen/X86/avx512bwvl-intrinsics-upgrade.ll

llvm/test/CodeGen/X86/avx512bwvl-intrinsics.ll

llvm/test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/sse2-intrinsics-x86-upgrade.ll

llvm/test/CodeGen/X86/sse2-intrinsics-x86.ll

llvm/test/CodeGen/X86/sse41-intrinsics-fast-isel.ll

llvm/test/CodeGen/X86/sse41-intrinsics-x86-upgrade.ll

llvm/test/CodeGen/X86/sse41-intrinsics-x86.ll

llvm/test/Instrumentation/MemorySanitizer/vector_pack.ll

llvm/test/Transforms/InstCombine/X86/x86-pack.ll

[X86] Lowering PACK*S (pack with saturation) intrinsics to native IR (LLVM side)
AbandonedPublic