This is an archive of the discontinued LLVM Phabricator instance.

[AVX-512][InstCombine] Teach InstCombine to converted masked vpermv intrinsics into shufflevector instructions
ClosedPublic

Authored by craig.topper on Dec 15 2016, 1:13 PM.

Download Raw Diff

Details

Reviewers

spatel
RKSimon
zvi
delena

Commits

rGe32804571171: [AVX-512][InstCombine] Teach InstCombine to converted masked vpermv intrinsics…
rL290530: [AVX-512][InstCombine] Teach InstCombine to converted masked vpermv intrinsics…

Summary

This patch adds support for converting the masked vpermv intrinsics into shufflevector instructions if the indices are constants.

We also need to wrap a select instruction around the shuffle to take care of the masking part. InstCombine will take care of optimizing the select if the mask is constant so I didn't bother checking for that.

Diff Detail

Event Timeline

craig.topper updated this revision to Diff 81650.Dec 15 2016, 1:13 PM

craig.topper retitled this revision from to [AVX-512][InstCombine] Teach InstCombine to converted masked vpermv intrinsics into shufflevector instructions.

craig.topper updated this object.

craig.topper added reviewers: RKSimon, zvi, delena, spatel.

craig.topper added a subscriber: llvm-commits.

Accidentally dropped an important change simplifyX86vpermv to mask a different number of bits based on element count.

RKSimon added inline comments.Dec 16 2016, 2:49 AM

lib/Transforms/InstCombine/InstCombineCalls.cpp
2165	Move the mask code to a helper function? Isn't it likely we'll need it again for future avx512 intrinsic combines?

Moved masking to a helper function for future reuse.

delena added inline comments.Dec 17 2016, 8:39 AM

lib/Transforms/InstCombine/InstCombineCalls.cpp
1049	do we have a good code at the end after all mask shuffles?

I think in the worst case we may end up selecting a shuffle with large element size and end up being unable to combine the mask into the instruction. But we've likely removed a constant pool load so that may still be a win.

Has the time come to add VPERMV/VPERMV3 support to combineBitcastForMaskedOp?

Simon, you mean turning other shuffles into VPERMV/VPERMV3? This patch would tend to prevent usage of VPERMV/VPERMV3 in favor of other shuffles. But may breaking masking so to recover masking we'd need to turn those other shuffles in to VPERMV/VPERMV3.

In D27825#628861, @craig.topper wrote:

Simon, you mean turning other shuffles into VPERMV/VPERMV3? This patch would tend to prevent usage of VPERMV/VPERMV3 in favor of other shuffles. But may breaking masking so to recover masking we'd need to turn those other shuffles in to VPERMV/VPERMV3.

I meant using combineBitcastForMaskedOp to rescale VPERMV/VPERMV3 constant shuffle masks (if legal) so that they can combine with a select mask if its there - so a vpermv <8 x i64> becomes <16 x i32> etc.

Anyway, this would be a separate task and shouldn't have that much effect on this, but would allow us to relax the strict bail out at the start of combineX86ShuffleChain.

LGTM

This revision is now accepted and ready to land.Dec 21 2016, 9:16 AM

Closed by commit rL290530: [AVX-512][InstCombine] Teach InstCombine to converted masked vpermv intrinsics… (authored by ctopper). · Explain WhyDec 25 2016, 4:09 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Transforms/

InstCombine/

InstCombineCalls.cpp

44 lines

test/

Transforms/

InstCombine/

x86-avx512.ll

1128 lines

Diff 81650

lib/Transforms/InstCombine/InstCombineCalls.cpp

Show First 20 Lines • Show All 896 Lines • ▼ Show 20 Lines	static Value *simplifyX86vpermv(const IntrinsicInst &II,
InstCombiner::BuilderTy &Builder) {		InstCombiner::BuilderTy &Builder) {
auto *V = dyn_cast<Constant>(II.getArgOperand(1));		auto *V = dyn_cast<Constant>(II.getArgOperand(1));
if (!V)		if (!V)
return nullptr;		return nullptr;

auto *VecTy = cast<VectorType>(II.getType());		auto *VecTy = cast<VectorType>(II.getType());
auto *MaskEltTy = Type::getInt32Ty(II.getContext());		auto *MaskEltTy = Type::getInt32Ty(II.getContext());
unsigned Size = VecTy->getNumElements();		unsigned Size = VecTy->getNumElements();
assert(Size == 8 && "Unexpected shuffle mask size");		assert((Size == 4 \|\| Size == 8 \|\| Size == 16 \|\| Size == 32 \|\| Size == 64) &&
		"Unexpected shuffle mask size");

// Construct a shuffle mask from constant integers or UNDEFs.		// Construct a shuffle mask from constant integers or UNDEFs.
Constant *Indexes[8] = {nullptr};		Constant *Indexes[64] = {nullptr};

for (unsigned I = 0; I < Size; ++I) {		for (unsigned I = 0; I < Size; ++I) {
Constant *COp = V->getAggregateElement(I);		Constant *COp = V->getAggregateElement(I);
if (!COp \|\| (!isa<UndefValue>(COp) && !isa<ConstantInt>(COp)))		if (!COp \|\| (!isa<UndefValue>(COp) && !isa<ConstantInt>(COp)))
return nullptr;		return nullptr;

if (isa<UndefValue>(COp)) {		if (isa<UndefValue>(COp)) {
Indexes[I] = UndefValue::get(MaskEltTy);		Indexes[I] = UndefValue::get(MaskEltTy);
▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines	static Value *simplifyMinnumMaxnum(const IntrinsicInst &II) {
// fmin(x, x) -> x		// fmin(x, x) -> x
if (Arg0 == Arg1)		if (Arg0 == Arg1)
return Arg0;		return Arg0;

const auto *C1 = dyn_cast<ConstantFP>(Arg1);		const auto *C1 = dyn_cast<ConstantFP>(Arg1);

// fmin(x, nan) -> x		// fmin(x, nan) -> x
if (C1 && C1->isNaN())		if (C1 && C1->isNaN())
return Arg0;		return Arg0;
		delenaUnsubmitted Not Done Reply Inline Actions do we have a good code at the end after all mask shuffles? delena: do we have a good code at the end after all mask shuffles?

// This is the value because if undef were NaN, we would return the other		// This is the value because if undef were NaN, we would return the other
// value and cannot return a NaN unless both operands are.		// value and cannot return a NaN unless both operands are.
//		//
// fmin(undef, x) -> x		// fmin(undef, x) -> x
if (isa<UndefValue>(Arg0))		if (isa<UndefValue>(Arg0))
return Arg1;		return Arg1;

▲ Show 20 Lines • Show All 1,064 Lines • ▼ Show 20 Lines	case Intrinsic::x86_avx512_vpermilvar_pd_512:
break;		break;

case Intrinsic::x86_avx2_permd:		case Intrinsic::x86_avx2_permd:
case Intrinsic::x86_avx2_permps:		case Intrinsic::x86_avx2_permps:
if (Value V = simplifyX86vpermv(II, *Builder))		if (Value V = simplifyX86vpermv(II, *Builder))
return replaceInstUsesWith(*II, V);		return replaceInstUsesWith(*II, V);
break;		break;

		case Intrinsic::x86_avx512_mask_permvar_df_256:
		case Intrinsic::x86_avx512_mask_permvar_df_512:
		case Intrinsic::x86_avx512_mask_permvar_di_256:
		case Intrinsic::x86_avx512_mask_permvar_di_512:
		case Intrinsic::x86_avx512_mask_permvar_hi_128:
		case Intrinsic::x86_avx512_mask_permvar_hi_256:
		case Intrinsic::x86_avx512_mask_permvar_hi_512:
		case Intrinsic::x86_avx512_mask_permvar_qi_128:
		case Intrinsic::x86_avx512_mask_permvar_qi_256:
		case Intrinsic::x86_avx512_mask_permvar_qi_512:
		case Intrinsic::x86_avx512_mask_permvar_sf_256:
		case Intrinsic::x86_avx512_mask_permvar_sf_512:
		case Intrinsic::x86_avx512_mask_permvar_si_256:
		case Intrinsic::x86_avx512_mask_permvar_si_512:
		if (Value V = simplifyX86vpermv(II, *Builder)) {
		// We simplified the permuting, now create a select for the masking.
		Value *Mask = II->getArgOperand(3);
		auto *MaskTy = VectorType::get(Builder->getInt1Ty(),
		cast<IntegerType>(Mask->getType())->getBitWidth());
		Mask = Builder->CreateBitCast(Mask, MaskTy);

		// If we have less than 8 elements, then the starting mask was an i8 and
		// we need to extract down to the right number of elements.
		unsigned VWidth = II->getType()->getVectorNumElements();
		if (VWidth < 8) {
		uint32_t Indices[4];
		for (unsigned i = 0; i != VWidth; ++i)
		Indices[i] = i;
		Mask = Builder->CreateShuffleVector(Mask, Mask,
		makeArrayRef(Indices, VWidth),
		"extract");
		}

		V = Builder->CreateSelect(Mask, V, II->getArgOperand(2));

		return replaceInstUsesWith(*II, V);
		RKSimonUnsubmitted Not Done Reply Inline Actions Move the mask code to a helper function? Isn't it likely we'll need it again for future avx512 intrinsic combines? RKSimon: Move the mask code to a helper function? Isn't it likely we'll need it again for future avx512…
		}
		break;

case Intrinsic::x86_avx_vperm2f128_pd_256:		case Intrinsic::x86_avx_vperm2f128_pd_256:
case Intrinsic::x86_avx_vperm2f128_ps_256:		case Intrinsic::x86_avx_vperm2f128_ps_256:
case Intrinsic::x86_avx_vperm2f128_si_256:		case Intrinsic::x86_avx_vperm2f128_si_256:
case Intrinsic::x86_avx2_vperm2i128:		case Intrinsic::x86_avx2_vperm2i128:
if (Value V = simplifyX86vperm2(II, *Builder))		if (Value V = simplifyX86vperm2(II, *Builder))
return replaceInstUsesWith(*II, V);		return replaceInstUsesWith(*II, V);
break;		break;

▲ Show 20 Lines • Show All 1,212 Lines • Show Last 20 Lines

test/Transforms/InstCombine/x86-avx512.ll

	Show First 20 Lines • Show All 1,043 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: @test_mask3_vfnmsub_sd_1(			; CHECK-LABEL: @test_mask3_vfnmsub_sd_1(
	; CHECK-NEXT: ret double 1.000000e+00			; CHECK-NEXT: ret double 1.000000e+00
	;			;
	%1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1			%1 = insertelement <2 x double> %c, double 1.000000e+00, i32 1
	%2 = tail call <2 x double> @llvm.x86.avx512.mask3.vfnmsub.sd(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 4)			%2 = tail call <2 x double> @llvm.x86.avx512.mask3.vfnmsub.sd(<2 x double> %a, <2 x double> %b, <2 x double> %1, i8 %mask, i32 4)
	%3 = extractelement <2 x double> %2, i32 1			%3 = extractelement <2 x double> %2, i32 1
	ret double %3			ret double %3
	}			}

				declare <8 x i32> @llvm.x86.avx512.mask.permvar.si.256(<8 x i32>, <8 x i32>, <8 x i32>, i8)

				define <8 x i32> @identity_test_permvar_si_256(<8 x i32> %a0) {
				; CHECK-LABEL: @identity_test_permvar_si_256(
				; CHECK-NEXT: ret <8 x i32> %a0
				;
				%a = tail call <8 x i32> @llvm.x86.avx512.mask.permvar.si.256(<8 x i32> %a0, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>, <8 x i32> undef, i8 -1)
				ret <8 x i32> %a
				}

				define <8 x i32> @identity_test_permvar_si_256_mask(<8 x i32> %a0, <8 x i32> %passthru, i8 %mask) {
				; CHECK-LABEL: @identity_test_permvar_si_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <8 x i1> [[TMP1]], <8 x i32> %a0, <8 x i32> %passthru
				; CHECK-NEXT: ret <8 x i32> [[TMP2]]
				;
				%a = tail call <8 x i32> @llvm.x86.avx512.mask.permvar.si.256(<8 x i32> %a0, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>, <8 x i32> %passthru, i8 %mask)
				ret <8 x i32> %a
				}

				define <8 x i32> @zero_test_permvar_si_256(<8 x i32> %a0) {
				; CHECK-LABEL: @zero_test_permvar_si_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> zeroinitializer
				; CHECK-NEXT: ret <8 x i32> [[TMP1]]
				;
				%a = tail call <8 x i32> @llvm.x86.avx512.mask.permvar.si.256(<8 x i32> %a0, <8 x i32> zeroinitializer, <8 x i32> undef, i8 -1)
				ret <8 x i32> %a
				}

				define <8 x i32> @zero_test_permvar_si_256_mask(<8 x i32> %a0, <8 x i32> %passthru, i8 %mask) {
				; CHECK-LABEL: @zero_test_permvar_si_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i32> [[TMP1]], <8 x i32> %passthru
				; CHECK-NEXT: ret <8 x i32> [[TMP3]]
				;
				%a = tail call <8 x i32> @llvm.x86.avx512.mask.permvar.si.256(<8 x i32> %a0, <8 x i32> zeroinitializer, <8 x i32> %passthru, i8 %mask)
				ret <8 x i32> %a
				}

				define <8 x i32> @shuffle_test_permvar_si_256(<8 x i32> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_si_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <8 x i32> [[TMP1]]
				;
				%a = tail call <8 x i32> @llvm.x86.avx512.mask.permvar.si.256(<8 x i32> %a0, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <8 x i32> undef, i8 -1)
				ret <8 x i32> %a
				}

				define <8 x i32> @shuffle_test_permvar_si_256_mask(<8 x i32> %a0, <8 x i32> %passthru, i8 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_si_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i32> [[TMP1]], <8 x i32> %passthru
				; CHECK-NEXT: ret <8 x i32> [[TMP3]]
				;
				%a = tail call <8 x i32> @llvm.x86.avx512.mask.permvar.si.256(<8 x i32> %a0, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <8 x i32> %passthru, i8 %mask)
				ret <8 x i32> %a
				}

				define <8 x i32> @undef_test_permvar_si_256(<8 x i32> %a0) {
				; CHECK-LABEL: @undef_test_permvar_si_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <8 x i32> [[TMP1]]
				;
				%a = tail call <8 x i32> @llvm.x86.avx512.mask.permvar.si.256(<8 x i32> %a0, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <8 x i32> undef, i8 -1)
				ret <8 x i32> %a
				}

				define <8 x i32> @undef_test_permvar_si_256_mask(<8 x i32> %a0, <8 x i32> %passthru, i8 %mask) {
				; CHECK-LABEL: @undef_test_permvar_si_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i32> %a0, <8 x i32> undef, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i32> [[TMP1]], <8 x i32> %passthru
				; CHECK-NEXT: ret <8 x i32> [[TMP3]]
				;
				%a = tail call <8 x i32> @llvm.x86.avx512.mask.permvar.si.256(<8 x i32> %a0, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <8 x i32> %passthru, i8 %mask)
				ret <8 x i32> %a
				}

				declare <8 x float> @llvm.x86.avx512.mask.permvar.sf.256(<8 x float>, <8 x i32>, <8 x float>, i8)

				define <8 x float> @identity_test_permvar_sf_256(<8 x float> %a0) {
				; CHECK-LABEL: @identity_test_permvar_sf_256(
				; CHECK-NEXT: ret <8 x float> %a0
				;
				%a = tail call <8 x float> @llvm.x86.avx512.mask.permvar.sf.256(<8 x float> %a0, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>, <8 x float> undef, i8 -1)
				ret <8 x float> %a
				}

				define <8 x float> @identity_test_permvar_sf_256_mask(<8 x float> %a0, <8 x float> %passthru, i8 %mask) {
				; CHECK-LABEL: @identity_test_permvar_sf_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <8 x i1> [[TMP1]], <8 x float> %a0, <8 x float> %passthru
				; CHECK-NEXT: ret <8 x float> [[TMP2]]
				;
				%a = tail call <8 x float> @llvm.x86.avx512.mask.permvar.sf.256(<8 x float> %a0, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>, <8 x float> %passthru, i8 %mask)
				ret <8 x float> %a
				}

				define <8 x float> @zero_test_permvar_sf_256(<8 x float> %a0) {
				; CHECK-LABEL: @zero_test_permvar_sf_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x float> %a0, <8 x float> undef, <8 x i32> zeroinitializer
				; CHECK-NEXT: ret <8 x float> [[TMP1]]
				;
				%a = tail call <8 x float> @llvm.x86.avx512.mask.permvar.sf.256(<8 x float> %a0, <8 x i32> zeroinitializer, <8 x float> undef, i8 -1)
				ret <8 x float> %a
				}

				define <8 x float> @zero_test_permvar_sf_256_mask(<8 x float> %a0, <8 x float> %passthru, i8 %mask) {
				; CHECK-LABEL: @zero_test_permvar_sf_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x float> %a0, <8 x float> undef, <8 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x float> [[TMP1]], <8 x float> %passthru
				; CHECK-NEXT: ret <8 x float> [[TMP3]]
				;
				%a = tail call <8 x float> @llvm.x86.avx512.mask.permvar.sf.256(<8 x float> %a0, <8 x i32> zeroinitializer, <8 x float> %passthru, i8 %mask)
				ret <8 x float> %a
				}

				define <8 x float> @shuffle_test_permvar_sf_256(<8 x float> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_sf_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x float> %a0, <8 x float> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <8 x float> [[TMP1]]
				;
				%a = tail call <8 x float> @llvm.x86.avx512.mask.permvar.sf.256(<8 x float> %a0, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <8 x float> undef, i8 -1)
				ret <8 x float> %a
				}

				define <8 x float> @shuffle_test_permvar_sf_256_mask(<8 x float> %a0, <8 x float> %passthru, i8 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_sf_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x float> %a0, <8 x float> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x float> [[TMP1]], <8 x float> %passthru
				; CHECK-NEXT: ret <8 x float> [[TMP3]]
				;
				%a = tail call <8 x float> @llvm.x86.avx512.mask.permvar.sf.256(<8 x float> %a0, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <8 x float> %passthru, i8 %mask)
				ret <8 x float> %a
				}

				define <8 x float> @undef_test_permvar_sf_256(<8 x float> %a0) {
				; CHECK-LABEL: @undef_test_permvar_sf_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x float> %a0, <8 x float> undef, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <8 x float> [[TMP1]]
				;
				%a = tail call <8 x float> @llvm.x86.avx512.mask.permvar.sf.256(<8 x float> %a0, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <8 x float> undef, i8 -1)
				ret <8 x float> %a
				}

				define <8 x float> @undef_test_permvar_sf_256_mask(<8 x float> %a0, <8 x float> %passthru, i8 %mask) {
				; CHECK-LABEL: @undef_test_permvar_sf_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x float> %a0, <8 x float> undef, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x float> [[TMP1]], <8 x float> %passthru
				; CHECK-NEXT: ret <8 x float> [[TMP3]]
				;
				%a = tail call <8 x float> @llvm.x86.avx512.mask.permvar.sf.256(<8 x float> %a0, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <8 x float> %passthru, i8 %mask)
				ret <8 x float> %a
				}

				declare <4 x i64> @llvm.x86.avx512.mask.permvar.di.256(<4 x i64>, <4 x i64>, <4 x i64>, i8)

				define <4 x i64> @identity_test_permvar_di_256(<4 x i64> %a0) {
				; CHECK-LABEL: @identity_test_permvar_di_256(
				; CHECK-NEXT: ret <4 x i64> %a0
				;
				%a = tail call <4 x i64> @llvm.x86.avx512.mask.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 0, i64 1, i64 2, i64 3>, <4 x i64> undef, i8 -1)
				ret <4 x i64> %a
				}

				define <4 x i64> @identity_test_permvar_di_256_mask(<4 x i64> %a0, <4 x i64> %passthru, i8 %mask) {
				; CHECK-LABEL: @identity_test_permvar_di_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = shufflevector <8 x i1> [[TMP1]], <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				; CHECK-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x i64> %a0, <4 x i64> %passthru
				; CHECK-NEXT: ret <4 x i64> [[TMP3]]
				;
				%a = tail call <4 x i64> @llvm.x86.avx512.mask.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 0, i64 1, i64 2, i64 3>, <4 x i64> %passthru, i8 %mask)
				ret <4 x i64> %a
				}

				define <4 x i64> @zero_test_permvar_di_256(<4 x i64> %a0) {
				; CHECK-LABEL: @zero_test_permvar_di_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> zeroinitializer
				; CHECK-NEXT: ret <4 x i64> [[TMP1]]
				;
				%a = tail call <4 x i64> @llvm.x86.avx512.mask.permvar.di.256(<4 x i64> %a0, <4 x i64> zeroinitializer, <4 x i64> undef, i8 -1)
				ret <4 x i64> %a
				}

				define <4 x i64> @zero_test_permvar_di_256_mask(<4 x i64> %a0, <4 x i64> %passthru, i8 %mask) {
				; CHECK-LABEL: @zero_test_permvar_di_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				; CHECK-NEXT: [[TMP4:%.*]] = select <4 x i1> [[TMP3]], <4 x i64> [[TMP1]], <4 x i64> %passthru
				; CHECK-NEXT: ret <4 x i64> [[TMP4]]
				;
				%a = tail call <4 x i64> @llvm.x86.avx512.mask.permvar.di.256(<4 x i64> %a0, <4 x i64> zeroinitializer, <4 x i64> %passthru, i8 %mask)
				ret <4 x i64> %a
				}

				define <4 x i64> @shuffle_test_permvar_di_256(<4 x i64> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_di_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <4 x i64> [[TMP1]]
				;
				%a = tail call <4 x i64> @llvm.x86.avx512.mask.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 3, i64 2, i64 1, i64 0>, <4 x i64> undef, i8 -1)
				ret <4 x i64> %a
				}

				define <4 x i64> @shuffle_test_permvar_di_256_mask(<4 x i64> %a0, <4 x i64> %passthru, i8 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_di_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				; CHECK-NEXT: [[TMP4:%.*]] = select <4 x i1> [[TMP3]], <4 x i64> [[TMP1]], <4 x i64> %passthru
				; CHECK-NEXT: ret <4 x i64> [[TMP4]]
				;
				%a = tail call <4 x i64> @llvm.x86.avx512.mask.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 3, i64 2, i64 1, i64 0>, <4 x i64> %passthru, i8 %mask)
				ret <4 x i64> %a
				}

				define <4 x i64> @undef_test_permvar_di_256(<4 x i64> %a0) {
				; CHECK-LABEL: @undef_test_permvar_di_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 undef, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <4 x i64> [[TMP1]]
				;
				%a = tail call <4 x i64> @llvm.x86.avx512.mask.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 undef, i64 2, i64 1, i64 0>, <4 x i64> undef, i8 -1)
				ret <4 x i64> %a
				}

				define <4 x i64> @undef_test_permvar_di_256_mask(<4 x i64> %a0, <4 x i64> %passthru, i8 %mask) {
				; CHECK-LABEL: @undef_test_permvar_di_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x i64> %a0, <4 x i64> undef, <4 x i32> <i32 undef, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				; CHECK-NEXT: [[TMP4:%.*]] = select <4 x i1> [[TMP3]], <4 x i64> [[TMP1]], <4 x i64> %passthru
				; CHECK-NEXT: ret <4 x i64> [[TMP4]]
				;
				%a = tail call <4 x i64> @llvm.x86.avx512.mask.permvar.di.256(<4 x i64> %a0, <4 x i64> <i64 undef, i64 2, i64 1, i64 0>, <4 x i64> %passthru, i8 %mask)
				ret <4 x i64> %a
				}

				declare <4 x double> @llvm.x86.avx512.mask.permvar.df.256(<4 x double>, <4 x i64>, <4 x double>, i8)

				define <4 x double> @identity_test_permvar_df_256(<4 x double> %a0) {
				; CHECK-LABEL: @identity_test_permvar_df_256(
				; CHECK-NEXT: ret <4 x double> %a0
				;
				%a = tail call <4 x double> @llvm.x86.avx512.mask.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 0, i64 1, i64 2, i64 3>, <4 x double> undef, i8 -1)
				ret <4 x double> %a
				}

				define <4 x double> @identity_test_permvar_df_256_mask(<4 x double> %a0, <4 x double> %passthru, i8 %mask) {
				; CHECK-LABEL: @identity_test_permvar_df_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = shufflevector <8 x i1> [[TMP1]], <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				; CHECK-NEXT: [[TMP3:%.*]] = select <4 x i1> [[TMP2]], <4 x double> %a0, <4 x double> %passthru
				; CHECK-NEXT: ret <4 x double> [[TMP3]]
				;
				%a = tail call <4 x double> @llvm.x86.avx512.mask.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 0, i64 1, i64 2, i64 3>, <4 x double> %passthru, i8 %mask)
				ret <4 x double> %a
				}

				define <4 x double> @zero_test_permvar_df_256(<4 x double> %a0) {
				; CHECK-LABEL: @zero_test_permvar_df_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x double> %a0, <4 x double> undef, <4 x i32> zeroinitializer
				; CHECK-NEXT: ret <4 x double> [[TMP1]]
				;
				%a = tail call <4 x double> @llvm.x86.avx512.mask.permvar.df.256(<4 x double> %a0, <4 x i64> zeroinitializer, <4 x double> undef, i8 -1)
				ret <4 x double> %a
				}

				define <4 x double> @zero_test_permvar_df_256_mask(<4 x double> %a0, <4 x double> %passthru, i8 %mask) {
				; CHECK-LABEL: @zero_test_permvar_df_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x double> %a0, <4 x double> undef, <4 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				; CHECK-NEXT: [[TMP4:%.*]] = select <4 x i1> [[TMP3]], <4 x double> [[TMP1]], <4 x double> %passthru
				; CHECK-NEXT: ret <4 x double> [[TMP4]]
				;
				%a = tail call <4 x double> @llvm.x86.avx512.mask.permvar.df.256(<4 x double> %a0, <4 x i64> zeroinitializer, <4 x double> %passthru, i8 %mask)
				ret <4 x double> %a
				}

				define <4 x double> @shuffle_test_permvar_df_256(<4 x double> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_df_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x double> %a0, <4 x double> undef, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <4 x double> [[TMP1]]
				;
				%a = tail call <4 x double> @llvm.x86.avx512.mask.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 3, i64 2, i64 1, i64 0>, <4 x double> undef, i8 -1)
				ret <4 x double> %a
				}

				define <4 x double> @shuffle_test_permvar_df_256_mask(<4 x double> %a0, <4 x double> %passthru, i8 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_df_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x double> %a0, <4 x double> undef, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				; CHECK-NEXT: [[TMP4:%.*]] = select <4 x i1> [[TMP3]], <4 x double> [[TMP1]], <4 x double> %passthru
				; CHECK-NEXT: ret <4 x double> [[TMP4]]
				;
				%a = tail call <4 x double> @llvm.x86.avx512.mask.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 3, i64 2, i64 1, i64 0>, <4 x double> %passthru, i8 %mask)
				ret <4 x double> %a
				}

				define <4 x double> @undef_test_permvar_df_256(<4 x double> %a0) {
				; CHECK-LABEL: @undef_test_permvar_df_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x double> %a0, <4 x double> undef, <4 x i32> <i32 undef, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <4 x double> [[TMP1]]
				;
				%a = tail call <4 x double> @llvm.x86.avx512.mask.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 undef, i64 2, i64 1, i64 0>, <4 x double> undef, i8 -1)
				ret <4 x double> %a
				}

				define <4 x double> @undef_test_permvar_df_256_mask(<4 x double> %a0, <4 x double> %passthru, i8 %mask) {
				; CHECK-LABEL: @undef_test_permvar_df_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <4 x double> %a0, <4 x double> undef, <4 x i32> <i32 undef, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = shufflevector <8 x i1> [[TMP2]], <8 x i1> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				; CHECK-NEXT: [[TMP4:%.*]] = select <4 x i1> [[TMP3]], <4 x double> [[TMP1]], <4 x double> %passthru
				; CHECK-NEXT: ret <4 x double> [[TMP4]]
				;
				%a = tail call <4 x double> @llvm.x86.avx512.mask.permvar.df.256(<4 x double> %a0, <4 x i64> <i64 undef, i64 2, i64 1, i64 0>, <4 x double> %passthru, i8 %mask)
				ret <4 x double> %a
				}

				declare <16 x i32> @llvm.x86.avx512.mask.permvar.si.512(<16 x i32>, <16 x i32>, <16 x i32>, i16)

				define <16 x i32> @identity_test_permvar_si_512(<16 x i32> %a0) {
				; CHECK-LABEL: @identity_test_permvar_si_512(
				; CHECK-NEXT: ret <16 x i32> %a0
				;
				%a = tail call <16 x i32> @llvm.x86.avx512.mask.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>, <16 x i32> undef, i16 -1)
				ret <16 x i32> %a
				}

				define <16 x i32> @identity_test_permvar_si_512_mask(<16 x i32> %a0, <16 x i32> %passthru, i16 %mask) {
				; CHECK-LABEL: @identity_test_permvar_si_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <16 x i1> [[TMP1]], <16 x i32> %a0, <16 x i32> %passthru
				; CHECK-NEXT: ret <16 x i32> [[TMP2]]
				;
				%a = tail call <16 x i32> @llvm.x86.avx512.mask.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>, <16 x i32> %passthru, i16 %mask)
				ret <16 x i32> %a
				}

				define <16 x i32> @zero_test_permvar_si_512(<16 x i32> %a0) {
				; CHECK-LABEL: @zero_test_permvar_si_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> zeroinitializer
				; CHECK-NEXT: ret <16 x i32> [[TMP1]]
				;
				%a = tail call <16 x i32> @llvm.x86.avx512.mask.permvar.si.512(<16 x i32> %a0, <16 x i32> zeroinitializer, <16 x i32> undef, i16 -1)
				ret <16 x i32> %a
				}

				define <16 x i32> @zero_test_permvar_si_512_mask(<16 x i32> %a0, <16 x i32> %passthru, i16 %mask) {
				; CHECK-LABEL: @zero_test_permvar_si_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i32> [[TMP1]], <16 x i32> %passthru
				; CHECK-NEXT: ret <16 x i32> [[TMP3]]
				;
				%a = tail call <16 x i32> @llvm.x86.avx512.mask.permvar.si.512(<16 x i32> %a0, <16 x i32> zeroinitializer, <16 x i32> %passthru, i16 %mask)
				ret <16 x i32> %a
				}

				define <16 x i32> @shuffle_test_permvar_si_512(<16 x i32> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_si_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <16 x i32> [[TMP1]]
				;
				%a = tail call <16 x i32> @llvm.x86.avx512.mask.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x i32> undef, i16 -1)
				ret <16 x i32> %a
				}

				define <16 x i32> @shuffle_test_permvar_si_512_mask(<16 x i32> %a0, <16 x i32> %passthru, i16 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_si_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i32> [[TMP1]], <16 x i32> %passthru
				; CHECK-NEXT: ret <16 x i32> [[TMP3]]
				;
				%a = tail call <16 x i32> @llvm.x86.avx512.mask.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x i32> %passthru, i16 %mask)
				ret <16 x i32> %a
				}

				define <16 x i32> @undef_test_permvar_si_512(<16 x i32> %a0) {
				; CHECK-LABEL: @undef_test_permvar_si_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <16 x i32> [[TMP1]]
				;
				%a = tail call <16 x i32> @llvm.x86.avx512.mask.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x i32> undef, i16 -1)
				ret <16 x i32> %a
				}

				define <16 x i32> @undef_test_permvar_si_512_mask(<16 x i32> %a0, <16 x i32> %passthru, i16 %mask) {
				; CHECK-LABEL: @undef_test_permvar_si_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i32> %a0, <16 x i32> undef, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i32> [[TMP1]], <16 x i32> %passthru
				; CHECK-NEXT: ret <16 x i32> [[TMP3]]
				;
				%a = tail call <16 x i32> @llvm.x86.avx512.mask.permvar.si.512(<16 x i32> %a0, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x i32> %passthru, i16 %mask)
				ret <16 x i32> %a
				}

				declare <16 x float> @llvm.x86.avx512.mask.permvar.sf.512(<16 x float>, <16 x i32>, <16 x float>, i16)

				define <16 x float> @identity_test_permvar_sf_512(<16 x float> %a0) {
				; CHECK-LABEL: @identity_test_permvar_sf_512(
				; CHECK-NEXT: ret <16 x float> %a0
				;
				%a = tail call <16 x float> @llvm.x86.avx512.mask.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>, <16 x float> undef, i16 -1)
				ret <16 x float> %a
				}

				define <16 x float> @identity_test_permvar_sf_512_mask(<16 x float> %a0, <16 x float> %passthru, i16 %mask) {
				; CHECK-LABEL: @identity_test_permvar_sf_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <16 x i1> [[TMP1]], <16 x float> %a0, <16 x float> %passthru
				; CHECK-NEXT: ret <16 x float> [[TMP2]]
				;
				%a = tail call <16 x float> @llvm.x86.avx512.mask.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>, <16 x float> %passthru, i16 %mask)
				ret <16 x float> %a
				}

				define <16 x float> @zero_test_permvar_sf_512(<16 x float> %a0) {
				; CHECK-LABEL: @zero_test_permvar_sf_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x float> %a0, <16 x float> undef, <16 x i32> zeroinitializer
				; CHECK-NEXT: ret <16 x float> [[TMP1]]
				;
				%a = tail call <16 x float> @llvm.x86.avx512.mask.permvar.sf.512(<16 x float> %a0, <16 x i32> zeroinitializer, <16 x float> undef, i16 -1)
				ret <16 x float> %a
				}

				define <16 x float> @zero_test_permvar_sf_512_mask(<16 x float> %a0, <16 x float> %passthru, i16 %mask) {
				; CHECK-LABEL: @zero_test_permvar_sf_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x float> %a0, <16 x float> undef, <16 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> %passthru
				; CHECK-NEXT: ret <16 x float> [[TMP3]]
				;
				%a = tail call <16 x float> @llvm.x86.avx512.mask.permvar.sf.512(<16 x float> %a0, <16 x i32> zeroinitializer, <16 x float> %passthru, i16 %mask)
				ret <16 x float> %a
				}

				define <16 x float> @shuffle_test_permvar_sf_512(<16 x float> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_sf_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x float> %a0, <16 x float> undef, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <16 x float> [[TMP1]]
				;
				%a = tail call <16 x float> @llvm.x86.avx512.mask.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x float> undef, i16 -1)
				ret <16 x float> %a
				}

				define <16 x float> @shuffle_test_permvar_sf_512_mask(<16 x float> %a0, <16 x float> %passthru, i16 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_sf_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x float> %a0, <16 x float> undef, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> %passthru
				; CHECK-NEXT: ret <16 x float> [[TMP3]]
				;
				%a = tail call <16 x float> @llvm.x86.avx512.mask.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x float> %passthru, i16 %mask)
				ret <16 x float> %a
				}

				define <16 x float> @undef_test_permvar_sf_512(<16 x float> %a0) {
				; CHECK-LABEL: @undef_test_permvar_sf_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x float> %a0, <16 x float> undef, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <16 x float> [[TMP1]]
				;
				%a = tail call <16 x float> @llvm.x86.avx512.mask.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x float> undef, i16 -1)
				ret <16 x float> %a
				}

				define <16 x float> @undef_test_permvar_sf_512_mask(<16 x float> %a0, <16 x float> %passthru, i16 %mask) {
				; CHECK-LABEL: @undef_test_permvar_sf_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x float> %a0, <16 x float> undef, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x float> [[TMP1]], <16 x float> %passthru
				; CHECK-NEXT: ret <16 x float> [[TMP3]]
				;
				%a = tail call <16 x float> @llvm.x86.avx512.mask.permvar.sf.512(<16 x float> %a0, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>, <16 x float> %passthru, i16 %mask)
				ret <16 x float> %a
				}

				declare <8 x i64> @llvm.x86.avx512.mask.permvar.di.512(<8 x i64>, <8 x i64>, <8 x i64>, i8)

				define <8 x i64> @identity_test_permvar_di_512(<8 x i64> %a0) {
				; CHECK-LABEL: @identity_test_permvar_di_512(
				; CHECK-NEXT: ret <8 x i64> %a0
				;
				%a = tail call <8 x i64> @llvm.x86.avx512.mask.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>, <8 x i64> undef, i8 -1)
				ret <8 x i64> %a
				}

				define <8 x i64> @identity_test_permvar_di_512_mask(<8 x i64> %a0, <8 x i64> %passthru, i8 %mask) {
				; CHECK-LABEL: @identity_test_permvar_di_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <8 x i1> [[TMP1]], <8 x i64> %a0, <8 x i64> %passthru
				; CHECK-NEXT: ret <8 x i64> [[TMP2]]
				;
				%a = tail call <8 x i64> @llvm.x86.avx512.mask.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>, <8 x i64> %passthru, i8 %mask)
				ret <8 x i64> %a
				}

				define <8 x i64> @zero_test_permvar_di_512(<8 x i64> %a0) {
				; CHECK-LABEL: @zero_test_permvar_di_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> zeroinitializer
				; CHECK-NEXT: ret <8 x i64> [[TMP1]]
				;
				%a = tail call <8 x i64> @llvm.x86.avx512.mask.permvar.di.512(<8 x i64> %a0, <8 x i64> zeroinitializer, <8 x i64> undef, i8 -1)
				ret <8 x i64> %a
				}

				define <8 x i64> @zero_test_permvar_di_512_mask(<8 x i64> %a0, <8 x i64> %passthru, i8 %mask) {
				; CHECK-LABEL: @zero_test_permvar_di_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i64> [[TMP1]], <8 x i64> %passthru
				; CHECK-NEXT: ret <8 x i64> [[TMP3]]
				;
				%a = tail call <8 x i64> @llvm.x86.avx512.mask.permvar.di.512(<8 x i64> %a0, <8 x i64> zeroinitializer, <8 x i64> %passthru, i8 %mask)
				ret <8 x i64> %a
				}

				define <8 x i64> @shuffle_test_permvar_di_512(<8 x i64> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_di_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <8 x i64> [[TMP1]]
				;
				%a = tail call <8 x i64> @llvm.x86.avx512.mask.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x i64> undef, i8 -1)
				ret <8 x i64> %a
				}

				define <8 x i64> @shuffle_test_permvar_di_512_mask(<8 x i64> %a0, <8 x i64> %passthru, i8 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_di_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i64> [[TMP1]], <8 x i64> %passthru
				; CHECK-NEXT: ret <8 x i64> [[TMP3]]
				;
				%a = tail call <8 x i64> @llvm.x86.avx512.mask.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x i64> %passthru, i8 %mask)
				ret <8 x i64> %a
				}

				define <8 x i64> @undef_test_permvar_di_512(<8 x i64> %a0) {
				; CHECK-LABEL: @undef_test_permvar_di_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <8 x i64> [[TMP1]]
				;
				%a = tail call <8 x i64> @llvm.x86.avx512.mask.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 undef, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x i64> undef, i8 -1)
				ret <8 x i64> %a
				}

				define <8 x i64> @undef_test_permvar_di_512_mask(<8 x i64> %a0, <8 x i64> %passthru, i8 %mask) {
				; CHECK-LABEL: @undef_test_permvar_di_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i64> %a0, <8 x i64> undef, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i64> [[TMP1]], <8 x i64> %passthru
				; CHECK-NEXT: ret <8 x i64> [[TMP3]]
				;
				%a = tail call <8 x i64> @llvm.x86.avx512.mask.permvar.di.512(<8 x i64> %a0, <8 x i64> <i64 undef, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x i64> %passthru, i8 %mask)
				ret <8 x i64> %a
				}

				declare <8 x double> @llvm.x86.avx512.mask.permvar.df.512(<8 x double>, <8 x i64>, <8 x double>, i8)

				define <8 x double> @identity_test_permvar_df_512(<8 x double> %a0) {
				; CHECK-LABEL: @identity_test_permvar_df_512(
				; CHECK-NEXT: ret <8 x double> %a0
				;
				%a = tail call <8 x double> @llvm.x86.avx512.mask.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>, <8 x double> undef, i8 -1)
				ret <8 x double> %a
				}

				define <8 x double> @identity_test_permvar_df_512_mask(<8 x double> %a0, <8 x double> %passthru, i8 %mask) {
				; CHECK-LABEL: @identity_test_permvar_df_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <8 x i1> [[TMP1]], <8 x double> %a0, <8 x double> %passthru
				; CHECK-NEXT: ret <8 x double> [[TMP2]]
				;
				%a = tail call <8 x double> @llvm.x86.avx512.mask.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>, <8 x double> %passthru, i8 %mask)
				ret <8 x double> %a
				}

				define <8 x double> @zero_test_permvar_df_512(<8 x double> %a0) {
				; CHECK-LABEL: @zero_test_permvar_df_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x double> %a0, <8 x double> undef, <8 x i32> zeroinitializer
				; CHECK-NEXT: ret <8 x double> [[TMP1]]
				;
				%a = tail call <8 x double> @llvm.x86.avx512.mask.permvar.df.512(<8 x double> %a0, <8 x i64> zeroinitializer, <8 x double> undef, i8 -1)
				ret <8 x double> %a
				}

				define <8 x double> @zero_test_permvar_df_512_mask(<8 x double> %a0, <8 x double> %passthru, i8 %mask) {
				; CHECK-LABEL: @zero_test_permvar_df_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x double> %a0, <8 x double> undef, <8 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> %passthru
				; CHECK-NEXT: ret <8 x double> [[TMP3]]
				;
				%a = tail call <8 x double> @llvm.x86.avx512.mask.permvar.df.512(<8 x double> %a0, <8 x i64> zeroinitializer, <8 x double> %passthru, i8 %mask)
				ret <8 x double> %a
				}

				define <8 x double> @shuffle_test_permvar_df_512(<8 x double> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_df_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x double> %a0, <8 x double> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <8 x double> [[TMP1]]
				;
				%a = tail call <8 x double> @llvm.x86.avx512.mask.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x double> undef, i8 -1)
				ret <8 x double> %a
				}

				define <8 x double> @shuffle_test_permvar_df_512_mask(<8 x double> %a0, <8 x double> %passthru, i8 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_df_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x double> %a0, <8 x double> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> %passthru
				; CHECK-NEXT: ret <8 x double> [[TMP3]]
				;
				%a = tail call <8 x double> @llvm.x86.avx512.mask.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 7, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x double> %passthru, i8 %mask)
				ret <8 x double> %a
				}

				define <8 x double> @undef_test_permvar_df_512(<8 x double> %a0) {
				; CHECK-LABEL: @undef_test_permvar_df_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x double> %a0, <8 x double> undef, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <8 x double> [[TMP1]]
				;
				%a = tail call <8 x double> @llvm.x86.avx512.mask.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 undef, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x double> undef, i8 -1)
				ret <8 x double> %a
				}

				define <8 x double> @undef_test_permvar_df_512_mask(<8 x double> %a0, <8 x double> %passthru, i8 %mask) {
				; CHECK-LABEL: @undef_test_permvar_df_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x double> %a0, <8 x double> undef, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x double> [[TMP1]], <8 x double> %passthru
				; CHECK-NEXT: ret <8 x double> [[TMP3]]
				;
				%a = tail call <8 x double> @llvm.x86.avx512.mask.permvar.df.512(<8 x double> %a0, <8 x i64> <i64 undef, i64 6, i64 5, i64 4, i64 3, i64 2, i64 1, i64 0>, <8 x double> %passthru, i8 %mask)
				ret <8 x double> %a
				}

				declare <8 x i16> @llvm.x86.avx512.mask.permvar.hi.128(<8 x i16>, <8 x i16>, <8 x i16>, i8)

				define <8 x i16> @identity_test_permvar_hi_128(<8 x i16> %a0) {
				; CHECK-LABEL: @identity_test_permvar_hi_128(
				; CHECK-NEXT: ret <8 x i16> %a0
				;
				%a = tail call <8 x i16> @llvm.x86.avx512.mask.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7>, <8 x i16> undef, i8 -1)
				ret <8 x i16> %a
				}

				define <8 x i16> @identity_test_permvar_hi_128_mask(<8 x i16> %a0, <8 x i16> %passthru, i8 %mask) {
				; CHECK-LABEL: @identity_test_permvar_hi_128_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <8 x i1> [[TMP1]], <8 x i16> %a0, <8 x i16> %passthru
				; CHECK-NEXT: ret <8 x i16> [[TMP2]]
				;
				%a = tail call <8 x i16> @llvm.x86.avx512.mask.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7>, <8 x i16> %passthru, i8 %mask)
				ret <8 x i16> %a
				}

				define <8 x i16> @zero_test_permvar_hi_128(<8 x i16> %a0) {
				; CHECK-LABEL: @zero_test_permvar_hi_128(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i16> %a0, <8 x i16> undef, <8 x i32> zeroinitializer
				; CHECK-NEXT: ret <8 x i16> [[TMP1]]
				;
				%a = tail call <8 x i16> @llvm.x86.avx512.mask.permvar.hi.128(<8 x i16> %a0, <8 x i16> zeroinitializer, <8 x i16> undef, i8 -1)
				ret <8 x i16> %a
				}

				define <8 x i16> @zero_test_permvar_hi_128_mask(<8 x i16> %a0, <8 x i16> %passthru, i8 %mask) {
				; CHECK-LABEL: @zero_test_permvar_hi_128_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i16> %a0, <8 x i16> undef, <8 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i16> [[TMP1]], <8 x i16> %passthru
				; CHECK-NEXT: ret <8 x i16> [[TMP3]]
				;
				%a = tail call <8 x i16> @llvm.x86.avx512.mask.permvar.hi.128(<8 x i16> %a0, <8 x i16> zeroinitializer, <8 x i16> %passthru, i8 %mask)
				ret <8 x i16> %a
				}

				define <8 x i16> @shuffle_test_permvar_hi_128(<8 x i16> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_hi_128(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i16> %a0, <8 x i16> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <8 x i16> [[TMP1]]
				;
				%a = tail call <8 x i16> @llvm.x86.avx512.mask.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <8 x i16> undef, i8 -1)
				ret <8 x i16> %a
				}

				define <8 x i16> @shuffle_test_permvar_hi_128_mask(<8 x i16> %a0, <8 x i16> %passthru, i8 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_hi_128_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i16> %a0, <8 x i16> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i16> [[TMP1]], <8 x i16> %passthru
				; CHECK-NEXT: ret <8 x i16> [[TMP3]]
				;
				%a = tail call <8 x i16> @llvm.x86.avx512.mask.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <8 x i16> %passthru, i8 %mask)
				ret <8 x i16> %a
				}

				define <8 x i16> @undef_test_permvar_hi_128(<8 x i16> %a0) {
				; CHECK-LABEL: @undef_test_permvar_hi_128(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i16> %a0, <8 x i16> undef, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <8 x i16> [[TMP1]]
				;
				%a = tail call <8 x i16> @llvm.x86.avx512.mask.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 undef, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <8 x i16> undef, i8 -1)
				ret <8 x i16> %a
				}

				define <8 x i16> @undef_test_permvar_hi_128_mask(<8 x i16> %a0, <8 x i16> %passthru, i8 %mask) {
				; CHECK-LABEL: @undef_test_permvar_hi_128_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <8 x i16> %a0, <8 x i16> undef, <8 x i32> <i32 undef, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i8 %mask to <8 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <8 x i1> [[TMP2]], <8 x i16> [[TMP1]], <8 x i16> %passthru
				; CHECK-NEXT: ret <8 x i16> [[TMP3]]
				;
				%a = tail call <8 x i16> @llvm.x86.avx512.mask.permvar.hi.128(<8 x i16> %a0, <8 x i16> <i16 undef, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <8 x i16> %passthru, i8 %mask)
				ret <8 x i16> %a
				}

				declare <16 x i16> @llvm.x86.avx512.mask.permvar.hi.256(<16 x i16>, <16 x i16>, <16 x i16>, i16)

				define <16 x i16> @identity_test_permvar_hi_256(<16 x i16> %a0) {
				; CHECK-LABEL: @identity_test_permvar_hi_256(
				; CHECK-NEXT: ret <16 x i16> %a0
				;
				%a = tail call <16 x i16> @llvm.x86.avx512.mask.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>, <16 x i16> undef, i16 -1)
				ret <16 x i16> %a
				}

				define <16 x i16> @identity_test_permvar_hi_256_mask(<16 x i16> %a0, <16 x i16> %passthru, i16 %mask) {
				; CHECK-LABEL: @identity_test_permvar_hi_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <16 x i1> [[TMP1]], <16 x i16> %a0, <16 x i16> %passthru
				; CHECK-NEXT: ret <16 x i16> [[TMP2]]
				;
				%a = tail call <16 x i16> @llvm.x86.avx512.mask.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>, <16 x i16> %passthru, i16 %mask)
				ret <16 x i16> %a
				}

				define <16 x i16> @zero_test_permvar_hi_256(<16 x i16> %a0) {
				; CHECK-LABEL: @zero_test_permvar_hi_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i16> %a0, <16 x i16> undef, <16 x i32> zeroinitializer
				; CHECK-NEXT: ret <16 x i16> [[TMP1]]
				;
				%a = tail call <16 x i16> @llvm.x86.avx512.mask.permvar.hi.256(<16 x i16> %a0, <16 x i16> zeroinitializer, <16 x i16> undef, i16 -1)
				ret <16 x i16> %a
				}

				define <16 x i16> @zero_test_permvar_hi_256_mask(<16 x i16> %a0, <16 x i16> %passthru, i16 %mask) {
				; CHECK-LABEL: @zero_test_permvar_hi_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i16> %a0, <16 x i16> undef, <16 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i16> [[TMP1]], <16 x i16> %passthru
				; CHECK-NEXT: ret <16 x i16> [[TMP3]]
				;
				%a = tail call <16 x i16> @llvm.x86.avx512.mask.permvar.hi.256(<16 x i16> %a0, <16 x i16> zeroinitializer, <16 x i16> %passthru, i16 %mask)
				ret <16 x i16> %a
				}

				define <16 x i16> @shuffle_test_permvar_hi_256(<16 x i16> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_hi_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i16> %a0, <16 x i16> undef, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <16 x i16> [[TMP1]]
				;
				%a = tail call <16 x i16> @llvm.x86.avx512.mask.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> undef, i16 -1)
				ret <16 x i16> %a
				}

				define <16 x i16> @shuffle_test_permvar_hi_256_mask(<16 x i16> %a0, <16 x i16> %passthru, i16 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_hi_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i16> %a0, <16 x i16> undef, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i16> [[TMP1]], <16 x i16> %passthru
				; CHECK-NEXT: ret <16 x i16> [[TMP3]]
				;
				%a = tail call <16 x i16> @llvm.x86.avx512.mask.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> %passthru, i16 %mask)
				ret <16 x i16> %a
				}

				define <16 x i16> @undef_test_permvar_hi_256(<16 x i16> %a0) {
				; CHECK-LABEL: @undef_test_permvar_hi_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i16> %a0, <16 x i16> undef, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <16 x i16> [[TMP1]]
				;
				%a = tail call <16 x i16> @llvm.x86.avx512.mask.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 undef, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> undef, i16 -1)
				ret <16 x i16> %a
				}

				define <16 x i16> @undef_test_permvar_hi_256_mask(<16 x i16> %a0, <16 x i16> %passthru, i16 %mask) {
				; CHECK-LABEL: @undef_test_permvar_hi_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i16> %a0, <16 x i16> undef, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i16> [[TMP1]], <16 x i16> %passthru
				; CHECK-NEXT: ret <16 x i16> [[TMP3]]
				;
				%a = tail call <16 x i16> @llvm.x86.avx512.mask.permvar.hi.256(<16 x i16> %a0, <16 x i16> <i16 undef, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <16 x i16> %passthru, i16 %mask)
				ret <16 x i16> %a
				}

				declare <32 x i16> @llvm.x86.avx512.mask.permvar.hi.512(<32 x i16>, <32 x i16>, <32 x i16>, i32)

				define <32 x i16> @identity_test_permvar_hi_512(<32 x i16> %a0) {
				; CHECK-LABEL: @identity_test_permvar_hi_512(
				; CHECK-NEXT: ret <32 x i16> %a0
				;
				%a = tail call <32 x i16> @llvm.x86.avx512.mask.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15, i16 16, i16 17, i16 18, i16 19, i16 20, i16 21, i16 22, i16 23, i16 24, i16 25, i16 26, i16 27, i16 28, i16 29, i16 30, i16 31>, <32 x i16> undef, i32 -1)
				ret <32 x i16> %a
				}

				define <32 x i16> @identity_test_permvar_hi_512_mask(<32 x i16> %a0, <32 x i16> %passthru, i32 %mask) {
				; CHECK-LABEL: @identity_test_permvar_hi_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i32 %mask to <32 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <32 x i1> [[TMP1]], <32 x i16> %a0, <32 x i16> %passthru
				; CHECK-NEXT: ret <32 x i16> [[TMP2]]
				;
				%a = tail call <32 x i16> @llvm.x86.avx512.mask.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15, i16 16, i16 17, i16 18, i16 19, i16 20, i16 21, i16 22, i16 23, i16 24, i16 25, i16 26, i16 27, i16 28, i16 29, i16 30, i16 31>, <32 x i16> %passthru, i32 %mask)
				ret <32 x i16> %a
				}

				define <32 x i16> @zero_test_permvar_hi_512(<32 x i16> %a0) {
				; CHECK-LABEL: @zero_test_permvar_hi_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i16> %a0, <32 x i16> undef, <32 x i32> zeroinitializer
				; CHECK-NEXT: ret <32 x i16> [[TMP1]]
				;
				%a = tail call <32 x i16> @llvm.x86.avx512.mask.permvar.hi.512(<32 x i16> %a0, <32 x i16> zeroinitializer, <32 x i16> undef, i32 -1)
				ret <32 x i16> %a
				}

				define <32 x i16> @zero_test_permvar_hi_512_mask(<32 x i16> %a0, <32 x i16> %passthru, i32 %mask) {
				; CHECK-LABEL: @zero_test_permvar_hi_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i16> %a0, <32 x i16> undef, <32 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i32 %mask to <32 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i16> [[TMP1]], <32 x i16> %passthru
				; CHECK-NEXT: ret <32 x i16> [[TMP3]]
				;
				%a = tail call <32 x i16> @llvm.x86.avx512.mask.permvar.hi.512(<32 x i16> %a0, <32 x i16> zeroinitializer, <32 x i16> %passthru, i32 %mask)
				ret <32 x i16> %a
				}

				define <32 x i16> @shuffle_test_permvar_hi_512(<32 x i16> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_hi_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i16> %a0, <32 x i16> undef, <32 x i32> <i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <32 x i16> [[TMP1]]
				;
				%a = tail call <32 x i16> @llvm.x86.avx512.mask.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> undef, i32 -1)
				ret <32 x i16> %a
				}

				define <32 x i16> @shuffle_test_permvar_hi_512_mask(<32 x i16> %a0, <32 x i16> %passthru, i32 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_hi_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i16> %a0, <32 x i16> undef, <32 x i32> <i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i32 %mask to <32 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i16> [[TMP1]], <32 x i16> %passthru
				; CHECK-NEXT: ret <32 x i16> [[TMP3]]
				;
				%a = tail call <32 x i16> @llvm.x86.avx512.mask.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 31, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> %passthru, i32 %mask)
				ret <32 x i16> %a
				}

				define <32 x i16> @undef_test_permvar_hi_512(<32 x i16> %a0) {
				; CHECK-LABEL: @undef_test_permvar_hi_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i16> %a0, <32 x i16> undef, <32 x i32> <i32 undef, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <32 x i16> [[TMP1]]
				;
				%a = tail call <32 x i16> @llvm.x86.avx512.mask.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 undef, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> undef, i32 -1)
				ret <32 x i16> %a
				}

				define <32 x i16> @undef_test_permvar_hi_512_mask(<32 x i16> %a0, <32 x i16> %passthru, i32 %mask) {
				; CHECK-LABEL: @undef_test_permvar_hi_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i16> %a0, <32 x i16> undef, <32 x i32> <i32 undef, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i32 %mask to <32 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i16> [[TMP1]], <32 x i16> %passthru
				; CHECK-NEXT: ret <32 x i16> [[TMP3]]
				;
				%a = tail call <32 x i16> @llvm.x86.avx512.mask.permvar.hi.512(<32 x i16> %a0, <32 x i16> <i16 undef, i16 30, i16 29, i16 28, i16 27, i16 26, i16 25, i16 24, i16 23, i16 22, i16 21, i16 20, i16 19, i16 18, i16 17, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 0>, <32 x i16> %passthru, i32 %mask)
				ret <32 x i16> %a
				}

				declare <16 x i8> @llvm.x86.avx512.mask.permvar.qi.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

				define <16 x i8> @identity_test_permvar_qi_128(<16 x i8> %a0) {
				; CHECK-LABEL: @identity_test_permvar_qi_128(
				; CHECK-NEXT: ret <16 x i8> %a0
				;
				%a = tail call <16 x i8> @llvm.x86.avx512.mask.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15>, <16 x i8> undef, i16 -1)
				ret <16 x i8> %a
				}

				define <16 x i8> @identity_test_permvar_qi_128_mask(<16 x i8> %a0, <16 x i8> %passthru, i16 %mask) {
				; CHECK-LABEL: @identity_test_permvar_qi_128_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <16 x i1> [[TMP1]], <16 x i8> %a0, <16 x i8> %passthru
				; CHECK-NEXT: ret <16 x i8> [[TMP2]]
				;
				%a = tail call <16 x i8> @llvm.x86.avx512.mask.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15>, <16 x i8> %passthru, i16 %mask)
				ret <16 x i8> %a
				}

				define <16 x i8> @zero_test_permvar_qi_128(<16 x i8> %a0) {
				; CHECK-LABEL: @zero_test_permvar_qi_128(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i8> %a0, <16 x i8> undef, <16 x i32> zeroinitializer
				; CHECK-NEXT: ret <16 x i8> [[TMP1]]
				;
				%a = tail call <16 x i8> @llvm.x86.avx512.mask.permvar.qi.128(<16 x i8> %a0, <16 x i8> zeroinitializer, <16 x i8> undef, i16 -1)
				ret <16 x i8> %a
				}

				define <16 x i8> @zero_test_permvar_qi_128_mask(<16 x i8> %a0, <16 x i8> %passthru, i16 %mask) {
				; CHECK-LABEL: @zero_test_permvar_qi_128_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i8> %a0, <16 x i8> undef, <16 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i8> [[TMP1]], <16 x i8> %passthru
				; CHECK-NEXT: ret <16 x i8> [[TMP3]]
				;
				%a = tail call <16 x i8> @llvm.x86.avx512.mask.permvar.qi.128(<16 x i8> %a0, <16 x i8> zeroinitializer, <16 x i8> %passthru, i16 %mask)
				ret <16 x i8> %a
				}

				define <16 x i8> @shuffle_test_permvar_qi_128(<16 x i8> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_qi_128(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i8> %a0, <16 x i8> undef, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <16 x i8> [[TMP1]]
				;
				%a = tail call <16 x i8> @llvm.x86.avx512.mask.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> undef, i16 -1)
				ret <16 x i8> %a
				}

				define <16 x i8> @shuffle_test_permvar_qi_128_mask(<16 x i8> %a0, <16 x i8> %passthru, i16 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_qi_128_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i8> %a0, <16 x i8> undef, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i8> [[TMP1]], <16 x i8> %passthru
				; CHECK-NEXT: ret <16 x i8> [[TMP3]]
				;
				%a = tail call <16 x i8> @llvm.x86.avx512.mask.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> %passthru, i16 %mask)
				ret <16 x i8> %a
				}

				define <16 x i8> @undef_test_permvar_qi_128(<16 x i8> %a0) {
				; CHECK-LABEL: @undef_test_permvar_qi_128(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i8> %a0, <16 x i8> undef, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <16 x i8> [[TMP1]]
				;
				%a = tail call <16 x i8> @llvm.x86.avx512.mask.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 undef, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> undef, i16 -1)
				ret <16 x i8> %a
				}

				define <16 x i8> @undef_test_permvar_qi_128_mask(<16 x i8> %a0, <16 x i8> %passthru, i16 %mask) {
				; CHECK-LABEL: @undef_test_permvar_qi_128_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <16 x i8> %a0, <16 x i8> undef, <16 x i32> <i32 undef, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i16 %mask to <16 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <16 x i1> [[TMP2]], <16 x i8> [[TMP1]], <16 x i8> %passthru
				; CHECK-NEXT: ret <16 x i8> [[TMP3]]
				;
				%a = tail call <16 x i8> @llvm.x86.avx512.mask.permvar.qi.128(<16 x i8> %a0, <16 x i8> <i8 undef, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <16 x i8> %passthru, i16 %mask)
				ret <16 x i8> %a
				}

				declare <32 x i8> @llvm.x86.avx512.mask.permvar.qi.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

				define <32 x i8> @identity_test_permvar_qi_256(<32 x i8> %a0) {
				; CHECK-LABEL: @identity_test_permvar_qi_256(
				; CHECK-NEXT: ret <32 x i8> %a0
				;
				%a = tail call <32 x i8> @llvm.x86.avx512.mask.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 16, i8 17, i8 18, i8 19, i8 20, i8 21, i8 22, i8 23, i8 24, i8 25, i8 26, i8 27, i8 28, i8 29, i8 30, i8 31>, <32 x i8> undef, i32 -1)
				ret <32 x i8> %a
				}

				define <32 x i8> @identity_test_permvar_qi_256_mask(<32 x i8> %a0, <32 x i8> %passthru, i32 %mask) {
				; CHECK-LABEL: @identity_test_permvar_qi_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i32 %mask to <32 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <32 x i1> [[TMP1]], <32 x i8> %a0, <32 x i8> %passthru
				; CHECK-NEXT: ret <32 x i8> [[TMP2]]
				;
				%a = tail call <32 x i8> @llvm.x86.avx512.mask.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 16, i8 17, i8 18, i8 19, i8 20, i8 21, i8 22, i8 23, i8 24, i8 25, i8 26, i8 27, i8 28, i8 29, i8 30, i8 31>, <32 x i8> %passthru, i32 %mask)
				ret <32 x i8> %a
				}

				define <32 x i8> @zero_test_permvar_qi_256(<32 x i8> %a0) {
				; CHECK-LABEL: @zero_test_permvar_qi_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i8> %a0, <32 x i8> undef, <32 x i32> zeroinitializer
				; CHECK-NEXT: ret <32 x i8> [[TMP1]]
				;
				%a = tail call <32 x i8> @llvm.x86.avx512.mask.permvar.qi.256(<32 x i8> %a0, <32 x i8> zeroinitializer, <32 x i8> undef, i32 -1)
				ret <32 x i8> %a
				}

				define <32 x i8> @zero_test_permvar_qi_256_mask(<32 x i8> %a0, <32 x i8> %passthru, i32 %mask) {
				; CHECK-LABEL: @zero_test_permvar_qi_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i8> %a0, <32 x i8> undef, <32 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i32 %mask to <32 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i8> [[TMP1]], <32 x i8> %passthru
				; CHECK-NEXT: ret <32 x i8> [[TMP3]]
				;
				%a = tail call <32 x i8> @llvm.x86.avx512.mask.permvar.qi.256(<32 x i8> %a0, <32 x i8> zeroinitializer, <32 x i8> %passthru, i32 %mask)
				ret <32 x i8> %a
				}

				define <32 x i8> @shuffle_test_permvar_qi_256(<32 x i8> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_qi_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i8> %a0, <32 x i8> undef, <32 x i32> <i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <32 x i8> [[TMP1]]
				;
				%a = tail call <32 x i8> @llvm.x86.avx512.mask.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <32 x i8> undef, i32 -1)
				ret <32 x i8> %a
				}

				define <32 x i8> @shuffle_test_permvar_qi_256_mask(<32 x i8> %a0, <32 x i8> %passthru, i32 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_qi_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i8> %a0, <32 x i8> undef, <32 x i32> <i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i32 %mask to <32 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i8> [[TMP1]], <32 x i8> %passthru
				; CHECK-NEXT: ret <32 x i8> [[TMP3]]
				;
				%a = tail call <32 x i8> @llvm.x86.avx512.mask.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <32 x i8> %passthru, i32 %mask)
				ret <32 x i8> %a
				}

				define <32 x i8> @undef_test_permvar_qi_256(<32 x i8> %a0) {
				; CHECK-LABEL: @undef_test_permvar_qi_256(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i8> %a0, <32 x i8> undef, <32 x i32> <i32 undef, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <32 x i8> [[TMP1]]
				;
				%a = tail call <32 x i8> @llvm.x86.avx512.mask.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 undef, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <32 x i8> undef, i32 -1)
				ret <32 x i8> %a
				}

				define <32 x i8> @undef_test_permvar_qi_256_mask(<32 x i8> %a0, <32 x i8> %passthru, i32 %mask) {
				; CHECK-LABEL: @undef_test_permvar_qi_256_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <32 x i8> %a0, <32 x i8> undef, <32 x i32> <i32 undef, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i32 %mask to <32 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <32 x i1> [[TMP2]], <32 x i8> [[TMP1]], <32 x i8> %passthru
				; CHECK-NEXT: ret <32 x i8> [[TMP3]]
				;
				%a = tail call <32 x i8> @llvm.x86.avx512.mask.permvar.qi.256(<32 x i8> %a0, <32 x i8> <i8 undef, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <32 x i8> %passthru, i32 %mask)
				ret <32 x i8> %a
				}

				declare <64 x i8> @llvm.x86.avx512.mask.permvar.qi.512(<64 x i8>, <64 x i8>, <64 x i8>, i64)

				define <64 x i8> @identity_test_permvar_qi_512(<64 x i8> %a0) {
				; CHECK-LABEL: @identity_test_permvar_qi_512(
				; CHECK-NEXT: ret <64 x i8> %a0
				;
				%a = tail call <64 x i8> @llvm.x86.avx512.mask.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 16, i8 17, i8 18, i8 19, i8 20, i8 21, i8 22, i8 23, i8 24, i8 25, i8 26, i8 27, i8 28, i8 29, i8 30, i8 31, i8 32, i8 33, i8 34, i8 35, i8 36, i8 37, i8 38, i8 39, i8 40, i8 41, i8 42, i8 43, i8 44, i8 45, i8 46, i8 47, i8 48, i8 49, i8 50, i8 51, i8 52, i8 53, i8 54, i8 55, i8 56, i8 57, i8 58, i8 59, i8 60, i8 61, i8 62, i8 63>, <64 x i8> undef, i64 -1)
				ret <64 x i8> %a
				}

				define <64 x i8> @identity_test_permvar_qi_512_mask(<64 x i8> %a0, <64 x i8> %passthru, i64 %mask) {
				; CHECK-LABEL: @identity_test_permvar_qi_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = bitcast i64 %mask to <64 x i1>
				; CHECK-NEXT: [[TMP2:%.*]] = select <64 x i1> [[TMP1]], <64 x i8> %a0, <64 x i8> %passthru
				; CHECK-NEXT: ret <64 x i8> [[TMP2]]
				;
				%a = tail call <64 x i8> @llvm.x86.avx512.mask.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 16, i8 17, i8 18, i8 19, i8 20, i8 21, i8 22, i8 23, i8 24, i8 25, i8 26, i8 27, i8 28, i8 29, i8 30, i8 31, i8 32, i8 33, i8 34, i8 35, i8 36, i8 37, i8 38, i8 39, i8 40, i8 41, i8 42, i8 43, i8 44, i8 45, i8 46, i8 47, i8 48, i8 49, i8 50, i8 51, i8 52, i8 53, i8 54, i8 55, i8 56, i8 57, i8 58, i8 59, i8 60, i8 61, i8 62, i8 63>, <64 x i8> %passthru, i64 %mask)
				ret <64 x i8> %a
				}

				define <64 x i8> @zero_test_permvar_qi_512(<64 x i8> %a0) {
				; CHECK-LABEL: @zero_test_permvar_qi_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <64 x i8> %a0, <64 x i8> undef, <64 x i32> zeroinitializer
				; CHECK-NEXT: ret <64 x i8> [[TMP1]]
				;
				%a = tail call <64 x i8> @llvm.x86.avx512.mask.permvar.qi.512(<64 x i8> %a0, <64 x i8> zeroinitializer, <64 x i8> undef, i64 -1)
				ret <64 x i8> %a
				}

				define <64 x i8> @zero_test_permvar_qi_512_mask(<64 x i8> %a0, <64 x i8> %passthru, i64 %mask) {
				; CHECK-LABEL: @zero_test_permvar_qi_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <64 x i8> %a0, <64 x i8> undef, <64 x i32> zeroinitializer
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i64 %mask to <64 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <64 x i1> [[TMP2]], <64 x i8> [[TMP1]], <64 x i8> %passthru
				; CHECK-NEXT: ret <64 x i8> [[TMP3]]
				;
				%a = tail call <64 x i8> @llvm.x86.avx512.mask.permvar.qi.512(<64 x i8> %a0, <64 x i8> zeroinitializer, <64 x i8> %passthru, i64 %mask)
				ret <64 x i8> %a
				}

				define <64 x i8> @shuffle_test_permvar_qi_512(<64 x i8> %a0) {
				; CHECK-LABEL: @shuffle_test_permvar_qi_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <64 x i8> %a0, <64 x i8> undef, <64 x i32> <i32 63, i32 62, i32 61, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <64 x i8> [[TMP1]]
				;
				%a = tail call <64 x i8> @llvm.x86.avx512.mask.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 63, i8 62, i8 61, i8 60, i8 59, i8 58, i8 57, i8 56, i8 55, i8 54, i8 53, i8 52, i8 51, i8 50, i8 49, i8 48, i8 47, i8 46, i8 45, i8 44, i8 43, i8 42, i8 41, i8 40, i8 39, i8 38, i8 37, i8 36, i8 35, i8 34, i8 33, i8 32, i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <64 x i8> undef, i64 -1)
				ret <64 x i8> %a
				}

				define <64 x i8> @shuffle_test_permvar_qi_512_mask(<64 x i8> %a0, <64 x i8> %passthru, i64 %mask) {
				; CHECK-LABEL: @shuffle_test_permvar_qi_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <64 x i8> %a0, <64 x i8> undef, <64 x i32> <i32 63, i32 62, i32 61, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i64 %mask to <64 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <64 x i1> [[TMP2]], <64 x i8> [[TMP1]], <64 x i8> %passthru
				; CHECK-NEXT: ret <64 x i8> [[TMP3]]
				;
				%a = tail call <64 x i8> @llvm.x86.avx512.mask.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 63, i8 62, i8 61, i8 60, i8 59, i8 58, i8 57, i8 56, i8 55, i8 54, i8 53, i8 52, i8 51, i8 50, i8 49, i8 48, i8 47, i8 46, i8 45, i8 44, i8 43, i8 42, i8 41, i8 40, i8 39, i8 38, i8 37, i8 36, i8 35, i8 34, i8 33, i8 32, i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <64 x i8> %passthru, i64 %mask)
				ret <64 x i8> %a
				}

				define <64 x i8> @undef_test_permvar_qi_512(<64 x i8> %a0) {
				; CHECK-LABEL: @undef_test_permvar_qi_512(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <64 x i8> %a0, <64 x i8> undef, <64 x i32> <i32 undef, i32 62, i32 61, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: ret <64 x i8> [[TMP1]]
				;
				%a = tail call <64 x i8> @llvm.x86.avx512.mask.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 undef, i8 62, i8 61, i8 60, i8 59, i8 58, i8 57, i8 56, i8 55, i8 54, i8 53, i8 52, i8 51, i8 50, i8 49, i8 48, i8 47, i8 46, i8 45, i8 44, i8 43, i8 42, i8 41, i8 40, i8 39, i8 38, i8 37, i8 36, i8 35, i8 34, i8 33, i8 32, i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <64 x i8> undef, i64 -1)
				ret <64 x i8> %a
				}

				define <64 x i8> @undef_test_permvar_qi_512_mask(<64 x i8> %a0, <64 x i8> %passthru, i64 %mask) {
				; CHECK-LABEL: @undef_test_permvar_qi_512_mask(
				; CHECK-NEXT: [[TMP1:%.*]] = shufflevector <64 x i8> %a0, <64 x i8> undef, <64 x i32> <i32 undef, i32 62, i32 61, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				; CHECK-NEXT: [[TMP2:%.*]] = bitcast i64 %mask to <64 x i1>
				; CHECK-NEXT: [[TMP3:%.*]] = select <64 x i1> [[TMP2]], <64 x i8> [[TMP1]], <64 x i8> %passthru
				; CHECK-NEXT: ret <64 x i8> [[TMP3]]
				;
				%a = tail call <64 x i8> @llvm.x86.avx512.mask.permvar.qi.512(<64 x i8> %a0, <64 x i8> <i8 undef, i8 62, i8 61, i8 60, i8 59, i8 58, i8 57, i8 56, i8 55, i8 54, i8 53, i8 52, i8 51, i8 50, i8 49, i8 48, i8 47, i8 46, i8 45, i8 44, i8 43, i8 42, i8 41, i8 40, i8 39, i8 38, i8 37, i8 36, i8 35, i8 34, i8 33, i8 32, i8 31, i8 30, i8 29, i8 28, i8 27, i8 26, i8 25, i8 24, i8 23, i8 22, i8 21, i8 20, i8 19, i8 18, i8 17, i8 16, i8 15, i8 14, i8 13, i8 12, i8 11, i8 10, i8 9, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0>, <64 x i8> %passthru, i64 %mask)
				ret <64 x i8> %a
				}