This is an archive of the discontinued LLVM Phabricator instance.

[x86] swap order of srl (and X, C1), C2 when it saves size
ClosedPublic

Authored by spatel on Sep 22 2017, 9:13 AM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
zvi

Commits

rG3339954fa365: [x86] swap order of srl (and X, C1), C2 when it saves size
rL314023: [x86] swap order of srl (and X, C1), C2 when it saves size

Summary

The (non-)obvious win comes from saving 3 bytes by using the 0x83 'and' opcode variant instead of 0x81. There are also better improvements based on known-bits that allow us to eliminate the mask entirely.

As noted, this could be extended. There are potentially other wins from always shifting first, but doing that reveals a tangle of problems in other pattern matching. We do this transform generically in instcombine, but we often have icmp IR that doesn't match that pattern.

Diff Detail

Event Timeline

spatel created this revision.Sep 22 2017, 9:13 AM

Herald added a subscriber: mcrosier. · View Herald TranscriptSep 22 2017, 9:13 AM

craig.topper added inline comments.Sep 22 2017, 9:45 AM

lib/Target/X86/X86ISelLowering.cpp
31785	What about a larger than 32-bit and mask that would allow us to use a 32-bit and? Otherwise we use a movabsq to load the immediate.
31837	Not related to this patch, but shouldn't that be "Arithmetic" not "Algebraic"?
test/CodeGen/X86/urem-i8-constant.ll
10	It's not immediately obvious to me how moving 0x7000 right by 12 bits turned into a mozwl.

craig.topper added inline comments.Sep 22 2017, 10:16 AM

test/CodeGen/X86/urem-i8-constant.ll
10	Oh there's magic in SelectionDAGISel::CheckAndMask that I never knew about.

spatel added inline comments.Sep 22 2017, 10:35 AM

lib/Target/X86/X86ISelLowering.cpp
31785	Yes, that's a limitation. I'll have to check if that causes regressions for the other patterns. Ok to make that a TODO in this patch?
31837	'Algebraic' is the IBM / Power lingo: https://www.ibm.com/support/knowledgecenter/en/ssw_aix_71/com.ibm.aix.alangref/idalangref_srawi_srai_instrs.htm ...which is probably why I chose it. I can make it 'Arithmetic' to be more x86.
test/CodeGen/X86/urem-i8-constant.ll
10	Hmm...right, there's a very late computeKnownBits that I didn't see either. I did write a dirty test program to confirm that it's not miscompiling for any 8-bit urem (still waiting for Alive to come back).

LGTM

lib/Target/X86/X86ISelLowering.cpp
31785	TODO is fine.

This revision is now accepted and ready to land.Sep 22 2017, 10:46 AM

spatel added inline comments.Sep 23 2017, 7:36 AM

lib/Target/X86/X86ISelLowering.cpp
31785	http://llvm.org/viewvc/llvm-project?view=revision&revision=314064

spatel mentioned this in rL314063: [x86] add an add+shift test for follow-up suggestion from D38181; NFC.Sep 25 2017, 5:08 AM

spatel mentioned this in rL314064: [x86] reduce 64-bit mask constant to 32-bits by right shifting.

Closed by commit rL314023: [x86] swap order of srl (and X, C1), C2 when it saves size (authored by spatel). · Explain WhySep 25 2017, 5:11 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

X86/

X86ISelLowering.cpp

37 lines

test/

CodeGen/

X86/

avx512bw-intrinsics-fast-isel.ll

24 lines

avx512bw-intrinsics-upgrade.ll

508 lines

divide-by-constant.ll

12 lines

4 lines

7 lines

12 lines

2 lines

10 lines

Diff 116354

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 31,756 Lines • ▼ Show 20 Lines	else if (SarConst.isNegative())
DAG.getConstant(-SarConst, DL, CVT));		DAG.getConstant(-SarConst, DL, CVT));
else		else
return DAG.getNode(ISD::SRA, DL, VT, NN,		return DAG.getNode(ISD::SRA, DL, VT, NN,
DAG.getConstant(SarConst, DL, CVT));		DAG.getConstant(SarConst, DL, CVT));
}		}
return SDValue();		return SDValue();
}		}

		static SDValue combineShiftRightLogical(SDNode *N, SelectionDAG &DAG) {
		SDValue N0 = N->getOperand(0);
		SDValue N1 = N->getOperand(1);
		EVT VT = N0.getValueType();

		// Try to improve a sequence of srl (and X, C1), C2 by inverting the order.
		// TODO: This is a generic DAG combine that became an x86-only combine to
		// avoid shortcomings in other folds such as bswap, bit-test ('bt'), and
		// and-not ('andn').
		if (N0.getOpcode() != ISD::AND \|\| !N0.hasOneUse())
		return SDValue();

		ConstantSDNode *ShiftC = dyn_cast<ConstantSDNode>(N1);
		ConstantSDNode *AndC = dyn_cast<ConstantSDNode>(N0.getOperand(1));
		if (!ShiftC \|\| !AndC)
		return SDValue();

		// If the 'and' mask is already smaller than a byte, then don't bother.
		// If the new 'and' mask would be bigger than a byte, then don't bother.
		// If the mask fits in a byte, then we know we can generate smaller and
		// potentially better code by shifting first.
		craig.topperUnsubmitted Not Done Reply Inline Actions What about a larger than 32-bit and mask that would allow us to use a 32-bit and? Otherwise we use a movabsq to load the immediate. craig.topper: What about a larger than 32-bit and mask that would allow us to use a 32-bit and? Otherwise we…
		spatelAuthorUnsubmitted Not Done Reply Inline Actions Yes, that's a limitation. I'll have to check if that causes regressions for the other patterns. Ok to make that a TODO in this patch? spatel: Yes, that's a limitation. I'll have to check if that causes regressions for the other patterns.
		craig.topperUnsubmitted Not Done Reply Inline Actions TODO is fine. craig.topper: TODO is fine.
		spatelAuthorUnsubmitted Not Done Reply Inline Actions http://llvm.org/viewvc/llvm-project?view=revision&revision=314064 spatel: http://llvm.org/viewvc/llvm-project?view=revision&revision=314064
		APInt MaskVal = AndC->getAPIntValue();
		APInt NewMaskVal = MaskVal.lshr(ShiftC->getAPIntValue());
		if (MaskVal.getMinSignedBits() <= 8 \|\| NewMaskVal.getMinSignedBits() > 8)
		return SDValue();

		// srl (and X, AndC), ShiftC --> and (srl X, ShiftC), (AndC >> ShiftC)
		SDLoc DL(N);
		SDValue NewMask = DAG.getConstant(NewMaskVal, DL, VT);
		SDValue NewShift = DAG.getNode(ISD::SRL, DL, VT, N0.getOperand(0), N1);
		return DAG.getNode(ISD::AND, DL, VT, NewShift, NewMask);
		}

/// \brief Returns a vector of 0s if the node in input is a vector logical		/// \brief Returns a vector of 0s if the node in input is a vector logical
/// shift by a constant amount which is known to be bigger than or equal		/// shift by a constant amount which is known to be bigger than or equal
/// to the vector element size in bits.		/// to the vector element size in bits.
static SDValue performShiftToAllZeros(SDNode *N, SelectionDAG &DAG,		static SDValue performShiftToAllZeros(SDNode *N, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

if (VT != MVT::v2i64 && VT != MVT::v4i32 && VT != MVT::v8i16 &&		if (VT != MVT::v2i64 && VT != MVT::v4i32 && VT != MVT::v8i16 &&
Show All 23 Lines
static SDValue combineShift(SDNode* N, SelectionDAG &DAG,		static SDValue combineShift(SDNode* N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
if (N->getOpcode() == ISD::SHL)		if (N->getOpcode() == ISD::SHL)
if (SDValue V = combineShiftLeft(N, DAG))		if (SDValue V = combineShiftLeft(N, DAG))
return V;		return V;

if (N->getOpcode() == ISD::SRA)		if (N->getOpcode() == ISD::SRA)
if (SDValue V = combineShiftRightAlgebraic(N, DAG))		if (SDValue V = combineShiftRightAlgebraic(N, DAG))
		craig.topperUnsubmitted Not Done Reply Inline Actions Not related to this patch, but shouldn't that be "Arithmetic" not "Algebraic"? craig.topper: Not related to this patch, but shouldn't that be "Arithmetic" not "Algebraic"?
		spatelAuthorUnsubmitted Not Done Reply Inline Actions 'Algebraic' is the IBM / Power lingo: https://www.ibm.com/support/knowledgecenter/en/ssw_aix_71/com.ibm.aix.alangref/idalangref_srawi_srai_instrs.htm ...which is probably why I chose it. I can make it 'Arithmetic' to be more x86. spatel: 'Algebraic' is the IBM / Power lingo: https://www.ibm.
return V;		return V;

		if (N->getOpcode() == ISD::SRL)
		if (SDValue V = combineShiftRightLogical(N, DAG))
		return V;

// Try to fold this logical shift into a zero vector.		// Try to fold this logical shift into a zero vector.
if (N->getOpcode() != ISD::SRA)		if (N->getOpcode() != ISD::SRA)
if (SDValue V = performShiftToAllZeros(N, DAG, Subtarget))		if (SDValue V = performShiftToAllZeros(N, DAG, Subtarget))
return V;		return V;

return SDValue();		return SDValue();
}		}

▲ Show 20 Lines • Show All 5,210 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512bw-intrinsics-fast-isel.ll

	Show First 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	; X32-NEXT: vpmovm2b %k1, %zmm1			; X32-NEXT: vpmovm2b %k1, %zmm1
	; X32-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4]			; X32-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4]
	; X32-NEXT: vpmovm2b %k0, %zmm2			; X32-NEXT: vpmovm2b %k0, %zmm2
	; X32-NEXT: vmovdqa {{.*#+}} ymm0 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm0 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm0, %ymm2, %ymm1, %ymm1			; X32-NEXT: vpblendvb %ymm0, %ymm2, %ymm1, %ymm1
	; X32-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm1[0,1,2,3],zmm2[4,5,6,7]			; X32-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm1[0,1,2,3],zmm2[4,5,6,7]
	; X32-NEXT: vpmovb2m %zmm1, %k0			; X32-NEXT: vpmovb2m %zmm1, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $61440, %ecx # imm = 0xF000
	; X32-NEXT: shrl $12, %ecx			; X32-NEXT: shrl $12, %ecx
				; X32-NEXT: andl $15, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm1			; X32-NEXT: vpmovm2b %k1, %zmm1
	; X32-NEXT: vpbroadcastd %xmm1, %xmm1			; X32-NEXT: vpbroadcastd %xmm1, %xmm1
	; X32-NEXT: vpmovm2b %k0, %zmm2			; X32-NEXT: vpmovm2b %k0, %zmm2
	; X32-NEXT: vmovdqa {{.*#+}} ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm0, %ymm2, %ymm1, %ymm1			; X32-NEXT: vpblendvb %ymm0, %ymm2, %ymm1, %ymm1
	; X32-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm1[0,1,2,3],zmm2[4,5,6,7]			; X32-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm1[0,1,2,3],zmm2[4,5,6,7]
	; X32-NEXT: vpmovb2m %zmm1, %k0			; X32-NEXT: vpmovb2m %zmm1, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: shrl $13, %ecx			; X32-NEXT: shrl $13, %ecx
	; X32-NEXT: andb $1, %cl			; X32-NEXT: andb $1, %cl
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm1			; X32-NEXT: vpmovm2b %k1, %zmm1
	; X32-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2]			; X32-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2]
	; X32-NEXT: vpmovm2b %k0, %zmm2			; X32-NEXT: vpmovm2b %k0, %zmm2
	; X32-NEXT: vmovdqa {{.*#+}} ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm0, %ymm2, %ymm1, %ymm1			; X32-NEXT: vpblendvb %ymm0, %ymm2, %ymm1, %ymm1
	; X32-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm1[0,1,2,3],zmm2[4,5,6,7]			; X32-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm1[0,1,2,3],zmm2[4,5,6,7]
	; X32-NEXT: vpmovb2m %zmm1, %k0			; X32-NEXT: vpmovb2m %zmm1, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $49152, %ecx # imm = 0xC000
	; X32-NEXT: shrl $14, %ecx			; X32-NEXT: shrl $14, %ecx
				; X32-NEXT: andl $3, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm1			; X32-NEXT: vpmovm2b %k1, %zmm1
	; X32-NEXT: vpbroadcastw %xmm1, %xmm1			; X32-NEXT: vpbroadcastw %xmm1, %xmm1
	; X32-NEXT: vpmovm2b %k0, %zmm2			; X32-NEXT: vpmovm2b %k0, %zmm2
	; X32-NEXT: vmovdqa {{.*#+}} ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm0, %ymm2, %ymm1, %ymm1			; X32-NEXT: vpblendvb %ymm0, %ymm2, %ymm1, %ymm1
	; X32-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm1[0,1,2,3],zmm2[4,5,6,7]			; X32-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm1[0,1,2,3],zmm2[4,5,6,7]
	; X32-NEXT: vpmovb2m %zmm1, %k0			; X32-NEXT: vpmovb2m %zmm1, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $32768, %ecx # imm = 0x8000
	; X32-NEXT: shrl $15, %ecx			; X32-NEXT: shrl $15, %ecx
				; X32-NEXT: andl $1, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm1			; X32-NEXT: vpmovm2b %k1, %zmm1
	; X32-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0]			; X32-NEXT: vpslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0]
	; X32-NEXT: vpmovm2b %k0, %zmm2			; X32-NEXT: vpmovm2b %k0, %zmm2
	; X32-NEXT: vmovdqa {{.*#+}} ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm0 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm0, %ymm2, %ymm1, %ymm1			; X32-NEXT: vpblendvb %ymm0, %ymm2, %ymm1, %ymm1
	; X32-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm1[0,1,2,3],zmm2[4,5,6,7]			; X32-NEXT: vshufi64x2 {{.*#+}} zmm1 = zmm1[0,1,2,3],zmm2[4,5,6,7]
	; X32-NEXT: vpmovb2m %zmm1, %k0			; X32-NEXT: vpmovb2m %zmm1, %k0
	▲ Show 20 Lines • Show All 303 Lines • ▼ Show 20 Lines
	; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4]			; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4]
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm6			; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm6
	; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm7, %ymm6, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm7, %ymm6, %ymm0, %ymm0
	; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0			; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $61440, %ecx # imm = 0xF000
	; X32-NEXT: shrl $12, %ecx			; X32-NEXT: shrl $12, %ecx
				; X32-NEXT: andl $15, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpbroadcastd %xmm0, %xmm0			; X32-NEXT: vpbroadcastd %xmm0, %xmm0
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm6			; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm6
	; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm7, %ymm6, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm7, %ymm6, %ymm0, %ymm0
	; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0			; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: shrl $13, %ecx			; X32-NEXT: shrl $13, %ecx
	; X32-NEXT: andb $1, %cl			; X32-NEXT: andb $1, %cl
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2]			; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2]
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm6			; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm6
	; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm7, %ymm6, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm7, %ymm6, %ymm0, %ymm0
	; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0			; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $49152, %ecx # imm = 0xC000
	; X32-NEXT: shrl $14, %ecx			; X32-NEXT: shrl $14, %ecx
				; X32-NEXT: andl $3, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpbroadcastw %xmm0, %xmm0			; X32-NEXT: vpbroadcastw %xmm0, %xmm0
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm6			; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm6
	; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm7, %ymm6, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm7, %ymm6, %ymm0, %ymm0
	; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0			; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $32768, %ecx # imm = 0x8000
	; X32-NEXT: shrl $15, %ecx			; X32-NEXT: shrl $15, %ecx
				; X32-NEXT: andl $1, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0]			; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0]
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm6			; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm6
	; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm7, %ymm6, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm7, %ymm6, %ymm0, %ymm0
	; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0			; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	▲ Show 20 Lines • Show All 323 Lines • ▼ Show 20 Lines
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4]			; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4]
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0
	; X32-NEXT: vshufi64x2 {{.*#+}} zmm0 = zmm0[0,1,2,3],zmm1[4,5,6,7]			; X32-NEXT: vshufi64x2 {{.*#+}} zmm0 = zmm0[0,1,2,3],zmm1[4,5,6,7]
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $61440, %ecx # imm = 0xF000
	; X32-NEXT: shrl $12, %ecx			; X32-NEXT: shrl $12, %ecx
				; X32-NEXT: andl $15, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpbroadcastd %xmm0, %xmm0			; X32-NEXT: vpbroadcastd %xmm0, %xmm0
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0
	; X32-NEXT: vshufi64x2 {{.*#+}} zmm0 = zmm0[0,1,2,3],zmm1[4,5,6,7]			; X32-NEXT: vshufi64x2 {{.*#+}} zmm0 = zmm0[0,1,2,3],zmm1[4,5,6,7]
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: shrl $13, %ecx			; X32-NEXT: shrl $13, %ecx
	; X32-NEXT: andb $1, %cl			; X32-NEXT: andb $1, %cl
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2]			; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2]
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0
	; X32-NEXT: vshufi64x2 {{.*#+}} zmm0 = zmm0[0,1,2,3],zmm1[4,5,6,7]			; X32-NEXT: vshufi64x2 {{.*#+}} zmm0 = zmm0[0,1,2,3],zmm1[4,5,6,7]
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $49152, %ecx # imm = 0xC000
	; X32-NEXT: shrl $14, %ecx			; X32-NEXT: shrl $14, %ecx
				; X32-NEXT: andl $3, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpbroadcastw %xmm0, %xmm0			; X32-NEXT: vpbroadcastw %xmm0, %xmm0
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0
	; X32-NEXT: vshufi64x2 {{.*#+}} zmm0 = zmm0[0,1,2,3],zmm1[4,5,6,7]			; X32-NEXT: vshufi64x2 {{.*#+}} zmm0 = zmm0[0,1,2,3],zmm1[4,5,6,7]
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $32768, %ecx # imm = 0x8000
	; X32-NEXT: shrl $15, %ecx			; X32-NEXT: shrl $15, %ecx
				; X32-NEXT: andl $1, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0]			; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0]
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm2, %ymm1, %ymm0, %ymm0
	; X32-NEXT: vshufi64x2 {{.*#+}} zmm0 = zmm0[0,1,2,3],zmm1[4,5,6,7]			; X32-NEXT: vshufi64x2 {{.*#+}} zmm0 = zmm0[0,1,2,3],zmm1[4,5,6,7]
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	▲ Show 20 Lines • Show All 303 Lines • ▼ Show 20 Lines
	; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4]			; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2,3,4]
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm4			; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm4
	; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm7, %ymm4, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm7, %ymm4, %ymm0, %ymm0
	; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0			; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $61440, %ecx # imm = 0xF000
	; X32-NEXT: shrl $12, %ecx			; X32-NEXT: shrl $12, %ecx
				; X32-NEXT: andl $15, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpbroadcastd %xmm0, %xmm0			; X32-NEXT: vpbroadcastd %xmm0, %xmm0
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm4			; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm4
	; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm7, %ymm4, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm7, %ymm4, %ymm0, %ymm0
	; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0			; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: shrl $13, %ecx			; X32-NEXT: shrl $13, %ecx
	; X32-NEXT: andb $1, %cl			; X32-NEXT: andb $1, %cl
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2]			; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0,1,2]
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm4			; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm4
	; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm7, %ymm4, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm7, %ymm4, %ymm0, %ymm0
	; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0			; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $49152, %ecx # imm = 0xC000
	; X32-NEXT: shrl $14, %ecx			; X32-NEXT: shrl $14, %ecx
				; X32-NEXT: andl $3, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpbroadcastw %xmm0, %xmm0			; X32-NEXT: vpbroadcastw %xmm0, %xmm0
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm4			; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm4
	; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm7, %ymm4, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm7, %ymm4, %ymm0, %ymm0
	; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0			; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	; X32-NEXT: vpmovb2m %zmm0, %k0			; X32-NEXT: vpmovb2m %zmm0, %k0
	; X32-NEXT: movl %eax, %ecx			; X32-NEXT: movl %eax, %ecx
	; X32-NEXT: andl $32768, %ecx # imm = 0x8000
	; X32-NEXT: shrl $15, %ecx			; X32-NEXT: shrl $15, %ecx
				; X32-NEXT: andl $1, %ecx
	; X32-NEXT: kmovd %ecx, %k1			; X32-NEXT: kmovd %ecx, %k1
	; X32-NEXT: vpmovm2b %k1, %zmm0			; X32-NEXT: vpmovm2b %k1, %zmm0
	; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0]			; X32-NEXT: vpslldq {{.*#+}} xmm0 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm0[0]
	; X32-NEXT: vpmovm2b %k0, %zmm1			; X32-NEXT: vpmovm2b %k0, %zmm1
	; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm4			; X32-NEXT: vextracti64x4 $1, %zmm1, %ymm4
	; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; X32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; X32-NEXT: vpblendvb %ymm7, %ymm4, %ymm0, %ymm0			; X32-NEXT: vpblendvb %ymm7, %ymm4, %ymm0, %ymm0
	; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0			; X32-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
	▲ Show 20 Lines • Show All 658 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512bw-intrinsics-upgrade.ll

	Show First 20 Lines • Show All 1,728 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vpcmpgtb %zmm1, %zmm0, %k0 {%k1}			; AVX512BW-NEXT: vpcmpgtb %zmm1, %zmm0, %k0 {%k1}
	; AVX512BW-NEXT: kmovq %k0, %rax			; AVX512BW-NEXT: kmovq %k0, %rax
	; AVX512BW-NEXT: addq %rcx, %rax			; AVX512BW-NEXT: addq %rcx, %rax
	; AVX512BW-NEXT: addq %rdi, %rax			; AVX512BW-NEXT: addq %rdi, %rax
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512F-32-LABEL: test_mask_cmp_b_512:			; AVX512F-32-LABEL: test_mask_cmp_b_512:
	; AVX512F-32: # BB#0:			; AVX512F-32: # BB#0:
	; AVX512F-32-NEXT: pushl %ebx			; AVX512F-32-NEXT: pushl %ebp
	; AVX512F-32-NEXT: .Lcfi5:			; AVX512F-32-NEXT: .Lcfi5:
	; AVX512F-32-NEXT: .cfi_def_cfa_offset 8			; AVX512F-32-NEXT: .cfi_def_cfa_offset 8
	; AVX512F-32-NEXT: pushl %esi			; AVX512F-32-NEXT: pushl %ebx
	; AVX512F-32-NEXT: .Lcfi6:			; AVX512F-32-NEXT: .Lcfi6:
	; AVX512F-32-NEXT: .cfi_def_cfa_offset 12			; AVX512F-32-NEXT: .cfi_def_cfa_offset 12
	; AVX512F-32-NEXT: subl $60, %esp			; AVX512F-32-NEXT: pushl %edi
	; AVX512F-32-NEXT: .Lcfi7:			; AVX512F-32-NEXT: .Lcfi7:
	; AVX512F-32-NEXT: .cfi_def_cfa_offset 72			; AVX512F-32-NEXT: .cfi_def_cfa_offset 16
				; AVX512F-32-NEXT: pushl %esi
	; AVX512F-32-NEXT: .Lcfi8:			; AVX512F-32-NEXT: .Lcfi8:
	; AVX512F-32-NEXT: .cfi_offset %esi, -12			; AVX512F-32-NEXT: .cfi_def_cfa_offset 20
				; AVX512F-32-NEXT: subl $60, %esp
	; AVX512F-32-NEXT: .Lcfi9:			; AVX512F-32-NEXT: .Lcfi9:
	; AVX512F-32-NEXT: .cfi_offset %ebx, -8			; AVX512F-32-NEXT: .cfi_def_cfa_offset 80
				; AVX512F-32-NEXT: .Lcfi10:
				; AVX512F-32-NEXT: .cfi_offset %esi, -20
				; AVX512F-32-NEXT: .Lcfi11:
				; AVX512F-32-NEXT: .cfi_offset %edi, -16
				; AVX512F-32-NEXT: .Lcfi12:
				; AVX512F-32-NEXT: .cfi_offset %ebx, -12
				; AVX512F-32-NEXT: .Lcfi13:
				; AVX512F-32-NEXT: .cfi_offset %ebp, -8
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $5, %al			; AVX512F-32-NEXT: shrb $5, %al
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: movl %ecx, %ebx			; AVX512F-32-NEXT: movl %ecx, %ebx
	; AVX512F-32-NEXT: andb $15, %bl			; AVX512F-32-NEXT: andb $15, %bl
	; AVX512F-32-NEXT: movl %ecx, %edx			; AVX512F-32-NEXT: movl %ecx, %edx
	; AVX512F-32-NEXT: andb $2, %dl			; AVX512F-32-NEXT: andb $2, %dl
	▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl $1036, %edi # imm = 0x40C
	; AVX512F-32-NEXT: andl $61440, %eax # imm = 0xF000			; AVX512F-32-NEXT: bextrl %edi, %ecx, %eax
	; AVX512F-32-NEXT: shrl $12, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
				; AVX512F-32-NEXT: movl %ecx, %ebp
	; AVX512F-32-NEXT: shrl $13, %eax			; AVX512F-32-NEXT: shrl $13, %eax
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl $526, %edx # imm = 0x20E
	; AVX512F-32-NEXT: andl $49152, %eax # imm = 0xC000			; AVX512F-32-NEXT: bextrl %edx, %ebp, %eax
	; AVX512F-32-NEXT: shrl $14, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
				; AVX512F-32-NEXT: movl $271, %esi # imm = 0x10F
				; AVX512F-32-NEXT: bextrl %esi, %ebp, %eax
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: andl $32768, %eax # imm = 0x8000
	; AVX512F-32-NEXT: shrl $15, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: shrl $16, %ecx
	; AVX512F-32-NEXT: shrl $16, %eax			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: andb $2, %dl			; AVX512F-32-NEXT: andb $2, %al
	; AVX512F-32-NEXT: shrb %dl			; AVX512F-32-NEXT: shrb %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %ebx			; AVX512F-32-NEXT: movl %ecx, %ebx
	; AVX512F-32-NEXT: andb $15, %bl			; AVX512F-32-NEXT: andb $15, %bl
	; AVX512F-32-NEXT: movl %ebx, %edx			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $2, %bl			; AVX512F-32-NEXT: shrb $2, %bl
	; AVX512F-32-NEXT: kmovd %ebx, %k1			; AVX512F-32-NEXT: kmovd %ebx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: shrb $3, %dl			; AVX512F-32-NEXT: shrb $3, %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2			; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $4, %dl			; AVX512F-32-NEXT: shrb $4, %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $5, %dl			; AVX512F-32-NEXT: shrb $5, %al
	; AVX512F-32-NEXT: andb $1, %dl			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $6, %dl			; AVX512F-32-NEXT: shrb $6, %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill> %EAX<def>			; AVX512F-32-NEXT: # kill: %CL<def> %CL<kill> %ECX<kill> %ECX<def>
	; AVX512F-32-NEXT: shrb $7, %al			; AVX512F-32-NEXT: shrb $7, %cl
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebp, %ebx
	; AVX512F-32-NEXT: shrl $24, %eax			; AVX512F-32-NEXT: shrl $24, %ebx
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %ebx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastq %xmm2, %ymm3			; AVX512F-32-NEXT: vpbroadcastq %xmm2, %ymm3
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm3 = zmm3[0,1,2,3],zmm4[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm3 = zmm3[0,1,2,3],zmm4[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm3, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm3, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: andb $2, %dl			; AVX512F-32-NEXT: andb $2, %al
	; AVX512F-32-NEXT: shrb %dl			; AVX512F-32-NEXT: shrb %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm3 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm3[0,1,2,3,4,5,6]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm3 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm3[0,1,2,3,4,5,6]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm4			; AVX512F-32-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm4
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm5			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm5
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm5, %ymm4, %ymm4			; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm5, %ymm4, %ymm4
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm4 = zmm4[0,1,2,3],zmm5[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm4 = zmm4[0,1,2,3],zmm5[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm4, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm4, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: # kill: %BL<def> %BL<kill> %EBX<kill> %EBX<def>
	; AVX512F-32-NEXT: andb $15, %dl			; AVX512F-32-NEXT: andb $15, %bl
	; AVX512F-32-NEXT: movl %edx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $2, %dl			; AVX512F-32-NEXT: shrb $2, %bl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %ebx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4
	; AVX512F-32-NEXT: vpbroadcastw %xmm4, %xmm4			; AVX512F-32-NEXT: vpbroadcastw %xmm4, %xmm4
	; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm5			; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm5
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm6			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm6
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm6, %ymm5, %ymm5			; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm6, %ymm5, %ymm5
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm6[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm6[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0
	; AVX512F-32-NEXT: shrb $3, %al			; AVX512F-32-NEXT: shrb $3, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm5 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm5[0,1,2,3,4]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm5 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm5[0,1,2,3,4]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm5			; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm5
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm7			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm7
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm6 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm6 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm6, %ymm7, %ymm5, %ymm5			; AVX512F-32-NEXT: vpblendvb %ymm6, %ymm7, %ymm5, %ymm5
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm7[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm7[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0
				; AVX512F-32-NEXT: movl %ebp, %ecx
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrl $28, %eax			; AVX512F-32-NEXT: shrl $28, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5
	; AVX512F-32-NEXT: vpbroadcastd %xmm5, %xmm5			; AVX512F-32-NEXT: vpbroadcastd %xmm5, %xmm5
	; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm5			; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm5
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm7			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm7
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm7, %ymm5, %ymm5			; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm7, %ymm5, %ymm5
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm7[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm7[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: movl %ecx, %esi
	; AVX512F-32-NEXT: shrl $29, %eax			; AVX512F-32-NEXT: shrl $29, %eax
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm5 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm5[0,1,2]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm5 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm5[0,1,2]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm7			; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm7
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm3, %ymm2, %ymm7, %ymm7			; AVX512F-32-NEXT: vpblendvb %ymm3, %ymm2, %ymm7, %ymm7
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm7[0,1,2,3],zmm2[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm7[0,1,2,3],zmm2[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %esi, %eax			; AVX512F-32-NEXT: movl %ebp, %eax
	; AVX512F-32-NEXT: shrl $30, %eax			; AVX512F-32-NEXT: shrl $30, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255]
	; AVX512F-32-NEXT: vpblendvb %ymm7, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm7, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %esi, %eax			; AVX512F-32-NEXT: movl %ebp, %eax
	; AVX512F-32-NEXT: shrl $31, %eax			; AVX512F-32-NEXT: shrl $31, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ebx
	; AVX512F-32-NEXT: kmovd %ecx, %k1			; AVX512F-32-NEXT: kmovd %ebx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: andb $2, %al			; AVX512F-32-NEXT: andb $2, %al
	; AVX512F-32-NEXT: shrb %al			; AVX512F-32-NEXT: shrb %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %edx			; AVX512F-32-NEXT: movl %ebx, %ecx
	; AVX512F-32-NEXT: andb $15, %dl			; AVX512F-32-NEXT: andb $15, %cl
	; AVX512F-32-NEXT: movl %edx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $2, %dl			; AVX512F-32-NEXT: shrb $2, %cl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: shrb $3, %al			; AVX512F-32-NEXT: shrb $3, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2			; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $4, %al			; AVX512F-32-NEXT: shrb $4, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $5, %al			; AVX512F-32-NEXT: shrb $5, %al
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $6, %al			; AVX512F-32-NEXT: shrb $6, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $7, %al			; AVX512F-32-NEXT: shrb $7, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movb %ch, %al			; AVX512F-32-NEXT: movb %bh, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastq %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastq %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: andb $2, %al			; AVX512F-32-NEXT: andb $2, %al
	; AVX512F-32-NEXT: shrb %al			; AVX512F-32-NEXT: shrb %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movb %ch, %dl			; AVX512F-32-NEXT: movb %bh, %cl
	; AVX512F-32-NEXT: andb $15, %dl			; AVX512F-32-NEXT: andb $15, %cl
	; AVX512F-32-NEXT: movl %edx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $2, %dl			; AVX512F-32-NEXT: shrb $2, %cl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: shrb $3, %al			; AVX512F-32-NEXT: shrb $3, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: bextrl %edi, %ebx, %eax
	; AVX512F-32-NEXT: andl $61440, %eax # imm = 0xF000
	; AVX512F-32-NEXT: shrl $12, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $13, %eax			; AVX512F-32-NEXT: shrl $13, %eax
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: bextrl %edx, %ebx, %eax
	; AVX512F-32-NEXT: andl $49152, %eax # imm = 0xC000
	; AVX512F-32-NEXT: shrl $14, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
				; AVX512F-32-NEXT: bextrl %esi, %ebx, %eax
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: andl $32768, %eax # imm = 0x8000
	; AVX512F-32-NEXT: shrl $15, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %ebx			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $16, %ebx			; AVX512F-32-NEXT: shrl $16, %eax
	; AVX512F-32-NEXT: kmovd %ebx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ebx, %edx			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: andb $2, %dl			; AVX512F-32-NEXT: andb $2, %cl
	; AVX512F-32-NEXT: shrb %dl			; AVX512F-32-NEXT: shrb %cl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: movl %ebx, %eax			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: andb $15, %al			; AVX512F-32-NEXT: andb $15, %cl
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ecx, %edx
	; AVX512F-32-NEXT: shrb $2, %al			; AVX512F-32-NEXT: shrb $2, %cl
	; AVX512F-32-NEXT: kmovd %eax, %k0			; AVX512F-32-NEXT: kmovd %ecx, %k0
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: shrb $3, %dl			; AVX512F-32-NEXT: shrb $3, %dl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %edx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2			; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ebx, %eax			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: shrb $4, %al			; AVX512F-32-NEXT: shrb $4, %cl
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ebx, %eax			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: shrb $5, %al			; AVX512F-32-NEXT: shrb $5, %cl
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %cl
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ebx, %eax			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: shrb $6, %al			; AVX512F-32-NEXT: shrb $6, %cl
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: # kill: %BL<def> %BL<kill> %EBX<kill> %EBX<def>			; AVX512F-32-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill> %EAX<def>
	; AVX512F-32-NEXT: shrb $7, %bl			; AVX512F-32-NEXT: shrb $7, %al
	; AVX512F-32-NEXT: kmovd %ebx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $24, %eax			; AVX512F-32-NEXT: shrl $24, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastq %xmm2, %ymm2			; AVX512F-32-NEXT: vpbroadcastq %xmm2, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: andb $2, %dl			; AVX512F-32-NEXT: andb $2, %cl
	; AVX512F-32-NEXT: shrb %dl			; AVX512F-32-NEXT: shrb %cl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: andb $15, %dl			; AVX512F-32-NEXT: andb $15, %cl
	; AVX512F-32-NEXT: movl %edx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $2, %dl			; AVX512F-32-NEXT: shrb $2, %cl
	; AVX512F-32-NEXT: kmovd %edx, %k0			; AVX512F-32-NEXT: kmovd %ecx, %k0
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: shrb $3, %al			; AVX512F-32-NEXT: shrb $3, %al
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: kmovd %eax, %k0			; AVX512F-32-NEXT: kmovd %eax, %k0
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm3 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm3[0,1,2,3,4]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm3 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm3[0,1,2,3,4]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm3			; AVX512F-32-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm4
	; AVX512F-32-NEXT: vpblendvb %ymm6, %ymm4, %ymm3, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm6, %ymm4, %ymm3, %ymm3
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $29, %eax			; AVX512F-32-NEXT: shrl $29, %eax
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %eax, %k0			; AVX512F-32-NEXT: kmovd %eax, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $28, %eax			; AVX512F-32-NEXT: shrl $28, %eax
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4
	; AVX512F-32-NEXT: vpbroadcastd %xmm4, %xmm4			; AVX512F-32-NEXT: vpbroadcastd %xmm4, %xmm4
	; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4			; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm4 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm4[0,1,2]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm4 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm4[0,1,2]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4			; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $30, %eax			; AVX512F-32-NEXT: shrl $30, %eax
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3
	; AVX512F-32-NEXT: kmovd %eax, %k0			; AVX512F-32-NEXT: kmovd %eax, %k0
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4
	; AVX512F-32-NEXT: vpbroadcastw %xmm4, %xmm4			; AVX512F-32-NEXT: vpbroadcastw %xmm4, %xmm4
	; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4			; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4
	; AVX512F-32-NEXT: vpblendvb %ymm7, %ymm3, %ymm4, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm7, %ymm3, %ymm4, %ymm3
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $31, %eax			; AVX512F-32-NEXT: shrl $31, %eax
	; AVX512F-32-NEXT: kshiftlq $1, %k0, %k0			; AVX512F-32-NEXT: kshiftlq $1, %k0, %k0
	; AVX512F-32-NEXT: kshiftrq $1, %k0, %k0			; AVX512F-32-NEXT: kshiftrq $1, %k0, %k0
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: kshiftlq $63, %k1, %k1			; AVX512F-32-NEXT: kshiftlq $63, %k1, %k1
	; AVX512F-32-NEXT: korq %k1, %k0, %k1			; AVX512F-32-NEXT: korq %k1, %k0, %k1
	; AVX512F-32-NEXT: vpcmpeqb %zmm1, %zmm0, %k0 {%k1}			; AVX512F-32-NEXT: vpcmpeqb %zmm1, %zmm0, %k0 {%k1}
	; AVX512F-32-NEXT: kmovq %k0, (%esp)			; AVX512F-32-NEXT: kmovq %k0, (%esp)
	Show All 18 Lines
	; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax			; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx			; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx
	; AVX512F-32-NEXT: kmovq %k2, {{[0-9]+}}(%esp)			; AVX512F-32-NEXT: kmovq %k2, {{[0-9]+}}(%esp)
	; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax			; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx			; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx
	; AVX512F-32-NEXT: kmovq %k1, {{[0-9]+}}(%esp)			; AVX512F-32-NEXT: kmovq %k1, {{[0-9]+}}(%esp)
	; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax			; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx			; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx
	; AVX512F-32-NEXT: addl %esi, %eax			; AVX512F-32-NEXT: addl %ebp, %eax
	; AVX512F-32-NEXT: adcxl %ecx, %edx			; AVX512F-32-NEXT: adcxl %ebx, %edx
	; AVX512F-32-NEXT: addl $60, %esp			; AVX512F-32-NEXT: addl $60, %esp
	; AVX512F-32-NEXT: popl %esi			; AVX512F-32-NEXT: popl %esi
				; AVX512F-32-NEXT: popl %edi
	; AVX512F-32-NEXT: popl %ebx			; AVX512F-32-NEXT: popl %ebx
				; AVX512F-32-NEXT: popl %ebp
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%res0 = call i64 @llvm.x86.avx512.mask.cmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 0, i64 %mask)			%res0 = call i64 @llvm.x86.avx512.mask.cmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 0, i64 %mask)
	%res1 = call i64 @llvm.x86.avx512.mask.cmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 1, i64 %mask)			%res1 = call i64 @llvm.x86.avx512.mask.cmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 1, i64 %mask)
	%ret1 = add i64 %res0, %res1			%ret1 = add i64 %res0, %res1
	%res2 = call i64 @llvm.x86.avx512.mask.cmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 2, i64 %mask)			%res2 = call i64 @llvm.x86.avx512.mask.cmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 2, i64 %mask)
	%ret2 = add i64 %ret1, %res2			%ret2 = add i64 %ret1, %res2
	%res3 = call i64 @llvm.x86.avx512.mask.cmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 3, i64 %mask)			%res3 = call i64 @llvm.x86.avx512.mask.cmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 3, i64 %mask)
	%ret3 = add i64 %ret2, %res3			%ret3 = add i64 %ret2, %res3
	Show All 33 Lines
	; AVX512BW-NEXT: kxnorq %k0, %k0, %k0			; AVX512BW-NEXT: kxnorq %k0, %k0, %k0
	; AVX512BW-NEXT: kmovq %k0, %rax			; AVX512BW-NEXT: kmovq %k0, %rax
	; AVX512BW-NEXT: addq %rcx, %rax			; AVX512BW-NEXT: addq %rcx, %rax
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512F-32-LABEL: test_ucmp_b_512:			; AVX512F-32-LABEL: test_ucmp_b_512:
	; AVX512F-32: # BB#0:			; AVX512F-32: # BB#0:
	; AVX512F-32-NEXT: subl $60, %esp			; AVX512F-32-NEXT: subl $60, %esp
	; AVX512F-32-NEXT: .Lcfi10:			; AVX512F-32-NEXT: .Lcfi14:
	; AVX512F-32-NEXT: .cfi_def_cfa_offset 64			; AVX512F-32-NEXT: .cfi_def_cfa_offset 64
	; AVX512F-32-NEXT: vpcmpeqb %zmm1, %zmm0, %k0			; AVX512F-32-NEXT: vpcmpeqb %zmm1, %zmm0, %k0
	; AVX512F-32-NEXT: kmovq %k0, {{[0-9]+}}(%esp)			; AVX512F-32-NEXT: kmovq %k0, {{[0-9]+}}(%esp)
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax			; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %edx			; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %edx
	; AVX512F-32-NEXT: vpcmpltub %zmm1, %zmm0, %k0			; AVX512F-32-NEXT: vpcmpltub %zmm1, %zmm0, %k0
	; AVX512F-32-NEXT: kmovq %k0, {{[0-9]+}}(%esp)			; AVX512F-32-NEXT: kmovq %k0, {{[0-9]+}}(%esp)
	; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax			; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; AVX512BW-NEXT: vpcmpnleub %zmm1, %zmm0, %k0 {%k1}			; AVX512BW-NEXT: vpcmpnleub %zmm1, %zmm0, %k0 {%k1}
	; AVX512BW-NEXT: kmovq %k0, %rax			; AVX512BW-NEXT: kmovq %k0, %rax
	; AVX512BW-NEXT: addq %rcx, %rax			; AVX512BW-NEXT: addq %rcx, %rax
	; AVX512BW-NEXT: addq %rdi, %rax			; AVX512BW-NEXT: addq %rdi, %rax
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512F-32-LABEL: test_mask_x86_avx512_ucmp_b_512:			; AVX512F-32-LABEL: test_mask_x86_avx512_ucmp_b_512:
	; AVX512F-32: # BB#0:			; AVX512F-32: # BB#0:
	; AVX512F-32-NEXT: pushl %ebx			; AVX512F-32-NEXT: pushl %ebp
	; AVX512F-32-NEXT: .Lcfi11:			; AVX512F-32-NEXT: .Lcfi15:
	; AVX512F-32-NEXT: .cfi_def_cfa_offset 8			; AVX512F-32-NEXT: .cfi_def_cfa_offset 8
	; AVX512F-32-NEXT: pushl %esi			; AVX512F-32-NEXT: pushl %ebx
	; AVX512F-32-NEXT: .Lcfi12:			; AVX512F-32-NEXT: .Lcfi16:
	; AVX512F-32-NEXT: .cfi_def_cfa_offset 12			; AVX512F-32-NEXT: .cfi_def_cfa_offset 12
				; AVX512F-32-NEXT: pushl %edi
				; AVX512F-32-NEXT: .Lcfi17:
				; AVX512F-32-NEXT: .cfi_def_cfa_offset 16
				; AVX512F-32-NEXT: pushl %esi
				; AVX512F-32-NEXT: .Lcfi18:
				; AVX512F-32-NEXT: .cfi_def_cfa_offset 20
	; AVX512F-32-NEXT: subl $60, %esp			; AVX512F-32-NEXT: subl $60, %esp
	; AVX512F-32-NEXT: .Lcfi13:			; AVX512F-32-NEXT: .Lcfi19:
	; AVX512F-32-NEXT: .cfi_def_cfa_offset 72			; AVX512F-32-NEXT: .cfi_def_cfa_offset 80
	; AVX512F-32-NEXT: .Lcfi14:			; AVX512F-32-NEXT: .Lcfi20:
	; AVX512F-32-NEXT: .cfi_offset %esi, -12			; AVX512F-32-NEXT: .cfi_offset %esi, -20
	; AVX512F-32-NEXT: .Lcfi15:			; AVX512F-32-NEXT: .Lcfi21:
	; AVX512F-32-NEXT: .cfi_offset %ebx, -8			; AVX512F-32-NEXT: .cfi_offset %edi, -16
				; AVX512F-32-NEXT: .Lcfi22:
				; AVX512F-32-NEXT: .cfi_offset %ebx, -12
				; AVX512F-32-NEXT: .Lcfi23:
				; AVX512F-32-NEXT: .cfi_offset %ebp, -8
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $5, %al			; AVX512F-32-NEXT: shrb $5, %al
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: movl %ecx, %ebx			; AVX512F-32-NEXT: movl %ecx, %ebx
	; AVX512F-32-NEXT: andb $15, %bl			; AVX512F-32-NEXT: andb $15, %bl
	; AVX512F-32-NEXT: movl %ecx, %edx			; AVX512F-32-NEXT: movl %ecx, %edx
	; AVX512F-32-NEXT: andb $2, %dl			; AVX512F-32-NEXT: andb $2, %dl
	▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl $1036, %edi # imm = 0x40C
	; AVX512F-32-NEXT: andl $61440, %eax # imm = 0xF000			; AVX512F-32-NEXT: bextrl %edi, %ecx, %eax
	; AVX512F-32-NEXT: shrl $12, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
				; AVX512F-32-NEXT: movl %ecx, %ebp
	; AVX512F-32-NEXT: shrl $13, %eax			; AVX512F-32-NEXT: shrl $13, %eax
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl $526, %edx # imm = 0x20E
	; AVX512F-32-NEXT: andl $49152, %eax # imm = 0xC000			; AVX512F-32-NEXT: bextrl %edx, %ebp, %eax
	; AVX512F-32-NEXT: shrl $14, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
				; AVX512F-32-NEXT: movl $271, %esi # imm = 0x10F
				; AVX512F-32-NEXT: bextrl %esi, %ebp, %eax
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: andl $32768, %eax # imm = 0x8000
	; AVX512F-32-NEXT: shrl $15, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: shrl $16, %ecx
	; AVX512F-32-NEXT: shrl $16, %eax			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: andb $2, %dl			; AVX512F-32-NEXT: andb $2, %al
	; AVX512F-32-NEXT: shrb %dl			; AVX512F-32-NEXT: shrb %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %ebx			; AVX512F-32-NEXT: movl %ecx, %ebx
	; AVX512F-32-NEXT: andb $15, %bl			; AVX512F-32-NEXT: andb $15, %bl
	; AVX512F-32-NEXT: movl %ebx, %edx			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $2, %bl			; AVX512F-32-NEXT: shrb $2, %bl
	; AVX512F-32-NEXT: kmovd %ebx, %k1			; AVX512F-32-NEXT: kmovd %ebx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: shrb $3, %dl			; AVX512F-32-NEXT: shrb $3, %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2			; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $4, %dl			; AVX512F-32-NEXT: shrb $4, %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $5, %dl			; AVX512F-32-NEXT: shrb $5, %al
	; AVX512F-32-NEXT: andb $1, %dl			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $6, %dl			; AVX512F-32-NEXT: shrb $6, %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill> %EAX<def>			; AVX512F-32-NEXT: # kill: %CL<def> %CL<kill> %ECX<kill> %ECX<def>
	; AVX512F-32-NEXT: shrb $7, %al			; AVX512F-32-NEXT: shrb $7, %cl
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebp, %ebx
	; AVX512F-32-NEXT: shrl $24, %eax			; AVX512F-32-NEXT: shrl $24, %ebx
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %ebx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastq %xmm2, %ymm3			; AVX512F-32-NEXT: vpbroadcastq %xmm2, %ymm3
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm3 = zmm3[0,1,2,3],zmm4[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm3 = zmm3[0,1,2,3],zmm4[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm3, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm3, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: andb $2, %dl			; AVX512F-32-NEXT: andb $2, %al
	; AVX512F-32-NEXT: shrb %dl			; AVX512F-32-NEXT: shrb %al
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm3 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm3[0,1,2,3,4,5,6]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm3 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm3[0,1,2,3,4,5,6]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm4			; AVX512F-32-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm4
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm5			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm5
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm5, %ymm4, %ymm4			; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm5, %ymm4, %ymm4
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm4 = zmm4[0,1,2,3],zmm5[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm4 = zmm4[0,1,2,3],zmm5[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm4, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm4, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: # kill: %BL<def> %BL<kill> %EBX<kill> %EBX<def>
	; AVX512F-32-NEXT: andb $15, %dl			; AVX512F-32-NEXT: andb $15, %bl
	; AVX512F-32-NEXT: movl %edx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $2, %dl			; AVX512F-32-NEXT: shrb $2, %bl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %ebx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4
	; AVX512F-32-NEXT: vpbroadcastw %xmm4, %xmm4			; AVX512F-32-NEXT: vpbroadcastw %xmm4, %xmm4
	; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm5			; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm5
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm6			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm6
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm6, %ymm5, %ymm5			; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm6, %ymm5, %ymm5
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm6[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm6[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0
	; AVX512F-32-NEXT: shrb $3, %al			; AVX512F-32-NEXT: shrb $3, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm5 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm5[0,1,2,3,4]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm5 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm5[0,1,2,3,4]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm5			; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm5
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm7			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm7
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm6 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm6 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm6, %ymm7, %ymm5, %ymm5			; AVX512F-32-NEXT: vpblendvb %ymm6, %ymm7, %ymm5, %ymm5
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm7[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm7[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0
				; AVX512F-32-NEXT: movl %ebp, %ecx
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrl $28, %eax			; AVX512F-32-NEXT: shrl $28, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5
	; AVX512F-32-NEXT: vpbroadcastd %xmm5, %xmm5			; AVX512F-32-NEXT: vpbroadcastd %xmm5, %xmm5
	; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm5			; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm5
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm7			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm7
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm7, %ymm5, %ymm5			; AVX512F-32-NEXT: vpblendvb %ymm2, %ymm7, %ymm5, %ymm5
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm7[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm5 = zmm5[0,1,2,3],zmm7[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm5, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: movl %ecx, %esi
	; AVX512F-32-NEXT: shrl $29, %eax			; AVX512F-32-NEXT: shrl $29, %eax
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm5
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm5 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm5[0,1,2]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm5 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm5[0,1,2]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm7			; AVX512F-32-NEXT: vinserti128 $1, %xmm5, %ymm0, %ymm7
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm3 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm3, %ymm2, %ymm7, %ymm7			; AVX512F-32-NEXT: vpblendvb %ymm3, %ymm2, %ymm7, %ymm7
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm7[0,1,2,3],zmm2[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm7[0,1,2,3],zmm2[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %esi, %eax			; AVX512F-32-NEXT: movl %ebp, %eax
	; AVX512F-32-NEXT: shrl $30, %eax			; AVX512F-32-NEXT: shrl $30, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm7 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255]
	; AVX512F-32-NEXT: vpblendvb %ymm7, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm7, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %esi, %eax			; AVX512F-32-NEXT: movl %ebp, %eax
	; AVX512F-32-NEXT: shrl $31, %eax			; AVX512F-32-NEXT: shrl $31, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm4 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0]
	; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm4, %ymm3, %ymm2, %ymm2
	; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]			; AVX512F-32-NEXT: vshufi64x2 {{.*#+}} zmm2 = zmm2[0,1,2,3],zmm3[4,5,6,7]
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %ebx
	; AVX512F-32-NEXT: kmovd %ecx, %k1			; AVX512F-32-NEXT: kmovd %ebx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: andb $2, %al			; AVX512F-32-NEXT: andb $2, %al
	; AVX512F-32-NEXT: shrb %al			; AVX512F-32-NEXT: shrb %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %edx			; AVX512F-32-NEXT: movl %ebx, %ecx
	; AVX512F-32-NEXT: andb $15, %dl			; AVX512F-32-NEXT: andb $15, %cl
	; AVX512F-32-NEXT: movl %edx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $2, %dl			; AVX512F-32-NEXT: shrb $2, %cl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: shrb $3, %al			; AVX512F-32-NEXT: shrb $3, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2			; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $4, %al			; AVX512F-32-NEXT: shrb $4, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $5, %al			; AVX512F-32-NEXT: shrb $5, %al
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $6, %al			; AVX512F-32-NEXT: shrb $6, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrb $7, %al			; AVX512F-32-NEXT: shrb $7, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movb %ch, %al			; AVX512F-32-NEXT: movb %bh, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastq %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastq %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: andb $2, %al			; AVX512F-32-NEXT: andb $2, %al
	; AVX512F-32-NEXT: shrb %al			; AVX512F-32-NEXT: shrb %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movb %ch, %dl			; AVX512F-32-NEXT: movb %bh, %cl
	; AVX512F-32-NEXT: andb $15, %dl			; AVX512F-32-NEXT: andb $15, %cl
	; AVX512F-32-NEXT: movl %edx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $2, %dl			; AVX512F-32-NEXT: shrb $2, %cl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: shrb $3, %al			; AVX512F-32-NEXT: shrb $3, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: bextrl %edi, %ebx, %eax
	; AVX512F-32-NEXT: andl $61440, %eax # imm = 0xF000
	; AVX512F-32-NEXT: shrl $12, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $13, %eax			; AVX512F-32-NEXT: shrl $13, %eax
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: bextrl %edx, %ebx, %eax
	; AVX512F-32-NEXT: andl $49152, %eax # imm = 0xC000
	; AVX512F-32-NEXT: shrl $14, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
				; AVX512F-32-NEXT: bextrl %esi, %ebx, %eax
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: andl $32768, %eax # imm = 0x8000
	; AVX512F-32-NEXT: shrl $15, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0]
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %ebx			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $16, %ebx			; AVX512F-32-NEXT: shrl $16, %eax
	; AVX512F-32-NEXT: kmovd %ebx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ebx, %edx			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: andb $2, %dl			; AVX512F-32-NEXT: andb $2, %cl
	; AVX512F-32-NEXT: shrb %dl			; AVX512F-32-NEXT: shrb %cl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllw $8, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: movl %ebx, %eax			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: andb $15, %al			; AVX512F-32-NEXT: andb $15, %cl
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %ecx, %edx
	; AVX512F-32-NEXT: shrb $2, %al			; AVX512F-32-NEXT: shrb $2, %cl
	; AVX512F-32-NEXT: kmovd %eax, %k0			; AVX512F-32-NEXT: kmovd %ecx, %k0
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: shrb $3, %dl			; AVX512F-32-NEXT: shrb $3, %dl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %edx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2			; AVX512F-32-NEXT: vpslld $24, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ebx, %eax			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: shrb $4, %al			; AVX512F-32-NEXT: shrb $4, %cl
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastd %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ebx, %eax			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: shrb $5, %al			; AVX512F-32-NEXT: shrb $5, %cl
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %cl
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $40, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ebx, %eax			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: shrb $6, %al			; AVX512F-32-NEXT: shrb $6, %cl
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: # kill: %BL<def> %BL<kill> %EBX<kill> %EBX<def>			; AVX512F-32-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill> %EAX<def>
	; AVX512F-32-NEXT: shrb $7, %bl			; AVX512F-32-NEXT: shrb $7, %al
	; AVX512F-32-NEXT: kmovd %ebx, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2			; AVX512F-32-NEXT: vpsllq $56, %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $24, %eax			; AVX512F-32-NEXT: shrl $24, %eax
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpbroadcastq %xmm2, %ymm2			; AVX512F-32-NEXT: vpbroadcastq %xmm2, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: andb $2, %dl			; AVX512F-32-NEXT: andb $2, %cl
	; AVX512F-32-NEXT: shrb %dl			; AVX512F-32-NEXT: shrb %cl
	; AVX512F-32-NEXT: kmovd %edx, %k1			; AVX512F-32-NEXT: kmovd %ecx, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm2 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm2[0,1,2,3,4,5,6]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: movl %eax, %edx			; AVX512F-32-NEXT: movl %eax, %ecx
	; AVX512F-32-NEXT: andb $15, %dl			; AVX512F-32-NEXT: andb $15, %cl
	; AVX512F-32-NEXT: movl %edx, %eax			; AVX512F-32-NEXT: movl %ecx, %eax
	; AVX512F-32-NEXT: shrb $2, %dl			; AVX512F-32-NEXT: shrb $2, %cl
	; AVX512F-32-NEXT: kmovd %edx, %k0			; AVX512F-32-NEXT: kmovd %ecx, %k0
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2			; AVX512F-32-NEXT: vpbroadcastw %xmm2, %xmm2
	; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2			; AVX512F-32-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm2
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm3, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm4, %ymm2, %ymm2
	; AVX512F-32-NEXT: shrb $3, %al			; AVX512F-32-NEXT: shrb $3, %al
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: kmovd %eax, %k0			; AVX512F-32-NEXT: kmovd %eax, %k0
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm3
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm3 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm3[0,1,2,3,4]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm3 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm3[0,1,2,3,4]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm3			; AVX512F-32-NEXT: vinserti128 $1, %xmm3, %ymm0, %ymm3
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm4			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm4
	; AVX512F-32-NEXT: vpblendvb %ymm6, %ymm4, %ymm3, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm6, %ymm4, %ymm3, %ymm3
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $29, %eax			; AVX512F-32-NEXT: shrl $29, %eax
	; AVX512F-32-NEXT: andb $1, %al			; AVX512F-32-NEXT: andb $1, %al
	; AVX512F-32-NEXT: kmovd %eax, %k0			; AVX512F-32-NEXT: kmovd %eax, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $28, %eax			; AVX512F-32-NEXT: shrl $28, %eax
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm4
	; AVX512F-32-NEXT: vpbroadcastd %xmm4, %xmm4			; AVX512F-32-NEXT: vpbroadcastd %xmm4, %xmm4
	; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4			; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k1
	; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k1, %zmm2
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4
	; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm4 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm4[0,1,2]			; AVX512F-32-NEXT: vpslldq {{.*#+}} xmm4 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm4[0,1,2]
	; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4			; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4
	; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255]			; AVX512F-32-NEXT: vmovdqa {{.*#+}} ymm5 = [255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255,0,255,255]
	; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm5, %ymm3, %ymm4, %ymm3
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $30, %eax			; AVX512F-32-NEXT: shrl $30, %eax
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm2
	; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3			; AVX512F-32-NEXT: vextracti64x4 $1, %zmm2, %ymm3
	; AVX512F-32-NEXT: kmovd %eax, %k0			; AVX512F-32-NEXT: kmovd %eax, %k0
	; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4			; AVX512F-32-NEXT: vpmovm2b %k0, %zmm4
	; AVX512F-32-NEXT: vpbroadcastw %xmm4, %xmm4			; AVX512F-32-NEXT: vpbroadcastw %xmm4, %xmm4
	; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4			; AVX512F-32-NEXT: vinserti128 $1, %xmm4, %ymm0, %ymm4
	; AVX512F-32-NEXT: vpblendvb %ymm7, %ymm3, %ymm4, %ymm3			; AVX512F-32-NEXT: vpblendvb %ymm7, %ymm3, %ymm4, %ymm3
	; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2			; AVX512F-32-NEXT: vinserti64x4 $1, %ymm3, %zmm2, %zmm2
	; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0			; AVX512F-32-NEXT: vpmovb2m %zmm2, %k0
	; AVX512F-32-NEXT: movl %ecx, %eax			; AVX512F-32-NEXT: movl %ebx, %eax
	; AVX512F-32-NEXT: shrl $31, %eax			; AVX512F-32-NEXT: shrl $31, %eax
	; AVX512F-32-NEXT: kshiftlq $1, %k0, %k0			; AVX512F-32-NEXT: kshiftlq $1, %k0, %k0
	; AVX512F-32-NEXT: kshiftrq $1, %k0, %k0			; AVX512F-32-NEXT: kshiftrq $1, %k0, %k0
	; AVX512F-32-NEXT: kmovd %eax, %k1			; AVX512F-32-NEXT: kmovd %eax, %k1
	; AVX512F-32-NEXT: kshiftlq $63, %k1, %k1			; AVX512F-32-NEXT: kshiftlq $63, %k1, %k1
	; AVX512F-32-NEXT: korq %k1, %k0, %k1			; AVX512F-32-NEXT: korq %k1, %k0, %k1
	; AVX512F-32-NEXT: vpcmpeqb %zmm1, %zmm0, %k0 {%k1}			; AVX512F-32-NEXT: vpcmpeqb %zmm1, %zmm0, %k0 {%k1}
	; AVX512F-32-NEXT: kmovq %k0, (%esp)			; AVX512F-32-NEXT: kmovq %k0, (%esp)
	Show All 18 Lines
	; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax			; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx			; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx
	; AVX512F-32-NEXT: kmovq %k2, {{[0-9]+}}(%esp)			; AVX512F-32-NEXT: kmovq %k2, {{[0-9]+}}(%esp)
	; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax			; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx			; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx
	; AVX512F-32-NEXT: kmovq %k1, {{[0-9]+}}(%esp)			; AVX512F-32-NEXT: kmovq %k1, {{[0-9]+}}(%esp)
	; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax			; AVX512F-32-NEXT: addl {{[0-9]+}}(%esp), %eax
	; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx			; AVX512F-32-NEXT: adcxl {{[0-9]+}}(%esp), %edx
	; AVX512F-32-NEXT: addl %esi, %eax			; AVX512F-32-NEXT: addl %ebp, %eax
	; AVX512F-32-NEXT: adcxl %ecx, %edx			; AVX512F-32-NEXT: adcxl %ebx, %edx
	; AVX512F-32-NEXT: addl $60, %esp			; AVX512F-32-NEXT: addl $60, %esp
	; AVX512F-32-NEXT: popl %esi			; AVX512F-32-NEXT: popl %esi
				; AVX512F-32-NEXT: popl %edi
	; AVX512F-32-NEXT: popl %ebx			; AVX512F-32-NEXT: popl %ebx
				; AVX512F-32-NEXT: popl %ebp
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%res0 = call i64 @llvm.x86.avx512.mask.ucmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 0, i64 %mask)			%res0 = call i64 @llvm.x86.avx512.mask.ucmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 0, i64 %mask)
	%res1 = call i64 @llvm.x86.avx512.mask.ucmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 1, i64 %mask)			%res1 = call i64 @llvm.x86.avx512.mask.ucmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 1, i64 %mask)
	%ret1 = add i64 %res0, %res1			%ret1 = add i64 %res0, %res1
	%res2 = call i64 @llvm.x86.avx512.mask.ucmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 2, i64 %mask)			%res2 = call i64 @llvm.x86.avx512.mask.ucmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 2, i64 %mask)
	%ret2 = add i64 %ret1, %res2			%ret2 = add i64 %ret1, %res2
	%res3 = call i64 @llvm.x86.avx512.mask.ucmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 3, i64 %mask)			%res3 = call i64 @llvm.x86.avx512.mask.ucmp.b.512(<64 x i8> %a0, <64 x i8> %a1, i32 3, i64 %mask)
	%ret3 = add i64 %ret2, %res3			%ret3 = add i64 %ret2, %res3
	▲ Show 20 Lines • Show All 389 Lines • Show Last 20 Lines

test/CodeGen/X86/divide-by-constant.ll

	Show First 20 Lines • Show All 42 Lines • ▼ Show 20 Lines

	}			}

	define zeroext i8 @test3(i8 zeroext %x, i8 zeroext %c) nounwind readnone ssp noredzone {			define zeroext i8 @test3(i8 zeroext %x, i8 zeroext %c) nounwind readnone ssp noredzone {
	; X32-LABEL: test3:			; X32-LABEL: test3:
	; X32: # BB#0: # %entry			; X32: # BB#0: # %entry
	; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: imull $171, %eax, %eax			; X32-NEXT: imull $171, %eax, %eax
	; X32-NEXT: andl $65024, %eax # imm = 0xFE00
	; X32-NEXT: shrl $9, %eax			; X32-NEXT: shrl $9, %eax
				; X32-NEXT: movzwl %ax, %eax
	; X32-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>			; X32-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test3:			; X64-LABEL: test3:
	; X64: # BB#0: # %entry			; X64: # BB#0: # %entry
	; X64-NEXT: imull $171, %esi, %eax			; X64-NEXT: imull $171, %esi, %eax
	; X64-NEXT: andl $65024, %eax # imm = 0xFE00
	; X64-NEXT: shrl $9, %eax			; X64-NEXT: shrl $9, %eax
				; X64-NEXT: movzwl %ax, %eax
	; X64-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>			; X64-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%div = udiv i8 %c, 3			%div = udiv i8 %c, 3
	ret i8 %div			ret i8 %div
	}			}

	define signext i16 @test4(i16 signext %x) nounwind {			define signext i16 @test4(i16 signext %x) nounwind {
	▲ Show 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; PR13326			; PR13326
	define i8 @test8(i8 %x) nounwind {			define i8 @test8(i8 %x) nounwind {
	; X32-LABEL: test8:			; X32-LABEL: test8:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: movb {{[0-9]+}}(%esp), %al			; X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; X32-NEXT: shrb %al			; X32-NEXT: shrb %al
	; X32-NEXT: movzbl %al, %eax			; X32-NEXT: movzbl %al, %eax
	; X32-NEXT: imull $211, %eax, %eax			; X32-NEXT: imull $211, %eax, %eax
	; X32-NEXT: andl $24576, %eax # imm = 0x6000
	; X32-NEXT: shrl $13, %eax			; X32-NEXT: shrl $13, %eax
				; X32-NEXT: movzwl %ax, %eax
	; X32-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>			; X32-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test8:			; X64-LABEL: test8:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: shrb %dil			; X64-NEXT: shrb %dil
	; X64-NEXT: movzbl %dil, %eax			; X64-NEXT: movzbl %dil, %eax
	; X64-NEXT: imull $211, %eax, %eax			; X64-NEXT: imull $211, %eax, %eax
	; X64-NEXT: andl $24576, %eax # imm = 0x6000
	; X64-NEXT: shrl $13, %eax			; X64-NEXT: shrl $13, %eax
				; X64-NEXT: movzwl %ax, %eax
	; X64-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>			; X64-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; X64-NEXT: retq			; X64-NEXT: retq
	%div = udiv i8 %x, 78			%div = udiv i8 %x, 78
	ret i8 %div			ret i8 %div
	}			}

	define i8 @test9(i8 %x) nounwind {			define i8 @test9(i8 %x) nounwind {
	; X32-LABEL: test9:			; X32-LABEL: test9:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: movb {{[0-9]+}}(%esp), %al			; X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; X32-NEXT: shrb $2, %al			; X32-NEXT: shrb $2, %al
	; X32-NEXT: movzbl %al, %eax			; X32-NEXT: movzbl %al, %eax
	; X32-NEXT: imull $71, %eax, %eax			; X32-NEXT: imull $71, %eax, %eax
	; X32-NEXT: andl $6144, %eax # imm = 0x1800
	; X32-NEXT: shrl $11, %eax			; X32-NEXT: shrl $11, %eax
				; X32-NEXT: movzwl %ax, %eax
	; X32-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>			; X32-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test9:			; X64-LABEL: test9:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: shrb $2, %dil			; X64-NEXT: shrb $2, %dil
	; X64-NEXT: movzbl %dil, %eax			; X64-NEXT: movzbl %dil, %eax
	; X64-NEXT: imull $71, %eax, %eax			; X64-NEXT: imull $71, %eax, %eax
	; X64-NEXT: andl $6144, %eax # imm = 0x1800
	; X64-NEXT: shrl $11, %eax			; X64-NEXT: shrl $11, %eax
				; X64-NEXT: movzwl %ax, %eax
	; X64-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>			; X64-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; X64-NEXT: retq			; X64-NEXT: retq
	%div = udiv i8 %x, 116			%div = udiv i8 %x, 116
	ret i8 %div			ret i8 %div
	}			}

	define i32 @testsize1(i32 %x) minsize nounwind {			define i32 @testsize1(i32 %x) minsize nounwind {
	; X32-LABEL: testsize1:			; X32-LABEL: testsize1:
	▲ Show 20 Lines • Show All 124 Lines • Show Last 20 Lines

test/CodeGen/X86/known-bits.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=X64

	define void @knownbits_zext_in_reg(i8*) nounwind {			define void @knownbits_zext_in_reg(i8*) nounwind {
	; X32-LABEL: knownbits_zext_in_reg:			; X32-LABEL: knownbits_zext_in_reg:
	; X32: # BB#0: # %BB			; X32: # BB#0: # %BB
	; X32-NEXT: pushl %ebp			; X32-NEXT: pushl %ebp
	; X32-NEXT: pushl %ebx			; X32-NEXT: pushl %ebx
	; X32-NEXT: pushl %edi			; X32-NEXT: pushl %edi
	; X32-NEXT: pushl %esi			; X32-NEXT: pushl %esi
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movzbl (%eax), %eax			; X32-NEXT: movzbl (%eax), %eax
	; X32-NEXT: imull $101, %eax, %eax			; X32-NEXT: imull $101, %eax, %eax
	; X32-NEXT: andl $16384, %eax # imm = 0x4000
	; X32-NEXT: shrl $14, %eax			; X32-NEXT: shrl $14, %eax
				; X32-NEXT: movzwl %ax, %eax
	; X32-NEXT: movzbl %al, %eax			; X32-NEXT: movzbl %al, %eax
	; X32-NEXT: vmovd %eax, %xmm0			; X32-NEXT: vmovd %eax, %xmm0
	; X32-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; X32-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; X32-NEXT: vpextrd $1, %xmm0, %ebp			; X32-NEXT: vpextrd $1, %xmm0, %ebp
	; X32-NEXT: xorl %ecx, %ecx			; X32-NEXT: xorl %ecx, %ecx
	; X32-NEXT: vmovd %xmm0, %esi			; X32-NEXT: vmovd %xmm0, %esi
	; X32-NEXT: vpextrd $2, %xmm0, %edi			; X32-NEXT: vpextrd $2, %xmm0, %edi
	; X32-NEXT: vpextrd $3, %xmm0, %ebx			; X32-NEXT: vpextrd $3, %xmm0, %ebx
	Show All 20 Lines
	; X32-NEXT: testb %cl, %cl			; X32-NEXT: testb %cl, %cl
	; X32-NEXT: jne .LBB0_2			; X32-NEXT: jne .LBB0_2
	; X32-NEXT: jmp .LBB0_1			; X32-NEXT: jmp .LBB0_1
	;			;
	; X64-LABEL: knownbits_zext_in_reg:			; X64-LABEL: knownbits_zext_in_reg:
	; X64: # BB#0: # %BB			; X64: # BB#0: # %BB
	; X64-NEXT: movzbl (%rdi), %eax			; X64-NEXT: movzbl (%rdi), %eax
	; X64-NEXT: imull $101, %eax, %eax			; X64-NEXT: imull $101, %eax, %eax
	; X64-NEXT: andl $16384, %eax # imm = 0x4000
	; X64-NEXT: shrl $14, %eax			; X64-NEXT: shrl $14, %eax
				; X64-NEXT: movzwl %ax, %eax
	; X64-NEXT: movzbl %al, %eax			; X64-NEXT: movzbl %al, %eax
	; X64-NEXT: vmovd %eax, %xmm0			; X64-NEXT: vmovd %eax, %xmm0
	; X64-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero			; X64-NEXT: vpshufb {{.*#+}} xmm0 = zero,zero,zero,zero,xmm0[0],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; X64-NEXT: vpextrd $1, %xmm0, %r8d			; X64-NEXT: vpextrd $1, %xmm0, %r8d
	; X64-NEXT: xorl %esi, %esi			; X64-NEXT: xorl %esi, %esi
	; X64-NEXT: vmovd %xmm0, %r9d			; X64-NEXT: vmovd %xmm0, %r9d
	; X64-NEXT: vpextrd $2, %xmm0, %edi			; X64-NEXT: vpextrd $2, %xmm0, %edi
	; X64-NEXT: vpextrd $3, %xmm0, %ecx			; X64-NEXT: vpextrd $3, %xmm0, %ecx
	▲ Show 20 Lines • Show All 213 Lines • Show Last 20 Lines

test/CodeGen/X86/live-out-reg-info.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s

	; Make sure dagcombine doesn't eliminate the comparison due			; Make sure dagcombine doesn't eliminate the comparison due
	; to an off-by-one bug with computeKnownBits information.			; to an off-by-one bug with computeKnownBits information.

	declare void @qux()			declare void @qux()

	define void @foo(i32 %a) {			define void @foo(i32 %a) {
	; CHECK-LABEL: foo:			; CHECK-LABEL: foo:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: pushq %rax			; CHECK-NEXT: pushq %rax
	; CHECK-NEXT: .Lcfi0:			; CHECK-NEXT: .Lcfi0:
	; CHECK-NEXT: .cfi_def_cfa_offset 16			; CHECK-NEXT: .cfi_def_cfa_offset 16
	; CHECK-NEXT: movl %edi, %eax			; CHECK-NEXT: shrl $23, %edi
	; CHECK-NEXT: shrl $23, %eax			; CHECK-NEXT: btl $8, %edi
	; CHECK-NEXT: testb $1, %ah			; CHECK-NEXT: jb .LBB0_2
	; CHECK-NEXT: jne .LBB0_2
	; CHECK-NEXT: # BB#1: # %true			; CHECK-NEXT: # BB#1: # %true
	; CHECK-NEXT: callq qux			; CHECK-NEXT: callq qux
	; CHECK-NEXT: .LBB0_2: # %false			; CHECK-NEXT: .LBB0_2: # %false
	; CHECK-NEXT: popq %rax			; CHECK-NEXT: popq %rax
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%t0 = lshr i32 %a, 23			%t0 = lshr i32 %a, 23
	br label %next			br label %next
	next:			next:
	Show All 10 Lines

test/CodeGen/X86/test-shrink.ll

	; RUN: llc < %s -mtriple=x86_64-linux \| FileCheck %s --check-prefix=CHECK-64			; RUN: llc < %s -mtriple=x86_64-linux \| FileCheck %s --check-prefix=CHECK-64
	; RUN: llc < %s -mtriple=x86_64-win32 \| FileCheck %s --check-prefix=CHECK-64			; RUN: llc < %s -mtriple=x86_64-win32 \| FileCheck %s --check-prefix=CHECK-64
	; RUN: llc < %s -mtriple=i686-- \| FileCheck %s --check-prefix=CHECK-32			; RUN: llc < %s -mtriple=i686-- \| FileCheck %s --check-prefix=CHECK-32

	; CHECK-64-LABEL: g64xh:			; CHECK-64-LABEL: g64xh:
	; CHECK-64: testb $8, {{%ah\|%ch}}			; CHECK-64: btl $11
	; CHECK-64: ret			; CHECK-64: ret
	; CHECK-32-LABEL: g64xh:			; CHECK-32-LABEL: g64xh:
	; CHECK-32: testb $8, %ah			; CHECK-32: btl $11
	; CHECK-32: ret			; CHECK-32: ret
	define void @g64xh(i64 inreg %x) nounwind {			define void @g64xh(i64 inreg %x) nounwind {
	%t = and i64 %x, 2048			%t = and i64 %x, 2048
	%s = icmp eq i64 %t, 0			%s = icmp eq i64 %t, 0
	br i1 %s, label %yes, label %no			br i1 %s, label %yes, label %no

	yes:			yes:
	call void @bar()			call void @bar()
	Show All 14 Lines

	yes:			yes:
	call void @bar()			call void @bar()
	ret void			ret void
	no:			no:
	ret void			ret void
	}			}
	; CHECK-64-LABEL: g32xh:			; CHECK-64-LABEL: g32xh:
	; CHECK-64: testb $8, {{%ah\|%ch}}			; CHECK-64: btl $11
	; CHECK-64: ret			; CHECK-64: ret
	; CHECK-32-LABEL: g32xh:			; CHECK-32-LABEL: g32xh:
	; CHECK-32: testb $8, %ah			; CHECK-32: btl $11
	; CHECK-32: ret			; CHECK-32: ret
	define void @g32xh(i32 inreg %x) nounwind {			define void @g32xh(i32 inreg %x) nounwind {
	%t = and i32 %x, 2048			%t = and i32 %x, 2048
	%s = icmp eq i32 %t, 0			%s = icmp eq i32 %t, 0
	br i1 %s, label %yes, label %no			br i1 %s, label %yes, label %no

	yes:			yes:
	call void @bar()			call void @bar()
	Show All 14 Lines

	yes:			yes:
	call void @bar()			call void @bar()
	ret void			ret void
	no:			no:
	ret void			ret void
	}			}
	; CHECK-64-LABEL: g16xh:			; CHECK-64-LABEL: g16xh:
	; CHECK-64: testb $8, {{%ah\|%ch}}			; CHECK-64: btl $11
	; CHECK-64: ret			; CHECK-64: ret
	; CHECK-32-LABEL: g16xh:			; CHECK-32-LABEL: g16xh:
	; CHECK-32: testb $8, %ah			; CHECK-32: btl $11
	; CHECK-32: ret			; CHECK-32: ret
	define void @g16xh(i16 inreg %x) nounwind {			define void @g16xh(i16 inreg %x) nounwind {
	%t = and i16 %x, 2048			%t = and i16 %x, 2048
	%s = icmp eq i16 %t, 0			%s = icmp eq i16 %t, 0
	br i1 %s, label %yes, label %no			br i1 %s, label %yes, label %no

	yes:			yes:
	call void @bar()			call void @bar()
	▲ Show 20 Lines • Show All 74 Lines • Show Last 20 Lines

test/CodeGen/X86/urem-i8-constant.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i386-unknown-unknown \| FileCheck %s			; RUN: llc < %s -mtriple=i386-unknown-unknown \| FileCheck %s

	define i8 @foo(i8 %tmp325) {			define i8 @foo(i8 %tmp325) {
	; CHECK-LABEL: foo:			; CHECK-LABEL: foo:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: movzbl {{[0-9]+}}(%esp), %ecx			; CHECK-NEXT: movzbl {{[0-9]+}}(%esp), %ecx
	; CHECK-NEXT: imull $111, %ecx, %eax			; CHECK-NEXT: imull $111, %ecx, %eax
	; CHECK-NEXT: andl $28672, %eax # imm = 0x7000
	; CHECK-NEXT: shrl $12, %eax			; CHECK-NEXT: shrl $12, %eax
				; CHECK-NEXT: movzwl %ax, %eax
				craig.topperUnsubmitted Not Done Reply Inline Actions It's not immediately obvious to me how moving 0x7000 right by 12 bits turned into a mozwl. craig.topper: It's not immediately obvious to me how moving 0x7000 right by 12 bits turned into a mozwl.
				craig.topperUnsubmitted Not Done Reply Inline Actions Oh there's magic in SelectionDAGISel::CheckAndMask that I never knew about. craig.topper: Oh there's magic in SelectionDAGISel::CheckAndMask that I never knew about.
				spatelAuthorUnsubmitted Not Done Reply Inline Actions Hmm...right, there's a very late computeKnownBits that I didn't see either. I did write a dirty test program to confirm that it's not miscompiling for any 8-bit urem (still waiting for Alive to come back). spatel: Hmm...right, there's a very late computeKnownBits that I didn't see either. I did write a dirty…
	; CHECK-NEXT: movb $37, %dl			; CHECK-NEXT: movb $37, %dl
	; CHECK-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>			; CHECK-NEXT: # kill: %AL<def> %AL<kill> %EAX<kill>
	; CHECK-NEXT: mulb %dl			; CHECK-NEXT: mulb %dl
	; CHECK-NEXT: subb %al, %cl			; CHECK-NEXT: subb %al, %cl
	; CHECK-NEXT: movl %ecx, %eax			; CHECK-NEXT: movl %ecx, %eax
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	%t546 = urem i8 %tmp325, 37			%t546 = urem i8 %tmp325, 37
	ret i8 %t546			ret i8 %t546
	}			}

test/CodeGen/X86/xor-icmp.ll

	Show All 11 Lines
	; X32-NEXT: je .LBB0_1			; X32-NEXT: je .LBB0_1
	; X32-NEXT: # BB#2: # %bb1			; X32-NEXT: # BB#2: # %bb1
	; X32-NEXT: jmp bar # TAILCALL			; X32-NEXT: jmp bar # TAILCALL
	; X32-NEXT: .LBB0_1: # %bb			; X32-NEXT: .LBB0_1: # %bb
	; X32-NEXT: jmp foo # TAILCALL			; X32-NEXT: jmp foo # TAILCALL
	;			;
	; X64-LABEL: t:			; X64-LABEL: t:
	; X64: # BB#0: # %entry			; X64: # BB#0: # %entry
	; X64-NEXT: movl %edi, %eax			; X64-NEXT: xorl %esi, %edi
	; X64-NEXT: xorl %esi, %eax
	; X64-NEXT: testb $64, %ah
	; X64-NEXT: je .LBB0_1
	; X64-NEXT: # BB#2: # %bb1
	; X64-NEXT: xorl %eax, %eax			; X64-NEXT: xorl %eax, %eax
				; X64-NEXT: btl $14, %edi
				; X64-NEXT: jae .LBB0_1
				; X64-NEXT: # BB#2: # %bb1
	; X64-NEXT: jmp bar # TAILCALL			; X64-NEXT: jmp bar # TAILCALL
	; X64-NEXT: .LBB0_1: # %bb			; X64-NEXT: .LBB0_1: # %bb
	; X64-NEXT: xorl %eax, %eax
	; X64-NEXT: jmp foo # TAILCALL			; X64-NEXT: jmp foo # TAILCALL
	entry:			entry:
	%0 = and i32 %a, 16384			%0 = and i32 %a, 16384
	%1 = icmp ne i32 %0, 0			%1 = icmp ne i32 %0, 0
	%2 = and i32 %b, 16384			%2 = and i32 %b, 16384
	%3 = icmp ne i32 %2, 0			%3 = icmp ne i32 %2, 0
	%4 = xor i1 %1, %3			%4 = xor i1 %1, %3
	br i1 %4, label %bb1, label %bb			br i1 %4, label %bb1, label %bb
	▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines