This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/trunk/
-
trunk/
-
lib/Target/X86/
-
Target/
-
X86/
-
X86ISelLowering.cpp
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
avx512-calling-conv.ll
-
avx512-ext.ll
-
avx512-insert-extract.ll
-
avx512-mask-op.ll
-
masked_store.ll
-
vec_smulo.ll
-
vec_umulo.ll

Differential D68311

[X86] Rewrite to the vXi1 subvector insertion code to not rely on the value of bits that might be undef
ClosedPublic

Authored by craig.topper on Oct 1 2019, 6:11 PM.

Download Raw Diff

Details

Reviewers

bkramer
RKSimon
spatel

Commits

rG74c7d6be2843: [X86] Rewrite to the vXi1 subvector insertion code to not rely on the value of…
rL373495: [X86] Rewrite to the vXi1 subvector insertion code to not rely on the value of…

Summary

The previous code tried to do a trick where we would extract the subvector from the location we were inserting. Then xor that with the new value. Take the xored value and clear out the bits above the subvector size. Then shift that xored subvector to the insert location. And finally xor that with the original vector. Since the old subvector was used in both xors, this would leave just the new subvector at the inserted location. Since the surrounding bits had been zeroed no other bits of the original vector would be modified.

Unfortunately, if the old subvector came from undef we might aggressively propagate the undef. Then we end up with the XORs not cancelling because they aren't using the same value for the two uses of the old subvector. @bkramer gave me a case that demonstrated this, but we haven't reduced it enough to make it easily readable to see what's happening.

This patch uses a safer, but more costly approach. It isolate the bits above the insertion and bits below the insert point and ORs those together leaving 0 for the insertion location. Then widens the subvector with 0s in the upper bits, shifts it into position with 0s in the lower bits. Then we do another OR.

The test case changes are pretty terrible to read so please check the logic carefully.

Diff Detail

Repository: rL LLVM

Event Timeline

craig.topper created this revision.Oct 1 2019, 6:11 PM

Herald added a project: Restricted Project. · View Herald TranscriptOct 1 2019, 6:11 PM

Herald added a subscriber: hiraditya. · View Herald Transcript

With the suggested changes this passes the test suite from https://github.com/google/jax with AVX512 enabled. I still don't see why the original code would be wrong though.

llvm/lib/Target/X86/X86ISelLowering.cpp
5785 ↗	(On Diff #222736)	s/Vec/Low/
5789 ↗	(On Diff #222736)	This should be something like `IdxVal + SubVecNumElems`
5792 ↗	(On Diff #222736)	s/Vec/High/

This revision now requires changes to proceed.Oct 2 2019, 1:32 AM

Address review comments.

This revision is now accepted and ready to land.Oct 2 2019, 10:38 AM

Closed by commit rL373495: [X86] Rewrite to the vXi1 subvector insertion code to not rely on the value of… (authored by ctopper). · Explain WhyOct 2 2019, 10:46 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

40 lines

test/

CodeGen/

X86/

avx512-calling-conv.ll

2993 lines

avx512-ext.ll

1536 lines

avx512-insert-extract.ll

90 lines

1699 lines

100 lines

155 lines

123 lines

Diff 222873

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,763 Lines • ▼ Show 20 Lines	static SDValue insert1BitVector(SDValue Op, SelectionDAG &DAG,
}		}

// Inserting into the middle is more complicated.		// Inserting into the middle is more complicated.

NumElems = WideOpVT.getVectorNumElements();		NumElems = WideOpVT.getVectorNumElements();

// Widen the vector if needed.		// Widen the vector if needed.
Vec = DAG.getNode(ISD::INSERT_SUBVECTOR, dl, WideOpVT, Undef, Vec, ZeroIdx);		Vec = DAG.getNode(ISD::INSERT_SUBVECTOR, dl, WideOpVT, Undef, Vec, ZeroIdx);
// Move the current value of the bit to be replace to the lsbs.
Op = DAG.getNode(X86ISD::KSHIFTR, dl, WideOpVT, Vec,		// Clear the upper bits of the subvector and move it to its insert position.
DAG.getTargetConstant(IdxVal, dl, MVT::i8));
// Xor with the new bit.
Op = DAG.getNode(ISD::XOR, dl, WideOpVT, Op, SubVec);
// Shift to MSB, filling bottom bits with 0.
unsigned ShiftLeft = NumElems - SubVecNumElems;		unsigned ShiftLeft = NumElems - SubVecNumElems;
Op = DAG.getNode(X86ISD::KSHIFTL, dl, WideOpVT, Op,		SubVec = DAG.getNode(X86ISD::KSHIFTL, dl, WideOpVT, SubVec,
DAG.getTargetConstant(ShiftLeft, dl, MVT::i8));		DAG.getTargetConstant(ShiftLeft, dl, MVT::i8));
// Shift to the final position, filling upper bits with 0.
unsigned ShiftRight = NumElems - SubVecNumElems - IdxVal;		unsigned ShiftRight = NumElems - SubVecNumElems - IdxVal;
Op = DAG.getNode(X86ISD::KSHIFTR, dl, WideOpVT, Op,		SubVec = DAG.getNode(X86ISD::KSHIFTR, dl, WideOpVT, SubVec,
DAG.getTargetConstant(ShiftRight, dl, MVT::i8));		DAG.getTargetConstant(ShiftRight, dl, MVT::i8));
// Xor with original vector leaving the new value.
Op = DAG.getNode(ISD::XOR, dl, WideOpVT, Vec, Op);		// Isolate the bits below the insertion point.
		unsigned LowShift = NumElems - IdxVal;
		SDValue Low = DAG.getNode(X86ISD::KSHIFTL, dl, WideOpVT, Vec,
		DAG.getTargetConstant(LowShift, dl, MVT::i8));
		Low = DAG.getNode(X86ISD::KSHIFTR, dl, WideOpVT, Low,
		DAG.getTargetConstant(LowShift, dl, MVT::i8));

		// Isolate the bits after the last inserted bit.
		unsigned HighShift = IdxVal + SubVecNumElems;
		SDValue High = DAG.getNode(X86ISD::KSHIFTR, dl, WideOpVT, Vec,
		DAG.getTargetConstant(HighShift, dl, MVT::i8));
		High = DAG.getNode(X86ISD::KSHIFTL, dl, WideOpVT, High,
		DAG.getTargetConstant(HighShift, dl, MVT::i8));

		// Now OR all 3 pieces together.
		Vec = DAG.getNode(ISD::OR, dl, WideOpVT, Low, High);
		SubVec = DAG.getNode(ISD::OR, dl, WideOpVT, SubVec, Vec);

// Reduce to original width if needed.		// Reduce to original width if needed.
return DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, OpVT, Op, ZeroIdx);		return DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, OpVT, SubVec, ZeroIdx);
}		}

static SDValue concatSubVectors(SDValue V1, SDValue V2, SelectionDAG &DAG,		static SDValue concatSubVectors(SDValue V1, SDValue V2, SelectionDAG &DAG,
const SDLoc &dl) {		const SDLoc &dl) {
assert(V1.getValueType() == V2.getValueType() && "subvector type mismatch");		assert(V1.getValueType() == V2.getValueType() && "subvector type mismatch");
EVT SubVT = V1.getValueType();		EVT SubVT = V1.getValueType();
EVT SubSVT = SubVT.getScalarType();		EVT SubSVT = SubVT.getScalarType();
unsigned SubNumElts = SubVT.getVectorNumElements();		unsigned SubNumElts = SubVT.getVectorNumElements();
▲ Show 20 Lines • Show All 39,949 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-calling-conv.ll

	Show First 20 Lines • Show All 525 Lines • ▼ Show 20 Lines
	; KNL: ## %bb.0:			; KNL: ## %bb.0:
	; KNL-NEXT: pushq %rbp			; KNL-NEXT: pushq %rbp
	; KNL-NEXT: pushq %r15			; KNL-NEXT: pushq %r15
	; KNL-NEXT: pushq %r14			; KNL-NEXT: pushq %r14
	; KNL-NEXT: pushq %r13			; KNL-NEXT: pushq %r13
	; KNL-NEXT: pushq %r12			; KNL-NEXT: pushq %r12
	; KNL-NEXT: pushq %rbx			; KNL-NEXT: pushq %rbx
	; KNL-NEXT: movq %rdi, %rax			; KNL-NEXT: movq %rdi, %rax
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kmovw %edx, %k1			; KNL-NEXT: kmovw %edi, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k2
	; KNL-NEXT: kshiftlw $15, %k0, %k0			; KNL-NEXT: kshiftlw $15, %k0, %k0
	; KNL-NEXT: kshiftrw $14, %k0, %k0			; KNL-NEXT: kshiftrw $15, %k0, %k0
	; KNL-NEXT: kxorw %k0, %k2, %k2			; KNL-NEXT: kshiftlw $2, %k0, %k2
	; KNL-NEXT: kshiftrw $2, %k2, %k3			; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
	; KNL-NEXT: kxorw %k1, %k3, %k1			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kshiftlw $15, %k1, %k1			; KNL-NEXT: kmovw %edi, %k1
	; KNL-NEXT: kshiftrw $13, %k1, %k1
	; KNL-NEXT: kxorw %k1, %k2, %k1
	; KNL-NEXT: kshiftrw $3, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $12, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftrw $4, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $11, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftrw $5, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $10, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftrw $6, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $9, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftrw $7, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $8, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftrw $8, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $7, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftrw $9, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $6, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftrw $10, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $5, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftrw $11, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $4, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftrw $12, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $3, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftrw $13, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $2, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftrw $14, %k1, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $14, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1
	; KNL-NEXT: kshiftlw $1, %k1, %k1			; KNL-NEXT: kshiftlw $1, %k1, %k1
	; KNL-NEXT: kshiftrw $1, %k1, %k1			; KNL-NEXT: korw %k1, %k2, %k1
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: korw %k1, %k0, %k0
	; KNL-NEXT: kmovw %edx, %k2			; KNL-NEXT: kshiftlw $14, %k0, %k0
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftrw $14, %k0, %k0
	; KNL-NEXT: korw %k2, %k1, %k1			; KNL-NEXT: kshiftlw $3, %k0, %k2
	; KNL-NEXT: kmovw %ecx, %k2			; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
	; KNL-NEXT: kmovw %esi, %k3			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kxorw %k0, %k3, %k0			; KNL-NEXT: kmovw %edi, %k1
	; KNL-NEXT: kshiftrw $2, %k0, %k3			; KNL-NEXT: kshiftlw $2, %k1, %k1
	; KNL-NEXT: kxorw %k2, %k3, %k2			; KNL-NEXT: korw %k1, %k2, %k1
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: korw %k1, %k0, %k0
	; KNL-NEXT: kshiftrw $13, %k2, %k2			; KNL-NEXT: kshiftlw $13, %k0, %k0
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: kshiftrw $13, %k0, %k0
				; KNL-NEXT: kshiftlw $4, %k0, %k2
				; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k1
				; KNL-NEXT: kshiftlw $3, %k1, %k1
				; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kshiftlw $12, %k0, %k0
				; KNL-NEXT: kshiftrw $12, %k0, %k0
				; KNL-NEXT: kshiftlw $5, %k0, %k2
				; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k1
				; KNL-NEXT: kshiftlw $4, %k1, %k1
				; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kshiftlw $11, %k0, %k0
				; KNL-NEXT: kshiftrw $11, %k0, %k0
				; KNL-NEXT: kshiftlw $6, %k0, %k2
				; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k1
				; KNL-NEXT: kshiftlw $5, %k1, %k1
				; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kshiftlw $10, %k0, %k0
				; KNL-NEXT: kshiftrw $10, %k0, %k0
				; KNL-NEXT: kshiftlw $7, %k0, %k2
				; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k1
				; KNL-NEXT: kshiftlw $6, %k1, %k1
				; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kshiftlw $9, %k0, %k0
				; KNL-NEXT: kshiftrw $9, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k1
				; KNL-NEXT: kshiftlw $7, %k1, %k1
				; KNL-NEXT: kshiftlw $8, %k0, %k2
				; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
				; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kshiftlw $8, %k0, %k0
				; KNL-NEXT: kshiftrw $8, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k1
				; KNL-NEXT: kshiftlw $8, %k1, %k1
				; KNL-NEXT: kshiftlw $9, %k0, %k2
				; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
				; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kshiftlw $7, %k0, %k0
				; KNL-NEXT: kshiftrw $7, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k1
				; KNL-NEXT: kshiftlw $9, %k1, %k1
				; KNL-NEXT: kshiftlw $10, %k0, %k2
				; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
				; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kshiftlw $6, %k0, %k0
				; KNL-NEXT: kshiftrw $6, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k1
				; KNL-NEXT: kshiftlw $10, %k1, %k1
				; KNL-NEXT: kshiftlw $11, %k0, %k6
				; KNL-NEXT: korw %k1, %k6, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kshiftlw $5, %k0, %k0
				; KNL-NEXT: kshiftrw $5, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k1
				; KNL-NEXT: kshiftlw $11, %k1, %k1
				; KNL-NEXT: kshiftlw $12, %k0, %k5
				; KNL-NEXT: korw %k1, %k5, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kshiftlw $4, %k0, %k0
				; KNL-NEXT: kshiftrw $4, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k1
				; KNL-NEXT: kshiftlw $12, %k1, %k1
				; KNL-NEXT: kshiftlw $13, %k0, %k4
				; KNL-NEXT: korw %k1, %k4, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kshiftlw $3, %k0, %k0
	; KNL-NEXT: kshiftrw $3, %k0, %k2			; KNL-NEXT: kshiftrw $3, %k0, %k2
	; KNL-NEXT: kmovw %r8d, %k3			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kmovw %edi, %k1
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $13, %k1, %k0
	; KNL-NEXT: kshiftrw $12, %k2, %k2			; KNL-NEXT: kshiftlw $14, %k0, %k3
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k3, %k0
	; KNL-NEXT: kshiftrw $4, %k0, %k2			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kmovw %r9d, %k3			; KNL-NEXT: kshiftlw $2, %k0, %k0
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftrw $2, %k0, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kshiftrw $11, %k2, %k2			; KNL-NEXT: kmovw %edi, %k0
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: kshiftlw $14, %k0, %k0
	; KNL-NEXT: kshiftrw $5, %k0, %k2			; KNL-NEXT: kshiftlw $15, %k0, %k1
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: korw %k0, %k1, %k0
	; KNL-NEXT: kmovw %ecx, %k3			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftlw $1, %k0, %k0
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftrw $1, %k0, %k0
	; KNL-NEXT: kshiftrw $10, %k2, %k2			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: kmovw %edi, %k2
	; KNL-NEXT: kshiftrw $6, %k0, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kmovw %ecx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $9, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0
	; KNL-NEXT: kshiftrw $7, %k0, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kmovw %ecx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $8, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0
	; KNL-NEXT: kshiftrw $8, %k0, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kmovw %ecx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $7, %k2, %k2			; KNL-NEXT: korw %k2, %k0, %k0
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
	; KNL-NEXT: kshiftrw $9, %k0, %k2			; KNL-NEXT: kmovw %edx, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: kshiftlw $1, %k0, %k0
	; KNL-NEXT: kmovw %ecx, %k3			; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 ## 2-byte Reload
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: korw %k0, %k2, %k0
				; KNL-NEXT: kmovw %esi, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $6, %k2, %k2			; KNL-NEXT: kshiftrw $15, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kshiftrw $10, %k0, %k2			; KNL-NEXT: kmovw %ecx, %k2
				; KNL-NEXT: kshiftlw $2, %k2, %k2
				; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
				; KNL-NEXT: korw %k2, %k7, %k2
				; KNL-NEXT: kshiftlw $14, %k0, %k0
				; KNL-NEXT: kshiftrw $14, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: kmovw %r8d, %k2
				; KNL-NEXT: kshiftlw $3, %k2, %k2
				; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
				; KNL-NEXT: korw %k2, %k7, %k2
				; KNL-NEXT: kshiftlw $13, %k0, %k0
				; KNL-NEXT: kshiftrw $13, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: kmovw %r9d, %k2
				; KNL-NEXT: kshiftlw $4, %k2, %k2
				; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
				; KNL-NEXT: korw %k2, %k7, %k2
				; KNL-NEXT: kshiftlw $12, %k0, %k0
				; KNL-NEXT: kshiftrw $12, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kmovw %ecx, %k3			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftlw $5, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL-NEXT: kshiftrw $5, %k2, %k2			; KNL-NEXT: korw %k2, %k7, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: kshiftlw $11, %k0, %k0
	; KNL-NEXT: kshiftrw $11, %k0, %k2			; KNL-NEXT: kshiftrw $11, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kmovw %ecx, %k3			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftlw $6, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL-NEXT: kshiftrw $4, %k2, %k2			; KNL-NEXT: korw %k2, %k7, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: kshiftlw $10, %k0, %k0
	; KNL-NEXT: kshiftrw $12, %k0, %k2			; KNL-NEXT: kshiftrw $10, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kmovw %ecx, %k3			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftlw $7, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL-NEXT: kshiftrw $3, %k2, %k2			; KNL-NEXT: korw %k2, %k7, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: kshiftlw $9, %k0, %k0
	; KNL-NEXT: kshiftrw $13, %k0, %k2			; KNL-NEXT: kshiftrw $9, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kmovw %ecx, %k3			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftlw $8, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL-NEXT: kshiftrw $2, %k2, %k2			; KNL-NEXT: korw %k2, %k7, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: kshiftlw $8, %k0, %k0
	; KNL-NEXT: kshiftrw $14, %k0, %k2			; KNL-NEXT: kshiftrw $8, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kmovw %ecx, %k3			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftlw $9, %k2, %k2
	; KNL-NEXT: kshiftlw $14, %k2, %k2			; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k2, %k7, %k2
	; KNL-NEXT: kshiftlw $1, %k0, %k0			; KNL-NEXT: kshiftlw $7, %k0, %k0
	; KNL-NEXT: kshiftrw $1, %k0, %k0			; KNL-NEXT: kshiftrw $7, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kmovw %ecx, %k2			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $10, %k2, %k2
				; KNL-NEXT: korw %k2, %k6, %k2
				; KNL-NEXT: kshiftlw $6, %k0, %k0
				; KNL-NEXT: kshiftrw $6, %k0, %k0
	; KNL-NEXT: korw %k2, %k0, %k0			; KNL-NEXT: korw %k2, %k0, %k0
	; KNL-NEXT: kandw %k1, %k0, %k0			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
				; KNL-NEXT: kmovw %ecx, %k2
				; KNL-NEXT: kshiftlw $11, %k2, %k2
				; KNL-NEXT: korw %k2, %k5, %k2
	; KNL-NEXT: xorl %ecx, %ecx			; KNL-NEXT: xorl %ecx, %ecx
	; KNL-NEXT: testb $1, {{[0-9]+}}(%rsp)			; KNL-NEXT: testb $1, {{[0-9]+}}(%rsp)
	; KNL-NEXT: movl $65535, %edx ## imm = 0xFFFF			; KNL-NEXT: movl $65535, %edx ## imm = 0xFFFF
	; KNL-NEXT: movl $0, %esi			; KNL-NEXT: movl $0, %esi
	; KNL-NEXT: cmovnel %edx, %esi			; KNL-NEXT: cmovnel %edx, %esi
	; KNL-NEXT: kmovw %esi, %k1			; KNL-NEXT: kshiftlw $5, %k0, %k0
				; KNL-NEXT: kshiftrw $5, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
				; KNL-NEXT: kshiftlw $12, %k2, %k2
				; KNL-NEXT: korw %k2, %k4, %k2
	; KNL-NEXT: testb $1, {{[0-9]+}}(%rsp)			; KNL-NEXT: testb $1, {{[0-9]+}}(%rsp)
				; KNL-NEXT: kshiftlw $4, %k0, %k0
				; KNL-NEXT: kshiftrw $4, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
				; KNL-NEXT: kshiftlw $13, %k2, %k2
				; KNL-NEXT: korw %k2, %k3, %k2
	; KNL-NEXT: cmovnel %edx, %ecx			; KNL-NEXT: cmovnel %edx, %ecx
				; KNL-NEXT: kshiftlw $3, %k0, %k0
				; KNL-NEXT: kshiftrw $3, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
				; KNL-NEXT: kmovw %edx, %k2
				; KNL-NEXT: kshiftlw $14, %k2, %k2
				; KNL-NEXT: korw %k2, %k1, %k1
				; KNL-NEXT: kshiftlw $2, %k0, %k0
				; KNL-NEXT: kshiftrw $2, %k0, %k0
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kshiftlw $1, %k0, %k0
				; KNL-NEXT: kshiftrw $1, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
				; KNL-NEXT: kmovw %edx, %k1
				; KNL-NEXT: kshiftlw $15, %k1, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kmovw %esi, %k1
				; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 ## 2-byte Reload
				; KNL-NEXT: kandw %k2, %k0, %k0
	; KNL-NEXT: kmovw %ecx, %k2			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kandw %k1, %k2, %k1			; KNL-NEXT: kandw %k1, %k2, %k1
	; KNL-NEXT: kmovw %k1, %r8d			; KNL-NEXT: kmovw %k1, %r8d
	; KNL-NEXT: kshiftrw $1, %k0, %k1			; KNL-NEXT: kshiftrw $1, %k0, %k1
	; KNL-NEXT: kmovw %k1, %r9d			; KNL-NEXT: kmovw %k1, %r9d
	; KNL-NEXT: kshiftrw $2, %k0, %k1			; KNL-NEXT: kshiftrw $2, %k0, %k1
	; KNL-NEXT: kmovw %k1, %r10d			; KNL-NEXT: kmovw %k1, %r10d
	; KNL-NEXT: kshiftrw $3, %k0, %k1			; KNL-NEXT: kshiftrw $3, %k0, %k1
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; SKX-LABEL: test16:			; SKX-LABEL: test16:
	; SKX: ## %bb.0:			; SKX: ## %bb.0:
	; SKX-NEXT: pushq %rbp			; SKX-NEXT: pushq %rbp
	; SKX-NEXT: pushq %r15			; SKX-NEXT: pushq %r15
	; SKX-NEXT: pushq %r14			; SKX-NEXT: pushq %r14
	; SKX-NEXT: pushq %r13			; SKX-NEXT: pushq %r13
	; SKX-NEXT: pushq %r12			; SKX-NEXT: pushq %r12
	; SKX-NEXT: pushq %rbx			; SKX-NEXT: pushq %rbx
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k1			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k0
	; SKX-NEXT: movq %rdi, %rax			; SKX-NEXT: movq %rdi, %rax
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftld $31, %k0, %k0			; SKX-NEXT: kshiftld $31, %k0, %k0
	; SKX-NEXT: kshiftrd $30, %k0, %k0			; SKX-NEXT: kshiftrd $31, %k0, %k1
	; SKX-NEXT: kxord %k0, %k2, %k2			; SKX-NEXT: kshiftld $2, %k0, %k0
	; SKX-NEXT: kshiftrd $2, %k2, %k3			; SKX-NEXT: kord %k0, %k1, %k1
	; SKX-NEXT: kxord %k1, %k3, %k1			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftld $31, %k1, %k1			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $29, %k1, %k1			; SKX-NEXT: kshiftrd $30, %k2, %k2
	; SKX-NEXT: kxord %k1, %k2, %k1			; SKX-NEXT: kord %k1, %k2, %k1
	; SKX-NEXT: kshiftrd $3, %k1, %k2			; SKX-NEXT: kshiftrd $3, %k1, %k2
				; SKX-NEXT: kshiftld $3, %k2, %k2
				; SKX-NEXT: kshiftld $30, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftrd $30, %k1, %k1
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kord %k2, %k1, %k1
				; SKX-NEXT: kshiftld $31, %k3, %k2
				; SKX-NEXT: kshiftrd $29, %k2, %k2
				; SKX-NEXT: kord %k1, %k2, %k1
				; SKX-NEXT: kshiftrd $4, %k1, %k2
				; SKX-NEXT: kshiftld $4, %k2, %k2
				; SKX-NEXT: kshiftld $29, %k1, %k1
				; SKX-NEXT: kshiftrd $29, %k1, %k1
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
				; SKX-NEXT: kord %k2, %k1, %k1
				; SKX-NEXT: kshiftld $31, %k3, %k2
	; SKX-NEXT: kshiftrd $28, %k2, %k2			; SKX-NEXT: kshiftrd $28, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
				; SKX-NEXT: kshiftrd $5, %k1, %k2
				; SKX-NEXT: kshiftld $5, %k2, %k2
				; SKX-NEXT: kshiftld $28, %k1, %k1
				; SKX-NEXT: kshiftrd $28, %k1, %k1
				; SKX-NEXT: kord %k2, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftrd $4, %k1, %k3
	; SKX-NEXT: kxord %k2, %k3, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $27, %k2, %k2			; SKX-NEXT: kshiftrd $27, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
	; SKX-NEXT: kshiftrd $5, %k1, %k2			; SKX-NEXT: kshiftrd $6, %k1, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kshiftld $6, %k2, %k2
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftld $27, %k1, %k1
				; SKX-NEXT: kshiftrd $27, %k1, %k1
				; SKX-NEXT: kord %k2, %k1, %k1
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $26, %k2, %k2			; SKX-NEXT: kshiftrd $26, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
	; SKX-NEXT: kshiftrd $6, %k1, %k2			; SKX-NEXT: kshiftrd $7, %k1, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kshiftld $7, %k2, %k2
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftld $26, %k1, %k1
				; SKX-NEXT: kshiftrd $26, %k1, %k1
				; SKX-NEXT: kord %k2, %k1, %k1
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $25, %k2, %k2			; SKX-NEXT: kshiftrd $25, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
				; SKX-NEXT: kshiftrd $8, %k1, %k2
				; SKX-NEXT: kshiftld $8, %k2, %k2
				; SKX-NEXT: kshiftld $25, %k1, %k1
				; SKX-NEXT: kshiftrd $25, %k1, %k1
				; SKX-NEXT: kord %k2, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftrd $7, %k1, %k3
	; SKX-NEXT: kxord %k2, %k3, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $24, %k2, %k2			; SKX-NEXT: kshiftrd $24, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
	; SKX-NEXT: kshiftrd $8, %k1, %k2			; SKX-NEXT: kshiftrd $9, %k1, %k2
				; SKX-NEXT: kshiftld $9, %k2, %k2
				; SKX-NEXT: kshiftld $24, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftrd $24, %k1, %k1
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kord %k2, %k1, %k1
				; SKX-NEXT: kshiftld $31, %k3, %k2
	; SKX-NEXT: kshiftrd $23, %k2, %k2			; SKX-NEXT: kshiftrd $23, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
	; SKX-NEXT: kshiftrd $9, %k1, %k2			; SKX-NEXT: kshiftrd $10, %k1, %k2
				; SKX-NEXT: kshiftld $10, %k2, %k2
				; SKX-NEXT: kshiftld $23, %k1, %k1
				; SKX-NEXT: kshiftrd $23, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kord %k2, %k1, %k1
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k3, %k2
	; SKX-NEXT: kshiftrd $22, %k2, %k2			; SKX-NEXT: kshiftrd $22, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
				; SKX-NEXT: kshiftrd $11, %k1, %k2
				; SKX-NEXT: kshiftld $11, %k2, %k2
				; SKX-NEXT: kshiftld $22, %k1, %k1
				; SKX-NEXT: kshiftrd $22, %k1, %k1
				; SKX-NEXT: kord %k2, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftrd $10, %k1, %k3
	; SKX-NEXT: kxord %k2, %k3, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $21, %k2, %k2			; SKX-NEXT: kshiftrd $21, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
	; SKX-NEXT: kshiftrd $11, %k1, %k2			; SKX-NEXT: kshiftrd $12, %k1, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kshiftld $12, %k2, %k2
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftld $21, %k1, %k1
				; SKX-NEXT: kshiftrd $21, %k1, %k1
				; SKX-NEXT: kord %k2, %k1, %k1
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $20, %k2, %k2			; SKX-NEXT: kshiftrd $20, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
	; SKX-NEXT: kshiftrd $12, %k1, %k2			; SKX-NEXT: kshiftrd $13, %k1, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kshiftld $13, %k2, %k2
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftld $20, %k1, %k1
				; SKX-NEXT: kshiftrd $20, %k1, %k1
				; SKX-NEXT: kord %k2, %k1, %k1
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $19, %k2, %k2			; SKX-NEXT: kshiftrd $19, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
				; SKX-NEXT: kshiftrd $14, %k1, %k2
				; SKX-NEXT: kshiftld $14, %k2, %k2
				; SKX-NEXT: kshiftld $19, %k1, %k1
				; SKX-NEXT: kshiftrd $19, %k1, %k1
				; SKX-NEXT: kord %k2, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftrd $13, %k1, %k3
	; SKX-NEXT: kxord %k2, %k3, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $18, %k2, %k2			; SKX-NEXT: kshiftrd $18, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
	; SKX-NEXT: kshiftrd $14, %k1, %k2			; SKX-NEXT: kshiftrd $15, %k1, %k2
				; SKX-NEXT: kshiftld $15, %k2, %k2
				; SKX-NEXT: kshiftld $18, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftrd $18, %k1, %k1
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kord %k2, %k1, %k1
				; SKX-NEXT: kshiftld $31, %k3, %k2
	; SKX-NEXT: kshiftrd $17, %k2, %k2			; SKX-NEXT: kshiftrd $17, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
	; SKX-NEXT: kshiftrd $15, %k1, %k2			; SKX-NEXT: kshiftrd $16, %k1, %k2
				; SKX-NEXT: kshiftld $16, %k2, %k2
				; SKX-NEXT: kshiftld $17, %k1, %k1
				; SKX-NEXT: kshiftrd $17, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kord %k2, %k1, %k1
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k3, %k2
	; SKX-NEXT: kshiftrd $16, %k2, %k2			; SKX-NEXT: kshiftrd $16, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
				; SKX-NEXT: kshiftrd $17, %k1, %k2
				; SKX-NEXT: kshiftld $17, %k2, %k2
				; SKX-NEXT: kshiftld $16, %k1, %k1
				; SKX-NEXT: kshiftrd $16, %k1, %k1
				; SKX-NEXT: kord %k2, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftrd $16, %k1, %k3
	; SKX-NEXT: kxord %k2, %k3, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $15, %k2, %k2			; SKX-NEXT: kshiftrd $15, %k2, %k2
	; SKX-NEXT: kxord %k2, %k1, %k1			; SKX-NEXT: kord %k1, %k2, %k1
				; SKX-NEXT: kmovd %esi, %k2
				; SKX-NEXT: kshiftld $31, %k2, %k2
				; SKX-NEXT: kshiftrd $31, %k2, %k2
				; SKX-NEXT: kord %k0, %k2, %k0
				; SKX-NEXT: kmovd %edx, %k2
				; SKX-NEXT: kshiftld $31, %k2, %k2
				; SKX-NEXT: kshiftrd $30, %k2, %k2
				; SKX-NEXT: kord %k0, %k2, %k0
				; SKX-NEXT: kshiftrd $3, %k0, %k2
				; SKX-NEXT: kshiftld $3, %k2, %k2
				; SKX-NEXT: kshiftld $30, %k0, %k0
				; SKX-NEXT: kshiftrd $30, %k0, %k0
				; SKX-NEXT: kord %k2, %k0, %k0
	; SKX-NEXT: kmovd %ecx, %k2			; SKX-NEXT: kmovd %ecx, %k2
	; SKX-NEXT: kmovd %esi, %k3
	; SKX-NEXT: kxord %k0, %k3, %k0
	; SKX-NEXT: kshiftrd $2, %k0, %k3
	; SKX-NEXT: kxord %k2, %k3, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $29, %k2, %k2			; SKX-NEXT: kshiftrd $29, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kord %k0, %k2, %k0
	; SKX-NEXT: kshiftrd $3, %k0, %k2			; SKX-NEXT: kshiftrd $4, %k0, %k2
	; SKX-NEXT: kmovd %r8d, %k3			; SKX-NEXT: kshiftld $4, %k2, %k2
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftld $29, %k0, %k0
				; SKX-NEXT: kshiftrd $29, %k0, %k0
				; SKX-NEXT: kord %k2, %k0, %k0
				; SKX-NEXT: kmovd %r8d, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $28, %k2, %k2			; SKX-NEXT: kshiftrd $28, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kord %k0, %k2, %k0
	; SKX-NEXT: kshiftrd $4, %k0, %k2			; SKX-NEXT: kshiftrd $5, %k0, %k2
	; SKX-NEXT: kmovd %r9d, %k3			; SKX-NEXT: kshiftld $5, %k2, %k2
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftld $28, %k0, %k0
				; SKX-NEXT: kshiftrd $28, %k0, %k0
				; SKX-NEXT: kord %k2, %k0, %k0
				; SKX-NEXT: kmovd %r9d, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $27, %k2, %k2			; SKX-NEXT: kshiftrd $27, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kord %k0, %k2, %k0
				; SKX-NEXT: kshiftrd $6, %k0, %k2
				; SKX-NEXT: kshiftld $6, %k2, %k2
				; SKX-NEXT: kshiftld $27, %k0, %k0
				; SKX-NEXT: kshiftrd $27, %k0, %k0
				; SKX-NEXT: kord %k2, %k0, %k0
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftrd $5, %k0, %k3
	; SKX-NEXT: kxord %k2, %k3, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $26, %k2, %k2			; SKX-NEXT: kshiftrd $26, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kord %k0, %k2, %k0
	; SKX-NEXT: kshiftrd $6, %k0, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxord %k3, %k2, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $25, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0
	; SKX-NEXT: kshiftrd $7, %k0, %k2			; SKX-NEXT: kshiftrd $7, %k0, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kshiftld $7, %k2, %k2
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftld $26, %k0, %k0
				; SKX-NEXT: kshiftrd $26, %k0, %k0
				; SKX-NEXT: kord %k2, %k0, %k0
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $24, %k2, %k2			; SKX-NEXT: kshiftrd $25, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kord %k0, %k2, %k0
				; SKX-NEXT: kshiftrd $8, %k0, %k2
				; SKX-NEXT: kshiftld $8, %k2, %k2
				; SKX-NEXT: kshiftld $25, %k0, %k0
				; SKX-NEXT: kshiftrd $25, %k0, %k0
				; SKX-NEXT: kord %k2, %k0, %k0
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftrd $8, %k0, %k3
	; SKX-NEXT: kxord %k2, %k3, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $23, %k2, %k2			; SKX-NEXT: kshiftrd $24, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kord %k0, %k2, %k0
	; SKX-NEXT: kshiftrd $9, %k0, %k2			; SKX-NEXT: kshiftrd $9, %k0, %k2
				; SKX-NEXT: kshiftld $9, %k2, %k2
				; SKX-NEXT: kshiftld $24, %k0, %k0
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftrd $24, %k0, %k0
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kord %k2, %k0, %k0
	; SKX-NEXT: kshiftrd $22, %k2, %k2			; SKX-NEXT: kshiftld $31, %k3, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kshiftrd $23, %k2, %k2
				; SKX-NEXT: kord %k0, %k2, %k0
	; SKX-NEXT: kshiftrd $10, %k0, %k2			; SKX-NEXT: kshiftrd $10, %k0, %k2
				; SKX-NEXT: kshiftld $10, %k2, %k2
				; SKX-NEXT: kshiftld $23, %k0, %k0
				; SKX-NEXT: kshiftrd $23, %k0, %k0
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kord %k2, %k0, %k0
				; SKX-NEXT: kshiftld $31, %k3, %k2
				; SKX-NEXT: kshiftrd $22, %k2, %k2
				; SKX-NEXT: kord %k0, %k2, %k0
				; SKX-NEXT: kshiftrd $11, %k0, %k2
				; SKX-NEXT: kshiftld $11, %k2, %k2
				; SKX-NEXT: kshiftld $22, %k0, %k0
				; SKX-NEXT: kshiftrd $22, %k0, %k0
				; SKX-NEXT: kord %k2, %k0, %k0
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $21, %k2, %k2			; SKX-NEXT: kshiftrd $21, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kord %k0, %k2, %k0
				; SKX-NEXT: kshiftrd $12, %k0, %k2
				; SKX-NEXT: kshiftld $12, %k2, %k2
				; SKX-NEXT: kshiftld $21, %k0, %k0
				; SKX-NEXT: kshiftrd $21, %k0, %k0
				; SKX-NEXT: kord %k2, %k0, %k0
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftrd $11, %k0, %k3
	; SKX-NEXT: kxord %k2, %k3, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $20, %k2, %k2			; SKX-NEXT: kshiftrd $20, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kord %k0, %k2, %k0
	; SKX-NEXT: kshiftrd $12, %k0, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxord %k3, %k2, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $19, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0
	; SKX-NEXT: kshiftrd $13, %k0, %k2			; SKX-NEXT: kshiftrd $13, %k0, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kshiftld $13, %k2, %k2
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftld $20, %k0, %k0
				; SKX-NEXT: kshiftrd $20, %k0, %k0
				; SKX-NEXT: kord %k2, %k0, %k0
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $18, %k2, %k2			; SKX-NEXT: kshiftrd $19, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kord %k0, %k2, %k0
				; SKX-NEXT: kshiftrd $14, %k0, %k2
				; SKX-NEXT: kshiftld $14, %k2, %k2
				; SKX-NEXT: kshiftld $19, %k0, %k0
				; SKX-NEXT: kshiftrd $19, %k0, %k0
				; SKX-NEXT: kord %k2, %k0, %k0
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftrd $14, %k0, %k3
	; SKX-NEXT: kxord %k2, %k3, %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $17, %k2, %k2			; SKX-NEXT: kshiftrd $18, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kord %k0, %k2, %k0
	; SKX-NEXT: kshiftrd $15, %k0, %k2			; SKX-NEXT: kshiftrd $15, %k0, %k2
				; SKX-NEXT: kshiftld $15, %k2, %k2
				; SKX-NEXT: kshiftld $18, %k0, %k0
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kshiftrd $18, %k0, %k0
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kord %k2, %k0, %k0
	; SKX-NEXT: kshiftrd $16, %k2, %k2			; SKX-NEXT: kshiftld $31, %k3, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kshiftrd $17, %k2, %k2
				; SKX-NEXT: kord %k0, %k2, %k0
	; SKX-NEXT: kshiftrd $16, %k0, %k2			; SKX-NEXT: kshiftrd $16, %k0, %k2
				; SKX-NEXT: kshiftld $16, %k2, %k2
				; SKX-NEXT: kshiftld $17, %k0, %k0
				; SKX-NEXT: kshiftrd $17, %k0, %k0
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxord %k3, %k2, %k2			; SKX-NEXT: kord %k2, %k0, %k0
				; SKX-NEXT: kshiftld $31, %k3, %k2
				; SKX-NEXT: kshiftrd $16, %k2, %k2
				; SKX-NEXT: kord %k0, %k2, %k0
				; SKX-NEXT: kshiftrd $17, %k0, %k2
				; SKX-NEXT: kshiftld $17, %k2, %k2
				; SKX-NEXT: kshiftld $16, %k0, %k0
				; SKX-NEXT: kshiftrd $16, %k0, %k0
				; SKX-NEXT: kord %k2, %k0, %k0
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftld $31, %k2, %k2			; SKX-NEXT: kshiftld $31, %k2, %k2
	; SKX-NEXT: kshiftrd $15, %k2, %k2			; SKX-NEXT: kshiftrd $15, %k2, %k2
	; SKX-NEXT: kxord %k2, %k0, %k0			; SKX-NEXT: kord %k0, %k2, %k0
	; SKX-NEXT: kandd %k1, %k0, %k0			; SKX-NEXT: kandd %k1, %k0, %k0
	; SKX-NEXT: kshiftrd $16, %k0, %k1			; SKX-NEXT: kshiftrd $16, %k0, %k1
	; SKX-NEXT: kmovd %k1, %r8d			; SKX-NEXT: kmovd %k1, %r8d
	; SKX-NEXT: kshiftrd $1, %k0, %k1			; SKX-NEXT: kshiftrd $1, %k0, %k1
	; SKX-NEXT: kmovd %k1, %r9d			; SKX-NEXT: kmovd %k1, %r9d
	; SKX-NEXT: kshiftrd $2, %k0, %k1			; SKX-NEXT: kshiftrd $2, %k0, %k1
	; SKX-NEXT: kmovd %k1, %r10d			; SKX-NEXT: kmovd %k1, %r10d
	; SKX-NEXT: kshiftrd $3, %k0, %k1			; SKX-NEXT: kshiftrd $3, %k0, %k1
	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; SKX-NEXT: retq			; SKX-NEXT: retq
	;			;
	; KNL_X32-LABEL: test16:			; KNL_X32-LABEL: test16:
	; KNL_X32: ## %bb.0:			; KNL_X32: ## %bb.0:
	; KNL_X32-NEXT: pushl %ebp			; KNL_X32-NEXT: pushl %ebp
	; KNL_X32-NEXT: pushl %ebx			; KNL_X32-NEXT: pushl %ebx
	; KNL_X32-NEXT: pushl %edi			; KNL_X32-NEXT: pushl %edi
	; KNL_X32-NEXT: pushl %esi			; KNL_X32-NEXT: pushl %esi
				; KNL_X32-NEXT: subl $20, %esp
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k0			; KNL_X32-NEXT: kmovw %eax, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k0, %k1
	; KNL_X32-NEXT: kshiftrw $14, %k1, %k1
	; KNL_X32-NEXT: kxorw %k1, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $2, %k2, %k3
	; KNL_X32-NEXT: kxorw %k0, %k3, %k0
	; KNL_X32-NEXT: kshiftlw $15, %k0, %k0			; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $13, %k0, %k0			; KNL_X32-NEXT: kshiftrw $15, %k0, %k0
	; KNL_X32-NEXT: kxorw %k0, %k2, %k0			; KNL_X32-NEXT: kshiftlw $2, %k0, %k2
	; KNL_X32-NEXT: kshiftrw $3, %k0, %k2			; KNL_X32-NEXT: kmovw %k2, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $12, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $4, %k0, %k2
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $11, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $5, %k0, %k2
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $10, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $6, %k0, %k2
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $9, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $7, %k0, %k2
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $8, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $8, %k0, %k2
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $7, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $9, %k0, %k2
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $6, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $10, %k0, %k2
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k1
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $1, %k1, %k1
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: korw %k1, %k2, %k1
	; KNL_X32-NEXT: kshiftrw $5, %k2, %k2			; KNL_X32-NEXT: korw %k1, %k0, %k0
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: kshiftlw $14, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $11, %k0, %k2			; KNL_X32-NEXT: kshiftrw $14, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $3, %k0, %k2
				; KNL_X32-NEXT: kmovw %k2, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k1
				; KNL_X32-NEXT: kshiftlw $2, %k1, %k1
				; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $13, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $4, %k0, %k2
				; KNL_X32-NEXT: kmovw %k2, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k1
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $3, %k1, %k1
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: korw %k1, %k2, %k1
	; KNL_X32-NEXT: kshiftrw $4, %k2, %k2			; KNL_X32-NEXT: korw %k1, %k0, %k0
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: kshiftlw $12, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $12, %k0, %k2			; KNL_X32-NEXT: kshiftrw $12, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $5, %k0, %k2
				; KNL_X32-NEXT: kmovw %k2, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k1
				; KNL_X32-NEXT: kshiftlw $4, %k1, %k1
				; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $11, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $11, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $6, %k0, %k2
				; KNL_X32-NEXT: kmovw %k2, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k1
				; KNL_X32-NEXT: kshiftlw $5, %k1, %k1
				; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $10, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $10, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $7, %k0, %k2
				; KNL_X32-NEXT: kmovw %k2, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k1
				; KNL_X32-NEXT: kshiftlw $6, %k1, %k1
				; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $9, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $9, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k1
				; KNL_X32-NEXT: kshiftlw $7, %k1, %k1
				; KNL_X32-NEXT: kshiftlw $8, %k0, %k2
				; KNL_X32-NEXT: kmovw %k2, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill
				; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $8, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $8, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k1
				; KNL_X32-NEXT: kshiftlw $8, %k1, %k1
				; KNL_X32-NEXT: kshiftlw $9, %k0, %k2
				; KNL_X32-NEXT: kmovw %k2, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill
				; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $7, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $7, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k1
				; KNL_X32-NEXT: kshiftlw $9, %k1, %k1
				; KNL_X32-NEXT: kshiftlw $10, %k0, %k2
				; KNL_X32-NEXT: kmovw %k2, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill
				; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $6, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $6, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k1
				; KNL_X32-NEXT: kshiftlw $10, %k1, %k1
				; KNL_X32-NEXT: kshiftlw $11, %k0, %k6
				; KNL_X32-NEXT: korw %k1, %k6, %k1
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $5, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $5, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k1
				; KNL_X32-NEXT: kshiftlw $11, %k1, %k1
				; KNL_X32-NEXT: kshiftlw $12, %k0, %k5
				; KNL_X32-NEXT: korw %k1, %k5, %k1
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $4, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $4, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k1
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $12, %k1, %k1
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $13, %k0, %k4
	; KNL_X32-NEXT: kshiftrw $3, %k2, %k2			; KNL_X32-NEXT: korw %k1, %k4, %k1
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k1, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $13, %k0, %k2			; KNL_X32-NEXT: kshiftlw $3, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $3, %k0, %k2
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k1
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $13, %k1, %k0
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $14, %k0, %k3
	; KNL_X32-NEXT: kshiftrw $2, %k2, %k2			; KNL_X32-NEXT: korw %k0, %k3, %k0
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftrw $14, %k0, %k2			; KNL_X32-NEXT: kshiftlw $2, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $2, %k0, %k2
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k0
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $14, %k0, %k0
	; KNL_X32-NEXT: kshiftlw $14, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k0, %k1
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k1, %k0
				; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftlw $1, %k0, %k0			; KNL_X32-NEXT: kshiftlw $1, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $1, %k0, %k0			; KNL_X32-NEXT: kshiftrw $1, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: korw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k2, %k0, %k0
				; KNL_X32-NEXT: kmovw %k0, (%esp) ## 2-byte Spill
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k2			; KNL_X32-NEXT: kmovw %eax, %k0
				; KNL_X32-NEXT: kshiftlw $1, %k0, %k0
				; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k2 ## 2-byte Reload
				; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k1, %k3, %k1
	; KNL_X32-NEXT: kshiftrw $2, %k1, %k3
	; KNL_X32-NEXT: kxorw %k2, %k3, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $13, %k2, %k2			; KNL_X32-NEXT: kshiftrw $15, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftrw $3, %k1, %k2
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $2, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL_X32-NEXT: kshiftrw $12, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k7, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftlw $14, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $4, %k1, %k2			; KNL_X32-NEXT: kshiftrw $14, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL_X32-NEXT: kshiftrw $11, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k7, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftlw $13, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $5, %k1, %k2			; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $4, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL_X32-NEXT: kshiftrw $10, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k7, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftlw $12, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $6, %k1, %k2			; KNL_X32-NEXT: kshiftrw $12, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $5, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL_X32-NEXT: kshiftrw $9, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k7, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftlw $11, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $7, %k1, %k2			; KNL_X32-NEXT: kshiftrw $11, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $6, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL_X32-NEXT: kshiftrw $8, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k7, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftlw $10, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $8, %k1, %k2			; KNL_X32-NEXT: kshiftrw $10, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $7, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL_X32-NEXT: kshiftrw $7, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k7, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftlw $9, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $9, %k1, %k2			; KNL_X32-NEXT: kshiftrw $9, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $8, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL_X32-NEXT: kshiftrw $6, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k7, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftlw $8, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $10, %k1, %k2			; KNL_X32-NEXT: kshiftrw $8, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $9, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k7 ## 2-byte Reload
	; KNL_X32-NEXT: kshiftrw $5, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k7, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftlw $7, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $11, %k1, %k2			; KNL_X32-NEXT: kshiftrw $7, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $10, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k6, %k2
	; KNL_X32-NEXT: kshiftrw $4, %k2, %k2			; KNL_X32-NEXT: kshiftlw $6, %k0, %k0
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftrw $6, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $12, %k1, %k2			; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $11, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k5, %k2
	; KNL_X32-NEXT: kshiftrw $3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $5, %k0, %k0
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftrw $5, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $13, %k1, %k2			; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $12, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k4, %k2
	; KNL_X32-NEXT: kshiftrw $2, %k2, %k2			; KNL_X32-NEXT: kshiftlw $4, %k0, %k0
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftrw $4, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $14, %k1, %k2			; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $13, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $14, %k2, %k2			; KNL_X32-NEXT: korw %k2, %k3, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: kshiftlw $3, %k0, %k0
	; KNL_X32-NEXT: kshiftlw $1, %k1, %k1			; KNL_X32-NEXT: kshiftrw $3, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $1, %k1, %k1			; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $14, %k2, %k2
	; KNL_X32-NEXT: korw %k2, %k1, %k1			; KNL_X32-NEXT: korw %k2, %k1, %k1
	; KNL_X32-NEXT: xorl %eax, %eax			; KNL_X32-NEXT: xorl %eax, %eax
	; KNL_X32-NEXT: testb $1, {{[0-9]+}}(%esp)			; KNL_X32-NEXT: testb $1, {{[0-9]+}}(%esp)
	; KNL_X32-NEXT: movl $65535, %ecx ## imm = 0xFFFF			; KNL_X32-NEXT: movl $65535, %ecx ## imm = 0xFFFF
	; KNL_X32-NEXT: movl $0, %edx			; KNL_X32-NEXT: movl $0, %edx
	; KNL_X32-NEXT: cmovnel %ecx, %edx			; KNL_X32-NEXT: cmovnel %ecx, %edx
				; KNL_X32-NEXT: kshiftlw $2, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $2, %k0, %k0
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $1, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $1, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %bl
				; KNL_X32-NEXT: kmovw %ebx, %k1
				; KNL_X32-NEXT: kshiftlw $15, %k1, %k1
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: kmovw %edx, %k1
	; KNL_X32-NEXT: testb $1, {{[0-9]+}}(%esp)			; KNL_X32-NEXT: testb $1, {{[0-9]+}}(%esp)
	; KNL_X32-NEXT: cmovnel %ecx, %eax			; KNL_X32-NEXT: cmovnel %ecx, %eax
	; KNL_X32-NEXT: kandw %k0, %k1, %k0			; KNL_X32-NEXT: kmovw (%esp), %k2 ## 2-byte Reload
	; KNL_X32-NEXT: kmovw %edx, %k1			; KNL_X32-NEXT: kandw %k2, %k0, %k0
	; KNL_X32-NEXT: kmovw %eax, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kandw %k1, %k2, %k1			; KNL_X32-NEXT: kandw %k1, %k2, %k1
	; KNL_X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; KNL_X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; KNL_X32-NEXT: kmovw %k1, %ebx			; KNL_X32-NEXT: kmovw %k1, %ebx
	; KNL_X32-NEXT: kshiftrw $1, %k0, %k1			; KNL_X32-NEXT: kshiftrw $1, %k0, %k1
	; KNL_X32-NEXT: kmovw %k1, %esi			; KNL_X32-NEXT: kmovw %k1, %esi
	; KNL_X32-NEXT: kshiftrw $2, %k0, %k1			; KNL_X32-NEXT: kshiftrw $2, %k0, %k1
	; KNL_X32-NEXT: kmovw %k1, %edi			; KNL_X32-NEXT: kmovw %k1, %edi
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; KNL_X32-NEXT: andl $1, %esi			; KNL_X32-NEXT: andl $1, %esi
	; KNL_X32-NEXT: shll $14, %esi			; KNL_X32-NEXT: shll $14, %esi
	; KNL_X32-NEXT: orl %ebp, %esi			; KNL_X32-NEXT: orl %ebp, %esi
	; KNL_X32-NEXT: andl $1, %ecx			; KNL_X32-NEXT: andl $1, %ecx
	; KNL_X32-NEXT: shll $15, %ecx			; KNL_X32-NEXT: shll $15, %ecx
	; KNL_X32-NEXT: orl %esi, %ecx			; KNL_X32-NEXT: orl %esi, %ecx
	; KNL_X32-NEXT: orl %edx, %ecx			; KNL_X32-NEXT: orl %edx, %ecx
	; KNL_X32-NEXT: movw %cx, (%eax)			; KNL_X32-NEXT: movw %cx, (%eax)
				; KNL_X32-NEXT: addl $20, %esp
	; KNL_X32-NEXT: popl %esi			; KNL_X32-NEXT: popl %esi
	; KNL_X32-NEXT: popl %edi			; KNL_X32-NEXT: popl %edi
	; KNL_X32-NEXT: popl %ebx			; KNL_X32-NEXT: popl %ebx
	; KNL_X32-NEXT: popl %ebp			; KNL_X32-NEXT: popl %ebp
	; KNL_X32-NEXT: retl $4			; KNL_X32-NEXT: retl $4
	%c = and <17 x i1> %a, %b			%c = and <17 x i1> %a, %b
	ret <17 x i1> %c			ret <17 x i1> %c
	}			}

	define <7 x i1> @test17(<7 x i1> %a, <7 x i1> %b, <7 x i1> %c, <7 x i1> %d, <7 x i1>%e, <7 x i1>%f, <7 x i1> %g, <7 x i1> %h, <7 x i1> %i) nounwind {			define <7 x i1> @test17(<7 x i1> %a, <7 x i1> %b, <7 x i1> %c, <7 x i1> %d, <7 x i1>%e, <7 x i1>%f, <7 x i1> %g, <7 x i1> %h, <7 x i1> %i) nounwind {
	; KNL-LABEL: test17:			; KNL-LABEL: test17:
	; KNL: ## %bb.0:			; KNL: ## %bb.0:
	; KNL-NEXT: movq %rdi, %rax			; KNL-NEXT: movq %rdi, %rax
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kmovw %edx, %k0			; KNL-NEXT: kmovw %edi, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k2
	; KNL-NEXT: kshiftlw $15, %k0, %k1
	; KNL-NEXT: kshiftrw $14, %k1, %k1
	; KNL-NEXT: kxorw %k1, %k2, %k2
	; KNL-NEXT: kshiftrw $2, %k2, %k3
	; KNL-NEXT: kxorw %k0, %k3, %k0
	; KNL-NEXT: kshiftlw $15, %k0, %k0			; KNL-NEXT: kshiftlw $15, %k0, %k0
	; KNL-NEXT: kshiftrw $13, %k0, %k0			; KNL-NEXT: kshiftrw $15, %k0, %k0
	; KNL-NEXT: kxorw %k0, %k2, %k0			; KNL-NEXT: kshiftlw $2, %k0, %k1
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
				; KNL-NEXT: kshiftlw $15, %k2, %k2
				; KNL-NEXT: kshiftrw $14, %k2, %k2
				; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kshiftrw $3, %k0, %k2			; KNL-NEXT: kshiftrw $3, %k0, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $3, %k2, %k2
	; KNL-NEXT: kmovw %edx, %k3			; KNL-NEXT: kshiftlw $14, %k0, %k0
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftrw $14, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $12, %k2, %k2			; KNL-NEXT: kshiftrw $13, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kshiftrw $4, %k0, %k2			; KNL-NEXT: kshiftrw $4, %k0, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $4, %k2, %k2
	; KNL-NEXT: kmovw %edx, %k3			; KNL-NEXT: kshiftlw $13, %k0, %k0
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftrw $13, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $11, %k2, %k2			; KNL-NEXT: kshiftrw $12, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kshiftrw $5, %k0, %k2			; KNL-NEXT: kshiftrw $5, %k0, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $5, %k2, %k2
	; KNL-NEXT: kmovw %edx, %k3			; KNL-NEXT: kshiftlw $12, %k0, %k0
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftrw $12, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $10, %k2, %k2			; KNL-NEXT: kshiftrw $11, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kshiftrw $6, %k0, %k2			; KNL-NEXT: kshiftrw $6, %k0, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $6, %k2, %k2
	; KNL-NEXT: kmovw %edx, %k3			; KNL-NEXT: kshiftlw $11, %k0, %k0
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftrw $11, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
				; KNL-NEXT: kshiftlw $15, %k2, %k2
				; KNL-NEXT: kshiftrw $10, %k2, %k2
				; KNL-NEXT: korw %k0, %k2, %k0
				; KNL-NEXT: kshiftrw $7, %k0, %k2
				; KNL-NEXT: kshiftlw $7, %k2, %k2
				; KNL-NEXT: kshiftlw $10, %k0, %k0
				; KNL-NEXT: kshiftrw $10, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $9, %k2, %k2			; KNL-NEXT: kshiftrw $9, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill			; KNL-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kmovw %edx, %k0			; KNL-NEXT: kmovw %edi, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k2
	; KNL-NEXT: kxorw %k1, %k2, %k2
	; KNL-NEXT: kshiftrw $2, %k2, %k3
	; KNL-NEXT: kxorw %k0, %k3, %k0
	; KNL-NEXT: kshiftlw $15, %k0, %k0			; KNL-NEXT: kshiftlw $15, %k0, %k0
	; KNL-NEXT: kshiftrw $13, %k0, %k0			; KNL-NEXT: kshiftrw $15, %k0, %k0
	; KNL-NEXT: kxorw %k0, %k2, %k0			; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
				; KNL-NEXT: kshiftlw $15, %k2, %k2
				; KNL-NEXT: kshiftrw $14, %k2, %k2
				; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kshiftrw $3, %k0, %k2			; KNL-NEXT: kshiftrw $3, %k0, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $3, %k2, %k2
	; KNL-NEXT: kmovw %edx, %k3			; KNL-NEXT: kshiftlw $14, %k0, %k0
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftrw $14, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $12, %k2, %k2			; KNL-NEXT: kshiftrw $13, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kshiftrw $4, %k0, %k2			; KNL-NEXT: kshiftrw $4, %k0, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $4, %k2, %k2
	; KNL-NEXT: kmovw %edx, %k3			; KNL-NEXT: kshiftlw $13, %k0, %k0
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftrw $13, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $11, %k2, %k2			; KNL-NEXT: kshiftrw $12, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kshiftrw $5, %k0, %k2			; KNL-NEXT: kshiftrw $5, %k0, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $5, %k2, %k2
	; KNL-NEXT: kmovw %edx, %k3			; KNL-NEXT: kshiftlw $12, %k0, %k0
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftrw $12, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $10, %k2, %k2			; KNL-NEXT: kshiftrw $11, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kshiftrw $6, %k0, %k2			; KNL-NEXT: kshiftrw $6, %k0, %k2
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $6, %k2, %k2
	; KNL-NEXT: kmovw %edx, %k3			; KNL-NEXT: kshiftlw $11, %k0, %k0
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftrw $11, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
				; KNL-NEXT: kshiftlw $15, %k2, %k2
				; KNL-NEXT: kshiftrw $10, %k2, %k2
				; KNL-NEXT: korw %k0, %k2, %k0
				; KNL-NEXT: kshiftrw $7, %k0, %k2
				; KNL-NEXT: kshiftlw $7, %k2, %k2
				; KNL-NEXT: kshiftlw $10, %k0, %k0
				; KNL-NEXT: kshiftrw $10, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $9, %k2, %k2			; KNL-NEXT: kshiftrw $9, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill			; KNL-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kmovw %edx, %k0			; KNL-NEXT: kmovw %edi, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k3
	; KNL-NEXT: kxorw %k1, %k3, %k3
	; KNL-NEXT: kshiftrw $2, %k3, %k4
	; KNL-NEXT: kxorw %k0, %k4, %k0
	; KNL-NEXT: kshiftlw $15, %k0, %k0			; KNL-NEXT: kshiftlw $15, %k0, %k0
	; KNL-NEXT: kshiftrw $13, %k0, %k0			; KNL-NEXT: kshiftrw $15, %k0, %k0
	; KNL-NEXT: kxorw %k0, %k3, %k0			; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k3
				; KNL-NEXT: kshiftlw $15, %k3, %k3
				; KNL-NEXT: kshiftrw $14, %k3, %k3
				; KNL-NEXT: korw %k0, %k3, %k0
	; KNL-NEXT: kshiftrw $3, %k0, %k3			; KNL-NEXT: kshiftrw $3, %k0, %k3
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $3, %k3, %k3
	; KNL-NEXT: kmovw %edx, %k4			; KNL-NEXT: kshiftlw $14, %k0, %k0
	; KNL-NEXT: kxorw %k4, %k3, %k3			; KNL-NEXT: kshiftrw $14, %k0, %k0
				; KNL-NEXT: korw %k3, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k3
	; KNL-NEXT: kshiftlw $15, %k3, %k3			; KNL-NEXT: kshiftlw $15, %k3, %k3
	; KNL-NEXT: kshiftrw $12, %k3, %k3			; KNL-NEXT: kshiftrw $13, %k3, %k3
	; KNL-NEXT: kxorw %k3, %k0, %k0			; KNL-NEXT: korw %k0, %k3, %k0
	; KNL-NEXT: kshiftrw $4, %k0, %k3			; KNL-NEXT: kshiftrw $4, %k0, %k3
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $4, %k3, %k3
	; KNL-NEXT: kmovw %edx, %k4			; KNL-NEXT: kshiftlw $13, %k0, %k0
	; KNL-NEXT: kxorw %k4, %k3, %k3			; KNL-NEXT: kshiftrw $13, %k0, %k0
				; KNL-NEXT: korw %k3, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k3
	; KNL-NEXT: kshiftlw $15, %k3, %k3			; KNL-NEXT: kshiftlw $15, %k3, %k3
	; KNL-NEXT: kshiftrw $11, %k3, %k3			; KNL-NEXT: kshiftrw $12, %k3, %k3
	; KNL-NEXT: kxorw %k3, %k0, %k0			; KNL-NEXT: korw %k0, %k3, %k0
	; KNL-NEXT: kshiftrw $5, %k0, %k3			; KNL-NEXT: kshiftrw $5, %k0, %k3
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $5, %k3, %k3
	; KNL-NEXT: kmovw %edx, %k4			; KNL-NEXT: kshiftlw $12, %k0, %k0
	; KNL-NEXT: kxorw %k4, %k3, %k3			; KNL-NEXT: kshiftrw $12, %k0, %k0
				; KNL-NEXT: korw %k3, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k3
	; KNL-NEXT: kshiftlw $15, %k3, %k3			; KNL-NEXT: kshiftlw $15, %k3, %k3
	; KNL-NEXT: kshiftrw $10, %k3, %k3			; KNL-NEXT: kshiftrw $11, %k3, %k3
	; KNL-NEXT: kxorw %k3, %k0, %k0			; KNL-NEXT: korw %k0, %k3, %k0
	; KNL-NEXT: kshiftrw $6, %k0, %k3			; KNL-NEXT: kshiftrw $6, %k0, %k3
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $6, %k3, %k3
	; KNL-NEXT: kmovw %edx, %k4			; KNL-NEXT: kshiftlw $11, %k0, %k0
	; KNL-NEXT: kxorw %k4, %k3, %k3			; KNL-NEXT: kshiftrw $11, %k0, %k0
				; KNL-NEXT: korw %k3, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k3
				; KNL-NEXT: kshiftlw $15, %k3, %k3
				; KNL-NEXT: kshiftrw $10, %k3, %k3
				; KNL-NEXT: korw %k0, %k3, %k0
				; KNL-NEXT: kshiftrw $7, %k0, %k3
				; KNL-NEXT: kshiftlw $7, %k3, %k3
				; KNL-NEXT: kshiftlw $10, %k0, %k0
				; KNL-NEXT: kshiftrw $10, %k0, %k0
				; KNL-NEXT: korw %k3, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k3
	; KNL-NEXT: kshiftlw $15, %k3, %k3			; KNL-NEXT: kshiftlw $15, %k3, %k3
	; KNL-NEXT: kshiftrw $9, %k3, %k3			; KNL-NEXT: kshiftrw $9, %k3, %k3
	; KNL-NEXT: kxorw %k3, %k0, %k0			; KNL-NEXT: korw %k0, %k3, %k3
	; KNL-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kmovw %edi, %k0
	; KNL-NEXT: kmovw %edx, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k4
	; KNL-NEXT: kxorw %k1, %k4, %k4
	; KNL-NEXT: kshiftrw $2, %k4, %k5
	; KNL-NEXT: kxorw %k0, %k5, %k0
	; KNL-NEXT: kshiftlw $15, %k0, %k0			; KNL-NEXT: kshiftlw $15, %k0, %k0
	; KNL-NEXT: kshiftrw $13, %k0, %k0			; KNL-NEXT: kshiftrw $15, %k0, %k0
	; KNL-NEXT: kxorw %k0, %k4, %k0			; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k4
				; KNL-NEXT: kshiftlw $15, %k4, %k4
				; KNL-NEXT: kshiftrw $14, %k4, %k4
				; KNL-NEXT: korw %k0, %k4, %k0
	; KNL-NEXT: kshiftrw $3, %k0, %k4			; KNL-NEXT: kshiftrw $3, %k0, %k4
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $3, %k4, %k4
	; KNL-NEXT: kmovw %edx, %k5			; KNL-NEXT: kshiftlw $14, %k0, %k0
	; KNL-NEXT: kxorw %k5, %k4, %k4			; KNL-NEXT: kshiftrw $14, %k0, %k0
				; KNL-NEXT: korw %k4, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k4
	; KNL-NEXT: kshiftlw $15, %k4, %k4			; KNL-NEXT: kshiftlw $15, %k4, %k4
	; KNL-NEXT: kshiftrw $12, %k4, %k4			; KNL-NEXT: kshiftrw $13, %k4, %k4
	; KNL-NEXT: kxorw %k4, %k0, %k0			; KNL-NEXT: korw %k0, %k4, %k0
	; KNL-NEXT: kshiftrw $4, %k0, %k4			; KNL-NEXT: kshiftrw $4, %k0, %k4
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $4, %k4, %k4
	; KNL-NEXT: kmovw %edx, %k5			; KNL-NEXT: kshiftlw $13, %k0, %k0
	; KNL-NEXT: kxorw %k5, %k4, %k4			; KNL-NEXT: kshiftrw $13, %k0, %k0
				; KNL-NEXT: korw %k4, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k4
	; KNL-NEXT: kshiftlw $15, %k4, %k4			; KNL-NEXT: kshiftlw $15, %k4, %k4
	; KNL-NEXT: kshiftrw $11, %k4, %k4			; KNL-NEXT: kshiftrw $12, %k4, %k4
	; KNL-NEXT: kxorw %k4, %k0, %k0			; KNL-NEXT: korw %k0, %k4, %k0
	; KNL-NEXT: kshiftrw $5, %k0, %k4			; KNL-NEXT: kshiftrw $5, %k0, %k4
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $5, %k4, %k4
	; KNL-NEXT: kmovw %edx, %k5			; KNL-NEXT: kshiftlw $12, %k0, %k0
	; KNL-NEXT: kxorw %k5, %k4, %k4			; KNL-NEXT: kshiftrw $12, %k0, %k0
				; KNL-NEXT: korw %k4, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k4
	; KNL-NEXT: kshiftlw $15, %k4, %k4			; KNL-NEXT: kshiftlw $15, %k4, %k4
	; KNL-NEXT: kshiftrw $10, %k4, %k4			; KNL-NEXT: kshiftrw $11, %k4, %k4
	; KNL-NEXT: kxorw %k4, %k0, %k0			; KNL-NEXT: korw %k0, %k4, %k0
	; KNL-NEXT: kshiftrw $6, %k0, %k4			; KNL-NEXT: kshiftrw $6, %k0, %k4
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $6, %k4, %k4
	; KNL-NEXT: kmovw %edx, %k5			; KNL-NEXT: kshiftlw $11, %k0, %k0
	; KNL-NEXT: kxorw %k5, %k4, %k4			; KNL-NEXT: kshiftrw $11, %k0, %k0
				; KNL-NEXT: korw %k4, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k4
				; KNL-NEXT: kshiftlw $15, %k4, %k4
				; KNL-NEXT: kshiftrw $10, %k4, %k4
				; KNL-NEXT: korw %k0, %k4, %k0
				; KNL-NEXT: kshiftrw $7, %k0, %k4
				; KNL-NEXT: kshiftlw $7, %k4, %k4
				; KNL-NEXT: kshiftlw $10, %k0, %k0
				; KNL-NEXT: kshiftrw $10, %k0, %k0
				; KNL-NEXT: korw %k4, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k4
	; KNL-NEXT: kshiftlw $15, %k4, %k4			; KNL-NEXT: kshiftlw $15, %k4, %k4
	; KNL-NEXT: kshiftrw $9, %k4, %k4			; KNL-NEXT: kshiftrw $9, %k4, %k4
	; KNL-NEXT: kxorw %k4, %k0, %k4			; KNL-NEXT: korw %k0, %k4, %k4
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kmovw %edx, %k0			; KNL-NEXT: kmovw %edi, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k5
	; KNL-NEXT: kxorw %k1, %k5, %k5
	; KNL-NEXT: kshiftrw $2, %k5, %k6
	; KNL-NEXT: kxorw %k0, %k6, %k0
	; KNL-NEXT: kshiftlw $15, %k0, %k0			; KNL-NEXT: kshiftlw $15, %k0, %k0
	; KNL-NEXT: kshiftrw $13, %k0, %k0			; KNL-NEXT: kshiftrw $15, %k0, %k0
	; KNL-NEXT: kxorw %k0, %k5, %k0			; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k5
				; KNL-NEXT: kshiftlw $15, %k5, %k5
				; KNL-NEXT: kshiftrw $14, %k5, %k5
				; KNL-NEXT: korw %k0, %k5, %k0
	; KNL-NEXT: kshiftrw $3, %k0, %k5			; KNL-NEXT: kshiftrw $3, %k0, %k5
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $3, %k5, %k5
	; KNL-NEXT: kmovw %edx, %k6			; KNL-NEXT: kshiftlw $14, %k0, %k0
	; KNL-NEXT: kxorw %k6, %k5, %k5			; KNL-NEXT: kshiftrw $14, %k0, %k0
				; KNL-NEXT: korw %k5, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k5
	; KNL-NEXT: kshiftlw $15, %k5, %k5			; KNL-NEXT: kshiftlw $15, %k5, %k5
	; KNL-NEXT: kshiftrw $12, %k5, %k5			; KNL-NEXT: kshiftrw $13, %k5, %k5
	; KNL-NEXT: kxorw %k5, %k0, %k0			; KNL-NEXT: korw %k0, %k5, %k0
	; KNL-NEXT: kshiftrw $4, %k0, %k5			; KNL-NEXT: kshiftrw $4, %k0, %k5
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $4, %k5, %k5
	; KNL-NEXT: kmovw %edx, %k6			; KNL-NEXT: kshiftlw $13, %k0, %k0
	; KNL-NEXT: kxorw %k6, %k5, %k5			; KNL-NEXT: kshiftrw $13, %k0, %k0
				; KNL-NEXT: korw %k5, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k5
	; KNL-NEXT: kshiftlw $15, %k5, %k5			; KNL-NEXT: kshiftlw $15, %k5, %k5
	; KNL-NEXT: kshiftrw $11, %k5, %k5			; KNL-NEXT: kshiftrw $12, %k5, %k5
	; KNL-NEXT: kxorw %k5, %k0, %k0			; KNL-NEXT: korw %k0, %k5, %k0
	; KNL-NEXT: kshiftrw $5, %k0, %k5			; KNL-NEXT: kshiftrw $5, %k0, %k5
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $5, %k5, %k5
	; KNL-NEXT: kmovw %edx, %k6			; KNL-NEXT: kshiftlw $12, %k0, %k0
	; KNL-NEXT: kxorw %k6, %k5, %k5			; KNL-NEXT: kshiftrw $12, %k0, %k0
				; KNL-NEXT: korw %k5, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k5
	; KNL-NEXT: kshiftlw $15, %k5, %k5			; KNL-NEXT: kshiftlw $15, %k5, %k5
	; KNL-NEXT: kshiftrw $10, %k5, %k5			; KNL-NEXT: kshiftrw $11, %k5, %k5
	; KNL-NEXT: kxorw %k5, %k0, %k0			; KNL-NEXT: korw %k0, %k5, %k0
	; KNL-NEXT: kshiftrw $6, %k0, %k5			; KNL-NEXT: kshiftrw $6, %k0, %k5
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $6, %k5, %k5
	; KNL-NEXT: kmovw %edx, %k6			; KNL-NEXT: kshiftlw $11, %k0, %k0
	; KNL-NEXT: kxorw %k6, %k5, %k5			; KNL-NEXT: kshiftrw $11, %k0, %k0
				; KNL-NEXT: korw %k5, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k5
				; KNL-NEXT: kshiftlw $15, %k5, %k5
				; KNL-NEXT: kshiftrw $10, %k5, %k5
				; KNL-NEXT: korw %k0, %k5, %k0
				; KNL-NEXT: kshiftrw $7, %k0, %k5
				; KNL-NEXT: kshiftlw $7, %k5, %k5
				; KNL-NEXT: kshiftlw $10, %k0, %k0
				; KNL-NEXT: kshiftrw $10, %k0, %k0
				; KNL-NEXT: korw %k5, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k5
	; KNL-NEXT: kshiftlw $15, %k5, %k5			; KNL-NEXT: kshiftlw $15, %k5, %k5
	; KNL-NEXT: kshiftrw $9, %k5, %k5			; KNL-NEXT: kshiftrw $9, %k5, %k5
	; KNL-NEXT: kxorw %k5, %k0, %k5			; KNL-NEXT: korw %k0, %k5, %k5
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kmovw %edx, %k0			; KNL-NEXT: kmovw %edi, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kmovw %edx, %k6
	; KNL-NEXT: kxorw %k1, %k6, %k6
	; KNL-NEXT: kshiftrw $2, %k6, %k7
	; KNL-NEXT: kxorw %k0, %k7, %k0
	; KNL-NEXT: kshiftlw $15, %k0, %k0			; KNL-NEXT: kshiftlw $15, %k0, %k0
	; KNL-NEXT: kshiftrw $13, %k0, %k0			; KNL-NEXT: kshiftrw $15, %k0, %k0
	; KNL-NEXT: kxorw %k0, %k6, %k0			; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k6
				; KNL-NEXT: kshiftlw $15, %k6, %k6
				; KNL-NEXT: kshiftrw $14, %k6, %k6
				; KNL-NEXT: korw %k0, %k6, %k0
	; KNL-NEXT: kshiftrw $3, %k0, %k6			; KNL-NEXT: kshiftrw $3, %k0, %k6
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $3, %k6, %k6
	; KNL-NEXT: kmovw %edx, %k7			; KNL-NEXT: kshiftlw $14, %k0, %k0
	; KNL-NEXT: kxorw %k7, %k6, %k6			; KNL-NEXT: kshiftrw $14, %k0, %k0
				; KNL-NEXT: korw %k6, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k6
	; KNL-NEXT: kshiftlw $15, %k6, %k6			; KNL-NEXT: kshiftlw $15, %k6, %k6
	; KNL-NEXT: kshiftrw $12, %k6, %k6			; KNL-NEXT: kshiftrw $13, %k6, %k6
	; KNL-NEXT: kxorw %k6, %k0, %k0			; KNL-NEXT: korw %k0, %k6, %k0
	; KNL-NEXT: kshiftrw $4, %k0, %k6			; KNL-NEXT: kshiftrw $4, %k0, %k6
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $4, %k6, %k6
	; KNL-NEXT: kmovw %edx, %k7			; KNL-NEXT: kshiftlw $13, %k0, %k0
	; KNL-NEXT: kxorw %k7, %k6, %k6			; KNL-NEXT: kshiftrw $13, %k0, %k0
				; KNL-NEXT: korw %k6, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k6
	; KNL-NEXT: kshiftlw $15, %k6, %k6			; KNL-NEXT: kshiftlw $15, %k6, %k6
	; KNL-NEXT: kshiftrw $11, %k6, %k6			; KNL-NEXT: kshiftrw $12, %k6, %k6
	; KNL-NEXT: kxorw %k6, %k0, %k0			; KNL-NEXT: korw %k0, %k6, %k0
	; KNL-NEXT: kshiftrw $5, %k0, %k6			; KNL-NEXT: kshiftrw $5, %k0, %k6
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $5, %k6, %k6
	; KNL-NEXT: kmovw %edx, %k7			; KNL-NEXT: kshiftlw $12, %k0, %k0
	; KNL-NEXT: kxorw %k7, %k6, %k6			; KNL-NEXT: kshiftrw $12, %k0, %k0
				; KNL-NEXT: korw %k6, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k6
	; KNL-NEXT: kshiftlw $15, %k6, %k6			; KNL-NEXT: kshiftlw $15, %k6, %k6
	; KNL-NEXT: kshiftrw $10, %k6, %k6			; KNL-NEXT: kshiftrw $11, %k6, %k6
	; KNL-NEXT: kxorw %k6, %k0, %k0			; KNL-NEXT: korw %k0, %k6, %k0
	; KNL-NEXT: kshiftrw $6, %k0, %k6			; KNL-NEXT: kshiftrw $6, %k0, %k6
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl			; KNL-NEXT: kshiftlw $6, %k6, %k6
	; KNL-NEXT: kmovw %edx, %k7			; KNL-NEXT: kshiftlw $11, %k0, %k0
	; KNL-NEXT: kxorw %k7, %k6, %k6			; KNL-NEXT: kshiftrw $11, %k0, %k0
				; KNL-NEXT: korw %k6, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k6
				; KNL-NEXT: kshiftlw $15, %k6, %k6
				; KNL-NEXT: kshiftrw $10, %k6, %k6
				; KNL-NEXT: korw %k0, %k6, %k0
				; KNL-NEXT: kshiftrw $7, %k0, %k6
				; KNL-NEXT: kshiftlw $7, %k6, %k6
				; KNL-NEXT: kshiftlw $10, %k0, %k0
				; KNL-NEXT: kshiftrw $10, %k0, %k0
				; KNL-NEXT: korw %k6, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k6
	; KNL-NEXT: kshiftlw $15, %k6, %k6			; KNL-NEXT: kshiftlw $15, %k6, %k6
	; KNL-NEXT: kshiftrw $9, %k6, %k6			; KNL-NEXT: kshiftrw $9, %k6, %k6
	; KNL-NEXT: kxorw %k6, %k0, %k6			; KNL-NEXT: korw %k0, %k6, %k6
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
	; KNL-NEXT: kmovw %edi, %k0			; KNL-NEXT: kmovw %edi, %k0
	; KNL-NEXT: kxorw %k1, %k0, %k0			; KNL-NEXT: kshiftlw $15, %k0, %k0
	; KNL-NEXT: kmovw %edx, %k7			; KNL-NEXT: kshiftrw $15, %k0, %k0
	; KNL-NEXT: kshiftrw $2, %k0, %k2			; KNL-NEXT: korw %k1, %k0, %k0
	; KNL-NEXT: kxorw %k7, %k2, %k2			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k7
				; KNL-NEXT: kshiftlw $15, %k7, %k7
				; KNL-NEXT: kshiftrw $14, %k7, %k7
				; KNL-NEXT: korw %k0, %k7, %k0
				; KNL-NEXT: kshiftrw $3, %k0, %k7
				; KNL-NEXT: kshiftlw $3, %k7, %k7
				; KNL-NEXT: kshiftlw $14, %k0, %k0
				; KNL-NEXT: kshiftrw $14, %k0, %k0
				; KNL-NEXT: korw %k7, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k7
				; KNL-NEXT: kshiftlw $15, %k7, %k7
				; KNL-NEXT: kshiftrw $13, %k7, %k7
				; KNL-NEXT: korw %k0, %k7, %k0
				; KNL-NEXT: kshiftrw $4, %k0, %k7
				; KNL-NEXT: kshiftlw $4, %k7, %k7
				; KNL-NEXT: kshiftlw $13, %k0, %k0
				; KNL-NEXT: kshiftrw $13, %k0, %k0
				; KNL-NEXT: korw %k7, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k7
				; KNL-NEXT: kshiftlw $15, %k7, %k7
				; KNL-NEXT: kshiftrw $12, %k7, %k7
				; KNL-NEXT: korw %k0, %k7, %k0
				; KNL-NEXT: kshiftrw $5, %k0, %k7
				; KNL-NEXT: kshiftlw $5, %k7, %k7
				; KNL-NEXT: kshiftlw $12, %k0, %k0
				; KNL-NEXT: kshiftrw $12, %k0, %k0
				; KNL-NEXT: korw %k7, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k7
				; KNL-NEXT: kshiftlw $15, %k7, %k7
				; KNL-NEXT: kshiftrw $11, %k7, %k7
				; KNL-NEXT: korw %k0, %k7, %k0
				; KNL-NEXT: kshiftrw $6, %k0, %k7
				; KNL-NEXT: kshiftlw $6, %k7, %k7
				; KNL-NEXT: kshiftlw $11, %k0, %k0
				; KNL-NEXT: kshiftrw $11, %k0, %k0
				; KNL-NEXT: korw %k7, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k7
				; KNL-NEXT: kshiftlw $15, %k7, %k7
				; KNL-NEXT: kshiftrw $10, %k7, %k7
				; KNL-NEXT: korw %k0, %k7, %k0
				; KNL-NEXT: kshiftrw $7, %k0, %k7
				; KNL-NEXT: kshiftlw $7, %k7, %k7
				; KNL-NEXT: kshiftlw $10, %k0, %k0
				; KNL-NEXT: kshiftrw $10, %k0, %k0
				; KNL-NEXT: korw %k7, %k0, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dil
				; KNL-NEXT: kmovw %edi, %k7
				; KNL-NEXT: kshiftlw $15, %k7, %k7
				; KNL-NEXT: kshiftrw $9, %k7, %k7
				; KNL-NEXT: korw %k0, %k7, %k7
				; KNL-NEXT: kmovw %esi, %k0
				; KNL-NEXT: kshiftlw $15, %k0, %k0
				; KNL-NEXT: kshiftrw $15, %k0, %k0
				; KNL-NEXT: korw %k1, %k0, %k0
				; KNL-NEXT: kmovw %edx, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $13, %k2, %k2			; KNL-NEXT: kshiftrw $14, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kshiftrw $3, %k0, %k2			; KNL-NEXT: kshiftrw $3, %k0, %k2
	; KNL-NEXT: kmovw %edx, %k7			; KNL-NEXT: kshiftlw $3, %k2, %k2
	; KNL-NEXT: kxorw %k7, %k2, %k2			; KNL-NEXT: kshiftlw $14, %k0, %k0
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftrw $14, %k0, %k0
	; KNL-NEXT: kshiftrw $12, %k2, %k2			; KNL-NEXT: korw %k2, %k0, %k0
	; KNL-NEXT: kxorw %k2, %k0, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kshiftrw $4, %k0, %k2
	; KNL-NEXT: kmovw %edx, %k7
	; KNL-NEXT: kxorw %k7, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $11, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kshiftrw $5, %k0, %k2
	; KNL-NEXT: kmovw %edx, %k7
	; KNL-NEXT: kxorw %k7, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $10, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %dl
	; KNL-NEXT: kshiftrw $6, %k0, %k2
	; KNL-NEXT: kmovw %edx, %k7
	; KNL-NEXT: kxorw %k7, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $9, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k7
	; KNL-NEXT: kmovw %esi, %k0
	; KNL-NEXT: kxorw %k1, %k0, %k0
	; KNL-NEXT: kmovw %ecx, %k2			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kshiftrw $2, %k0, %k3
	; KNL-NEXT: kxorw %k2, %k3, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $13, %k2, %k2			; KNL-NEXT: kshiftrw $13, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kshiftrw $3, %k0, %k2			; KNL-NEXT: kshiftrw $4, %k0, %k2
	; KNL-NEXT: kmovw %r8d, %k3			; KNL-NEXT: kshiftlw $4, %k2, %k2
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftlw $13, %k0, %k0
				; KNL-NEXT: kshiftrw $13, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: kmovw %r8d, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $12, %k2, %k2			; KNL-NEXT: kshiftrw $12, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
	; KNL-NEXT: kshiftrw $4, %k0, %k2			; KNL-NEXT: kshiftrw $5, %k0, %k2
	; KNL-NEXT: kmovw %r9d, %k3			; KNL-NEXT: kshiftlw $5, %k2, %k2
	; KNL-NEXT: kxorw %k3, %k2, %k2			; KNL-NEXT: kshiftlw $12, %k0, %k0
				; KNL-NEXT: kshiftrw $12, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
				; KNL-NEXT: kmovw %r9d, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $11, %k2, %k2			; KNL-NEXT: kshiftrw $11, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
				; KNL-NEXT: kshiftrw $6, %k0, %k2
				; KNL-NEXT: kshiftlw $6, %k2, %k2
				; KNL-NEXT: kshiftlw $11, %k0, %k0
				; KNL-NEXT: kshiftrw $11, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kshiftrw $5, %k0, %k2			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kmovw %ecx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $10, %k2, %k2			; KNL-NEXT: kshiftrw $10, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
				; KNL-NEXT: kshiftrw $7, %k0, %k2
				; KNL-NEXT: kshiftlw $7, %k2, %k2
				; KNL-NEXT: kshiftlw $10, %k0, %k0
				; KNL-NEXT: kshiftrw $10, %k0, %k0
				; KNL-NEXT: korw %k2, %k0, %k0
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kshiftrw $6, %k0, %k2			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kmovw %ecx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $9, %k2, %k2			; KNL-NEXT: kshiftrw $9, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k0, %k0			; KNL-NEXT: korw %k0, %k2, %k0
				; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
				; KNL-NEXT: kmovw %ecx, %k2
				; KNL-NEXT: kshiftlw $15, %k2, %k2
				; KNL-NEXT: kshiftrw $15, %k2, %k2
				; KNL-NEXT: korw %k1, %k2, %k1
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kmovw %ecx, %k2			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kxorw %k1, %k2, %k1			; KNL-NEXT: kshiftlw $15, %k2, %k2
				; KNL-NEXT: kshiftrw $14, %k2, %k2
				; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: kshiftrw $3, %k1, %k2
				; KNL-NEXT: kshiftlw $3, %k2, %k2
				; KNL-NEXT: kshiftlw $14, %k1, %k1
				; KNL-NEXT: kshiftrw $14, %k1, %k1
				; KNL-NEXT: korw %k2, %k1, %k1
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kmovw %ecx, %k2			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kshiftrw $2, %k1, %k3
	; KNL-NEXT: kxorw %k2, %k3, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $13, %k2, %k2			; KNL-NEXT: kshiftrw $13, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1			; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: kshiftrw $4, %k1, %k2
				; KNL-NEXT: kshiftlw $4, %k2, %k2
				; KNL-NEXT: kshiftlw $13, %k1, %k1
				; KNL-NEXT: kshiftrw $13, %k1, %k1
				; KNL-NEXT: korw %k2, %k1, %k1
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kshiftrw $3, %k1, %k2			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kmovw %ecx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $12, %k2, %k2			; KNL-NEXT: kshiftrw $12, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1			; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: kshiftrw $5, %k1, %k2
				; KNL-NEXT: kshiftlw $5, %k2, %k2
				; KNL-NEXT: kshiftlw $12, %k1, %k1
				; KNL-NEXT: kshiftrw $12, %k1, %k1
				; KNL-NEXT: korw %k2, %k1, %k1
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kshiftrw $4, %k1, %k2			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kmovw %ecx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $11, %k2, %k2			; KNL-NEXT: kshiftrw $11, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1			; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: kshiftrw $6, %k1, %k2
				; KNL-NEXT: kshiftlw $6, %k2, %k2
				; KNL-NEXT: kshiftlw $11, %k1, %k1
				; KNL-NEXT: kshiftrw $11, %k1, %k1
				; KNL-NEXT: korw %k2, %k1, %k1
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kshiftrw $5, %k1, %k2			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kmovw %ecx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $10, %k2, %k2			; KNL-NEXT: kshiftrw $10, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1			; KNL-NEXT: korw %k1, %k2, %k1
				; KNL-NEXT: kshiftrw $7, %k1, %k2
				; KNL-NEXT: kshiftlw $7, %k2, %k2
				; KNL-NEXT: kshiftlw $10, %k1, %k1
				; KNL-NEXT: kshiftrw $10, %k1, %k1
				; KNL-NEXT: korw %k2, %k1, %k1
	; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl			; KNL-NEXT: movb {{[0-9]+}}(%rsp), %cl
	; KNL-NEXT: kshiftrw $6, %k1, %k2			; KNL-NEXT: kmovw %ecx, %k2
	; KNL-NEXT: kmovw %ecx, %k3
	; KNL-NEXT: kxorw %k3, %k2, %k2
	; KNL-NEXT: kshiftlw $15, %k2, %k2			; KNL-NEXT: kshiftlw $15, %k2, %k2
	; KNL-NEXT: kshiftrw $9, %k2, %k2			; KNL-NEXT: kshiftrw $9, %k2, %k2
	; KNL-NEXT: kxorw %k2, %k1, %k1			; KNL-NEXT: korw %k1, %k2, %k1
	; KNL-NEXT: kandw %k1, %k0, %k0			; KNL-NEXT: kandw %k1, %k0, %k0
	; KNL-NEXT: kandw %k7, %k0, %k0			; KNL-NEXT: kandw %k7, %k0, %k0
	; KNL-NEXT: kandw %k6, %k0, %k0			; KNL-NEXT: kandw %k6, %k0, %k0
	; KNL-NEXT: kandw %k5, %k0, %k0			; KNL-NEXT: kandw %k5, %k0, %k0
	; KNL-NEXT: kandw %k4, %k0, %k0			; KNL-NEXT: kandw %k4, %k0, %k0
	; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload			; KNL-NEXT: kandw %k3, %k0, %k0
	; KNL-NEXT: kandw %k1, %k0, %k0
	; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload			; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
	; KNL-NEXT: kandw %k1, %k0, %k0			; KNL-NEXT: kandw %k1, %k0, %k0
	; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload			; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
	; KNL-NEXT: kandw %k1, %k0, %k0			; KNL-NEXT: kandw %k1, %k0, %k0
	; KNL-NEXT: kshiftrw $6, %k0, %k1			; KNL-NEXT: kshiftrw $6, %k0, %k1
	; KNL-NEXT: kmovw %k1, %r8d			; KNL-NEXT: kmovw %k1, %r8d
	; KNL-NEXT: kshiftrw $5, %k0, %k1			; KNL-NEXT: kshiftrw $5, %k0, %k1
	; KNL-NEXT: kmovw %k1, %r9d			; KNL-NEXT: kmovw %k1, %r9d
	Show All 26 Lines
	; KNL-NEXT: orb %r9b, %r8b			; KNL-NEXT: orb %r9b, %r8b
	; KNL-NEXT: andb $127, %r8b			; KNL-NEXT: andb $127, %r8b
	; KNL-NEXT: movb %r8b, (%rax)			; KNL-NEXT: movb %r8b, (%rax)
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: test17:			; SKX-LABEL: test17:
	; SKX: ## %bb.0:			; SKX: ## %bb.0:
	; SKX-NEXT: movq %rdi, %rax			; SKX-NEXT: movq %rdi, %rax
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k1			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k0
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftlb $7, %k0, %k0			; SKX-NEXT: kshiftlb $7, %k0, %k0
	; SKX-NEXT: kshiftrb $6, %k0, %k0			; SKX-NEXT: kshiftrb $7, %k0, %k1
	; SKX-NEXT: kxorb %k0, %k2, %k2			; SKX-NEXT: kshiftlb $2, %k0, %k0
	; SKX-NEXT: kshiftrb $2, %k2, %k3			; SKX-NEXT: korb %k0, %k1, %k1
	; SKX-NEXT: kxorb %k1, %k3, %k1			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftlb $7, %k1, %k1			; SKX-NEXT: kshiftlb $7, %k2, %k2
	; SKX-NEXT: kshiftrb $5, %k1, %k1			; SKX-NEXT: kshiftrb $6, %k2, %k2
	; SKX-NEXT: kxorb %k1, %k2, %k1			; SKX-NEXT: korb %k1, %k2, %k1
	; SKX-NEXT: kshiftrb $3, %k1, %k2			; SKX-NEXT: kshiftrb $3, %k1, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kshiftlb $3, %k2, %k2
	; SKX-NEXT: kxorb %k3, %k2, %k2			; SKX-NEXT: kshiftlb $6, %k1, %k1
				; SKX-NEXT: kshiftrb $6, %k1, %k1
				; SKX-NEXT: korb %k2, %k1, %k1
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftlb $7, %k2, %k2			; SKX-NEXT: kshiftlb $7, %k2, %k2
	; SKX-NEXT: kshiftrb $4, %k2, %k2			; SKX-NEXT: kshiftrb $5, %k2, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: korb %k1, %k2, %k1
	; SKX-NEXT: kxorb %k2, %k1, %k1
	; SKX-NEXT: kshiftrb $4, %k1, %k2			; SKX-NEXT: kshiftrb $4, %k1, %k2
	; SKX-NEXT: kxorb %k3, %k2, %k2			; SKX-NEXT: kshiftlb $4, %k2, %k2
				; SKX-NEXT: kshiftlb $5, %k1, %k1
				; SKX-NEXT: kshiftrb $5, %k1, %k1
				; SKX-NEXT: korb %k2, %k1, %k1
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftlb $7, %k2, %k2			; SKX-NEXT: kshiftlb $7, %k2, %k2
	; SKX-NEXT: kshiftrb $3, %k2, %k2			; SKX-NEXT: kshiftrb $4, %k2, %k2
	; SKX-NEXT: kxorb %k2, %k1, %k1			; SKX-NEXT: korb %k1, %k2, %k1
	; SKX-NEXT: kshiftrb $5, %k1, %k2			; SKX-NEXT: kshiftrb $5, %k1, %k2
				; SKX-NEXT: kshiftlb $5, %k2, %k2
				; SKX-NEXT: kshiftlb $4, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxorb %k3, %k2, %k2			; SKX-NEXT: kshiftrb $4, %k1, %k1
	; SKX-NEXT: kshiftlb $7, %k2, %k2			; SKX-NEXT: korb %k2, %k1, %k1
	; SKX-NEXT: kshiftrb $2, %k2, %k2			; SKX-NEXT: kshiftlb $7, %k3, %k2
	; SKX-NEXT: kxorb %k2, %k1, %k1			; SKX-NEXT: kshiftrb $3, %k2, %k2
				; SKX-NEXT: korb %k1, %k2, %k1
	; SKX-NEXT: kshiftrb $6, %k1, %k2			; SKX-NEXT: kshiftrb $6, %k1, %k2
				; SKX-NEXT: kshiftlb $6, %k2, %k2
				; SKX-NEXT: kshiftlb $3, %k1, %k1
				; SKX-NEXT: kshiftrb $3, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxorb %k3, %k2, %k2			; SKX-NEXT: korb %k2, %k1, %k1
				; SKX-NEXT: kshiftlb $7, %k3, %k2
				; SKX-NEXT: kshiftrb $2, %k2, %k2
				; SKX-NEXT: korb %k1, %k2, %k1
				; SKX-NEXT: kshiftrb $7, %k1, %k2
				; SKX-NEXT: kshiftlb $7, %k2, %k2
				; SKX-NEXT: kshiftlb $2, %k1, %k1
				; SKX-NEXT: kshiftrb $2, %k1, %k1
				; SKX-NEXT: korb %k2, %k1, %k1
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kshiftlb $7, %k2, %k2			; SKX-NEXT: kshiftlb $7, %k2, %k2
	; SKX-NEXT: kshiftrb $1, %k2, %k2			; SKX-NEXT: kshiftrb $1, %k2, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: korb %k1, %k2, %k1
	; SKX-NEXT: kxorb %k2, %k1, %k1
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k2
	; SKX-NEXT: kxorb %k0, %k2, %k2			; SKX-NEXT: kshiftlb $7, %k2, %k2
	; SKX-NEXT: kshiftrb $2, %k2, %k4			; SKX-NEXT: kshiftrb $7, %k2, %k2
	; SKX-NEXT: kxorb %k3, %k4, %k3			; SKX-NEXT: korb %k0, %k2, %k2
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: kshiftlb $7, %k3, %k3
	; SKX-NEXT: kshiftrb $5, %k3, %k3			; SKX-NEXT: kshiftrb $6, %k3, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: korb %k2, %k3, %k2
	; SKX-NEXT: kxorb %k3, %k2, %k2
	; SKX-NEXT: kshiftrb $3, %k2, %k3			; SKX-NEXT: kshiftrb $3, %k2, %k3
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: kshiftlb $3, %k3, %k3
				; SKX-NEXT: kshiftlb $6, %k2, %k2
				; SKX-NEXT: kshiftrb $6, %k2, %k2
				; SKX-NEXT: korb %k3, %k2, %k2
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: kshiftlb $7, %k3, %k3
	; SKX-NEXT: kshiftrb $4, %k3, %k3			; SKX-NEXT: kshiftrb $5, %k3, %k3
	; SKX-NEXT: kxorb %k3, %k2, %k2			; SKX-NEXT: korb %k2, %k3, %k2
	; SKX-NEXT: kshiftrb $4, %k2, %k3			; SKX-NEXT: kshiftrb $4, %k2, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kshiftlb $4, %k3, %k3
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: kshiftlb $5, %k2, %k2
				; SKX-NEXT: kshiftrb $5, %k2, %k2
				; SKX-NEXT: korb %k3, %k2, %k2
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: kshiftlb $7, %k3, %k3
	; SKX-NEXT: kshiftrb $3, %k3, %k3			; SKX-NEXT: kshiftrb $4, %k3, %k3
	; SKX-NEXT: kxorb %k3, %k2, %k2			; SKX-NEXT: korb %k2, %k3, %k2
	; SKX-NEXT: kshiftrb $5, %k2, %k3			; SKX-NEXT: kshiftrb $5, %k2, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kshiftlb $5, %k3, %k3
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: kshiftlb $4, %k2, %k2
				; SKX-NEXT: kshiftrb $4, %k2, %k2
				; SKX-NEXT: korb %k3, %k2, %k2
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: kshiftlb $7, %k3, %k3
	; SKX-NEXT: kshiftrb $2, %k3, %k3			; SKX-NEXT: kshiftrb $3, %k3, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: korb %k2, %k3, %k2
	; SKX-NEXT: kxorb %k3, %k2, %k2
	; SKX-NEXT: kshiftrb $6, %k2, %k3			; SKX-NEXT: kshiftrb $6, %k2, %k3
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: kshiftlb $6, %k3, %k3
				; SKX-NEXT: kshiftlb $3, %k2, %k2
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
				; SKX-NEXT: kshiftrb $3, %k2, %k2
				; SKX-NEXT: korb %k3, %k2, %k2
				; SKX-NEXT: kshiftlb $7, %k4, %k3
				; SKX-NEXT: kshiftrb $2, %k3, %k3
				; SKX-NEXT: korb %k2, %k3, %k2
				; SKX-NEXT: kshiftrb $7, %k2, %k3
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: kshiftlb $7, %k3, %k3
				; SKX-NEXT: kshiftlb $2, %k2, %k2
				; SKX-NEXT: kshiftrb $2, %k2, %k2
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
				; SKX-NEXT: korb %k3, %k2, %k2
				; SKX-NEXT: kshiftlb $7, %k4, %k3
	; SKX-NEXT: kshiftrb $1, %k3, %k3			; SKX-NEXT: kshiftrb $1, %k3, %k3
	; SKX-NEXT: kxorb %k3, %k2, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
				; SKX-NEXT: korb %k2, %k3, %k2
	; SKX-NEXT: kandb %k1, %k2, %k1			; SKX-NEXT: kandb %k1, %k2, %k1
	; SKX-NEXT: kxorb %k0, %k4, %k2			; SKX-NEXT: kshiftlb $7, %k4, %k2
	; SKX-NEXT: kshiftrb $2, %k2, %k4			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kxorb %k3, %k4, %k3			; SKX-NEXT: kshiftrb $7, %k2, %k2
				; SKX-NEXT: korb %k0, %k2, %k2
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: kshiftlb $7, %k3, %k3
	; SKX-NEXT: kshiftrb $5, %k3, %k3			; SKX-NEXT: kshiftrb $6, %k3, %k3
	; SKX-NEXT: kxorb %k3, %k2, %k2			; SKX-NEXT: korb %k2, %k3, %k2
	; SKX-NEXT: kshiftrb $3, %k2, %k3			; SKX-NEXT: kshiftrb $3, %k2, %k3
				; SKX-NEXT: kshiftlb $3, %k3, %k3
				; SKX-NEXT: kshiftlb $6, %k2, %k2
				; SKX-NEXT: kshiftrb $6, %k2, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: korb %k3, %k2, %k2
				; SKX-NEXT: kshiftlb $7, %k4, %k3
				; SKX-NEXT: kshiftrb $5, %k3, %k3
				; SKX-NEXT: korb %k2, %k3, %k2
				; SKX-NEXT: kshiftrb $4, %k2, %k3
				; SKX-NEXT: kshiftlb $4, %k3, %k3
				; SKX-NEXT: kshiftlb $5, %k2, %k2
				; SKX-NEXT: kshiftrb $5, %k2, %k2
				; SKX-NEXT: korb %k3, %k2, %k2
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: kshiftlb $7, %k3, %k3
	; SKX-NEXT: kshiftrb $4, %k3, %k3			; SKX-NEXT: kshiftrb $4, %k3, %k3
	; SKX-NEXT: kxorb %k3, %k2, %k2			; SKX-NEXT: korb %k2, %k3, %k2
				; SKX-NEXT: kshiftrb $5, %k2, %k3
				; SKX-NEXT: kshiftlb $5, %k3, %k3
				; SKX-NEXT: kshiftlb $4, %k2, %k2
				; SKX-NEXT: kshiftrb $4, %k2, %k2
				; SKX-NEXT: korb %k3, %k2, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kshiftrb $4, %k2, %k4
	; SKX-NEXT: kxorb %k3, %k4, %k3
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: kshiftlb $7, %k3, %k3
	; SKX-NEXT: kshiftrb $3, %k3, %k3			; SKX-NEXT: kshiftrb $3, %k3, %k3
	; SKX-NEXT: kxorb %k3, %k2, %k2			; SKX-NEXT: korb %k2, %k3, %k2
	; SKX-NEXT: kshiftrb $5, %k2, %k3			; SKX-NEXT: kshiftrb $6, %k2, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kshiftlb $6, %k3, %k3
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: kshiftlb $3, %k2, %k2
				; SKX-NEXT: kshiftrb $3, %k2, %k2
				; SKX-NEXT: korb %k3, %k2, %k2
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: kshiftlb $7, %k3, %k3
	; SKX-NEXT: kshiftrb $2, %k3, %k3			; SKX-NEXT: kshiftrb $2, %k3, %k3
	; SKX-NEXT: kxorb %k3, %k2, %k2			; SKX-NEXT: korb %k2, %k3, %k2
	; SKX-NEXT: kshiftrb $6, %k2, %k3			; SKX-NEXT: kshiftrb $7, %k2, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kshiftlb $7, %k3, %k3
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: kshiftlb $2, %k2, %k2
				; SKX-NEXT: kshiftrb $2, %k2, %k2
				; SKX-NEXT: korb %k3, %k2, %k2
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: kshiftlb $7, %k3, %k3
	; SKX-NEXT: kshiftrb $1, %k3, %k3			; SKX-NEXT: kshiftrb $1, %k3, %k3
	; SKX-NEXT: kxorb %k3, %k2, %k2			; SKX-NEXT: korb %k2, %k3, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kxorb %k0, %k4, %k4
	; SKX-NEXT: kshiftrb $2, %k4, %k5
	; SKX-NEXT: kxorb %k3, %k5, %k3
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: kshiftlb $7, %k3, %k3
	; SKX-NEXT: kshiftrb $5, %k3, %k3			; SKX-NEXT: kshiftrb $7, %k3, %k3
	; SKX-NEXT: kxorb %k3, %k4, %k3			; SKX-NEXT: korb %k0, %k3, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kshiftrb $3, %k3, %k5
	; SKX-NEXT: kxorb %k4, %k5, %k4
	; SKX-NEXT: kshiftlb $7, %k4, %k4			; SKX-NEXT: kshiftlb $7, %k4, %k4
	; SKX-NEXT: kshiftrb $4, %k4, %k4			; SKX-NEXT: kshiftrb $6, %k4, %k4
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: korb %k3, %k4, %k3
				; SKX-NEXT: kshiftrb $3, %k3, %k4
				; SKX-NEXT: kshiftlb $3, %k4, %k4
				; SKX-NEXT: kshiftlb $6, %k3, %k3
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
				; SKX-NEXT: kshiftrb $6, %k3, %k3
				; SKX-NEXT: korb %k4, %k3, %k3
				; SKX-NEXT: kshiftlb $7, %k5, %k4
				; SKX-NEXT: kshiftrb $5, %k4, %k4
				; SKX-NEXT: korb %k3, %k4, %k3
	; SKX-NEXT: kshiftrb $4, %k3, %k4			; SKX-NEXT: kshiftrb $4, %k3, %k4
				; SKX-NEXT: kshiftlb $4, %k4, %k4
				; SKX-NEXT: kshiftlb $5, %k3, %k3
				; SKX-NEXT: kshiftrb $5, %k3, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k3, %k3
				; SKX-NEXT: kshiftlb $7, %k5, %k4
				; SKX-NEXT: kshiftrb $4, %k4, %k4
				; SKX-NEXT: korb %k3, %k4, %k3
				; SKX-NEXT: kshiftrb $5, %k3, %k4
				; SKX-NEXT: kshiftlb $5, %k4, %k4
				; SKX-NEXT: kshiftlb $4, %k3, %k3
				; SKX-NEXT: kshiftrb $4, %k3, %k3
				; SKX-NEXT: korb %k4, %k3, %k3
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kshiftlb $7, %k4, %k4			; SKX-NEXT: kshiftlb $7, %k4, %k4
	; SKX-NEXT: kshiftrb $3, %k4, %k4			; SKX-NEXT: kshiftrb $3, %k4, %k4
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: korb %k3, %k4, %k3
	; SKX-NEXT: kshiftrb $5, %k3, %k4			; SKX-NEXT: kshiftrb $6, %k3, %k4
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5			; SKX-NEXT: kshiftlb $6, %k4, %k4
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: kshiftlb $3, %k3, %k3
				; SKX-NEXT: kshiftrb $3, %k3, %k3
				; SKX-NEXT: korb %k4, %k3, %k3
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kshiftlb $7, %k4, %k4			; SKX-NEXT: kshiftlb $7, %k4, %k4
	; SKX-NEXT: kshiftrb $2, %k4, %k4			; SKX-NEXT: kshiftrb $2, %k4, %k4
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: korb %k3, %k4, %k3
				; SKX-NEXT: kshiftrb $7, %k3, %k4
				; SKX-NEXT: kshiftlb $7, %k4, %k4
				; SKX-NEXT: kshiftlb $2, %k3, %k3
				; SKX-NEXT: kshiftrb $2, %k3, %k3
				; SKX-NEXT: korb %k4, %k3, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kshiftrb $6, %k3, %k5
	; SKX-NEXT: kxorb %k4, %k5, %k4
	; SKX-NEXT: kshiftlb $7, %k4, %k4			; SKX-NEXT: kshiftlb $7, %k4, %k4
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftrb $1, %k4, %k4			; SKX-NEXT: kshiftrb $1, %k4, %k4
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: korb %k3, %k4, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kxorb %k0, %k4, %k4			; SKX-NEXT: kshiftlb $7, %k4, %k4
	; SKX-NEXT: kshiftrb $2, %k4, %k6			; SKX-NEXT: kshiftrb $7, %k4, %k4
	; SKX-NEXT: kxorb %k5, %k6, %k5			; SKX-NEXT: korb %k0, %k4, %k4
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $5, %k5, %k5			; SKX-NEXT: kshiftrb $6, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kshiftrb $3, %k4, %k5			; SKX-NEXT: kshiftrb $3, %k4, %k5
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: kshiftlb $3, %k5, %k5
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftlb $6, %k4, %k4
				; SKX-NEXT: kshiftrb $6, %k4, %k4
				; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $4, %k5, %k5			; SKX-NEXT: kshiftrb $5, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kshiftrb $4, %k4, %k5			; SKX-NEXT: kshiftrb $4, %k4, %k5
				; SKX-NEXT: kshiftlb $4, %k5, %k5
				; SKX-NEXT: kshiftlb $5, %k4, %k4
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftrb $5, %k4, %k4
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kshiftlb $7, %k6, %k5
				; SKX-NEXT: kshiftrb $4, %k5, %k5
				; SKX-NEXT: korb %k4, %k5, %k4
				; SKX-NEXT: kshiftrb $5, %k4, %k5
				; SKX-NEXT: kshiftlb $5, %k5, %k5
				; SKX-NEXT: kshiftlb $4, %k4, %k4
				; SKX-NEXT: kshiftrb $4, %k4, %k4
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6
				; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kshiftlb $7, %k6, %k5
	; SKX-NEXT: kshiftrb $3, %k5, %k5			; SKX-NEXT: kshiftrb $3, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
				; SKX-NEXT: kshiftrb $6, %k4, %k5
				; SKX-NEXT: kshiftlb $6, %k5, %k5
				; SKX-NEXT: kshiftlb $3, %k4, %k4
				; SKX-NEXT: kshiftrb $3, %k4, %k4
				; SKX-NEXT: korb %k5, %k4, %k4
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftrb $5, %k4, %k6
	; SKX-NEXT: kxorb %k5, %k6, %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $2, %k5, %k5			; SKX-NEXT: kshiftrb $2, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kshiftrb $6, %k4, %k5			; SKX-NEXT: kshiftrb $7, %k4, %k5
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftlb $2, %k4, %k4
				; SKX-NEXT: kshiftrb $2, %k4, %k4
				; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $1, %k5, %k5			; SKX-NEXT: kshiftrb $1, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kandb %k3, %k4, %k3			; SKX-NEXT: kandb %k3, %k4, %k3
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kandb %k2, %k3, %k2			; SKX-NEXT: kandb %k2, %k3, %k2
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k3			; SKX-NEXT: kshiftlb $7, %k4, %k3
				; SKX-NEXT: kshiftrb $7, %k3, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kxorb %k0, %k4, %k4			; SKX-NEXT: korb %k0, %k3, %k3
	; SKX-NEXT: kshiftrb $2, %k4, %k5			; SKX-NEXT: kshiftlb $7, %k4, %k4
	; SKX-NEXT: kxorb %k3, %k5, %k3			; SKX-NEXT: kshiftrb $6, %k4, %k4
	; SKX-NEXT: kshiftlb $7, %k3, %k3			; SKX-NEXT: korb %k3, %k4, %k3
				; SKX-NEXT: kshiftrb $3, %k3, %k4
				; SKX-NEXT: kshiftlb $3, %k4, %k4
				; SKX-NEXT: kshiftlb $6, %k3, %k3
				; SKX-NEXT: kshiftrb $6, %k3, %k3
				; SKX-NEXT: korb %k4, %k3, %k3
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
				; SKX-NEXT: kshiftlb $7, %k4, %k4
				; SKX-NEXT: kshiftrb $5, %k4, %k4
				; SKX-NEXT: korb %k3, %k4, %k3
				; SKX-NEXT: kshiftrb $4, %k3, %k4
				; SKX-NEXT: kshiftlb $4, %k4, %k4
				; SKX-NEXT: kshiftlb $5, %k3, %k3
	; SKX-NEXT: kshiftrb $5, %k3, %k3			; SKX-NEXT: kshiftrb $5, %k3, %k3
	; SKX-NEXT: kxorb %k3, %k4, %k3			; SKX-NEXT: korb %k4, %k3, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kshiftrb $3, %k3, %k5
	; SKX-NEXT: kxorb %k4, %k5, %k4
	; SKX-NEXT: kshiftlb $7, %k4, %k4			; SKX-NEXT: kshiftlb $7, %k4, %k4
	; SKX-NEXT: kshiftrb $4, %k4, %k4			; SKX-NEXT: kshiftrb $4, %k4, %k4
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: korb %k3, %k4, %k3
	; SKX-NEXT: kshiftrb $4, %k3, %k4			; SKX-NEXT: kshiftrb $5, %k3, %k4
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5			; SKX-NEXT: kshiftlb $5, %k4, %k4
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: kshiftlb $4, %k3, %k3
				; SKX-NEXT: kshiftrb $4, %k3, %k3
				; SKX-NEXT: korb %k4, %k3, %k3
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kshiftlb $7, %k4, %k4			; SKX-NEXT: kshiftlb $7, %k4, %k4
	; SKX-NEXT: kshiftrb $3, %k4, %k4			; SKX-NEXT: kshiftrb $3, %k4, %k4
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: korb %k3, %k4, %k3
	; SKX-NEXT: kshiftrb $5, %k3, %k4			; SKX-NEXT: kshiftrb $6, %k3, %k4
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5			; SKX-NEXT: kshiftlb $6, %k4, %k4
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: kshiftlb $3, %k3, %k3
				; SKX-NEXT: kshiftrb $3, %k3, %k3
				; SKX-NEXT: korb %k4, %k3, %k3
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kshiftlb $7, %k4, %k4			; SKX-NEXT: kshiftlb $7, %k4, %k4
	; SKX-NEXT: kshiftrb $2, %k4, %k4			; SKX-NEXT: kshiftrb $2, %k4, %k4
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: korb %k3, %k4, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kshiftrb $7, %k3, %k4
	; SKX-NEXT: kshiftrb $6, %k3, %k5
	; SKX-NEXT: kxorb %k4, %k5, %k4
	; SKX-NEXT: kshiftlb $7, %k4, %k4			; SKX-NEXT: kshiftlb $7, %k4, %k4
				; SKX-NEXT: kshiftlb $2, %k3, %k3
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
				; SKX-NEXT: kshiftrb $2, %k3, %k3
				; SKX-NEXT: korb %k4, %k3, %k3
				; SKX-NEXT: kshiftlb $7, %k5, %k4
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftrb $1, %k4, %k4			; SKX-NEXT: kshiftrb $1, %k4, %k4
	; SKX-NEXT: kxorb %k4, %k3, %k3			; SKX-NEXT: korb %k3, %k4, %k3
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4			; SKX-NEXT: kshiftlb $7, %k5, %k4
	; SKX-NEXT: kxorb %k0, %k4, %k4			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftrb $2, %k4, %k6			; SKX-NEXT: kshiftrb $7, %k4, %k4
	; SKX-NEXT: kxorb %k5, %k6, %k5			; SKX-NEXT: korb %k0, %k4, %k4
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $5, %k5, %k5			; SKX-NEXT: kshiftrb $6, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kshiftrb $3, %k4, %k5			; SKX-NEXT: kshiftrb $3, %k4, %k5
				; SKX-NEXT: kshiftlb $3, %k5, %k5
				; SKX-NEXT: kshiftlb $6, %k4, %k4
				; SKX-NEXT: kshiftrb $6, %k4, %k4
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kshiftlb $7, %k6, %k5
				; SKX-NEXT: kshiftrb $5, %k5, %k5
				; SKX-NEXT: korb %k4, %k5, %k4
				; SKX-NEXT: kshiftrb $4, %k4, %k5
				; SKX-NEXT: kshiftlb $4, %k5, %k5
				; SKX-NEXT: kshiftlb $5, %k4, %k4
				; SKX-NEXT: kshiftrb $5, %k4, %k4
				; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $4, %k5, %k5			; SKX-NEXT: kshiftrb $4, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kshiftrb $4, %k4, %k5			; SKX-NEXT: kshiftrb $5, %k4, %k5
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: kshiftlb $5, %k5, %k5
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftlb $4, %k4, %k4
				; SKX-NEXT: kshiftrb $4, %k4, %k4
				; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $3, %k5, %k5			; SKX-NEXT: kshiftrb $3, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
				; SKX-NEXT: kshiftrb $6, %k4, %k5
				; SKX-NEXT: kshiftlb $6, %k5, %k5
				; SKX-NEXT: kshiftlb $3, %k4, %k4
				; SKX-NEXT: kshiftrb $3, %k4, %k4
				; SKX-NEXT: korb %k5, %k4, %k4
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftrb $5, %k4, %k6
	; SKX-NEXT: kxorb %k5, %k6, %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $2, %k5, %k5			; SKX-NEXT: kshiftrb $2, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kshiftrb $6, %k4, %k5			; SKX-NEXT: kshiftrb $7, %k4, %k5
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftlb $2, %k4, %k4
				; SKX-NEXT: kshiftrb $2, %k4, %k4
				; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $1, %k5, %k5			; SKX-NEXT: kshiftrb $1, %k5, %k5
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k7
	; SKX-NEXT: kxorb %k5, %k4, %k4
	; SKX-NEXT: kandb %k3, %k4, %k3			; SKX-NEXT: kandb %k3, %k4, %k3
	; SKX-NEXT: kxorb %k0, %k7, %k4			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k4
	; SKX-NEXT: kshiftrb $2, %k4, %k5			; SKX-NEXT: kshiftlb $7, %k4, %k4
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftrb $7, %k4, %k4
				; SKX-NEXT: korb %k0, %k4, %k4
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $5, %k5, %k5			; SKX-NEXT: kshiftrb $6, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kshiftrb $3, %k4, %k5			; SKX-NEXT: kshiftrb $3, %k4, %k5
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: kshiftlb $3, %k5, %k5
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftlb $6, %k4, %k4
				; SKX-NEXT: kshiftrb $6, %k4, %k4
				; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $4, %k5, %k5			; SKX-NEXT: kshiftrb $5, %k5, %k5
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kxorb %k5, %k4, %k4
	; SKX-NEXT: kshiftrb $4, %k4, %k5			; SKX-NEXT: kshiftrb $4, %k4, %k5
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftlb $4, %k5, %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $5, %k4, %k4
	; SKX-NEXT: kshiftrb $3, %k5, %k5			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: kshiftrb $5, %k4, %k4
				; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kshiftlb $7, %k6, %k5
				; SKX-NEXT: kshiftrb $4, %k5, %k5
				; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kshiftrb $5, %k4, %k5			; SKX-NEXT: kshiftrb $5, %k4, %k5
				; SKX-NEXT: kshiftlb $5, %k5, %k5
				; SKX-NEXT: kshiftlb $4, %k4, %k4
				; SKX-NEXT: kshiftrb $4, %k4, %k4
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kshiftlb $7, %k6, %k5
				; SKX-NEXT: kshiftrb $3, %k5, %k5
				; SKX-NEXT: korb %k4, %k5, %k4
				; SKX-NEXT: kshiftrb $6, %k4, %k5
				; SKX-NEXT: kshiftlb $6, %k5, %k5
				; SKX-NEXT: kshiftlb $3, %k4, %k4
				; SKX-NEXT: kshiftrb $3, %k4, %k4
				; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $2, %k5, %k5			; SKX-NEXT: kshiftrb $2, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
	; SKX-NEXT: kshiftrb $6, %k4, %k5			; SKX-NEXT: kshiftrb $7, %k4, %k5
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftlb $2, %k4, %k4
				; SKX-NEXT: kshiftrb $2, %k4, %k4
				; SKX-NEXT: korb %k5, %k4, %k4
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $1, %k5, %k5			; SKX-NEXT: kshiftrb $1, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k4, %k4			; SKX-NEXT: korb %k4, %k5, %k4
				; SKX-NEXT: kmovd %esi, %k5
				; SKX-NEXT: kshiftlb $7, %k5, %k5
				; SKX-NEXT: kshiftrb $7, %k5, %k5
				; SKX-NEXT: korb %k0, %k5, %k0
				; SKX-NEXT: kmovd %edx, %k5
				; SKX-NEXT: kshiftlb $7, %k5, %k5
				; SKX-NEXT: kshiftrb $6, %k5, %k5
				; SKX-NEXT: korb %k0, %k5, %k0
				; SKX-NEXT: kshiftrb $3, %k0, %k5
				; SKX-NEXT: kshiftlb $3, %k5, %k5
				; SKX-NEXT: kshiftlb $6, %k0, %k0
				; SKX-NEXT: kshiftrb $6, %k0, %k0
				; SKX-NEXT: korb %k5, %k0, %k0
	; SKX-NEXT: kmovd %ecx, %k5			; SKX-NEXT: kmovd %ecx, %k5
	; SKX-NEXT: kmovd %esi, %k6
	; SKX-NEXT: kxorb %k0, %k6, %k0
	; SKX-NEXT: kshiftrb $2, %k0, %k6
	; SKX-NEXT: kxorb %k5, %k6, %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $5, %k5, %k5			; SKX-NEXT: kshiftrb $5, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k0, %k0			; SKX-NEXT: korb %k0, %k5, %k0
	; SKX-NEXT: kshiftrb $3, %k0, %k5			; SKX-NEXT: kshiftrb $4, %k0, %k5
	; SKX-NEXT: kmovd %r8d, %k6			; SKX-NEXT: kshiftlb $4, %k5, %k5
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftlb $5, %k0, %k0
				; SKX-NEXT: kshiftrb $5, %k0, %k0
				; SKX-NEXT: korb %k5, %k0, %k0
				; SKX-NEXT: kmovd %r8d, %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $4, %k5, %k5			; SKX-NEXT: kshiftrb $4, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k0, %k0			; SKX-NEXT: korb %k0, %k5, %k0
	; SKX-NEXT: kshiftrb $4, %k0, %k5			; SKX-NEXT: kshiftrb $5, %k0, %k5
	; SKX-NEXT: kmovd %r9d, %k6			; SKX-NEXT: kshiftlb $5, %k5, %k5
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftlb $4, %k0, %k0
				; SKX-NEXT: kshiftrb $4, %k0, %k0
				; SKX-NEXT: korb %k5, %k0, %k0
				; SKX-NEXT: kmovd %r9d, %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $3, %k5, %k5			; SKX-NEXT: kshiftrb $3, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k0, %k0			; SKX-NEXT: korb %k0, %k5, %k0
	; SKX-NEXT: kshiftrb $5, %k0, %k5			; SKX-NEXT: kshiftrb $6, %k0, %k5
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: kshiftlb $6, %k5, %k5
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftlb $3, %k0, %k0
				; SKX-NEXT: kshiftrb $3, %k0, %k0
				; SKX-NEXT: korb %k5, %k0, %k0
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $2, %k5, %k5			; SKX-NEXT: kshiftrb $2, %k5, %k5
	; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k6			; SKX-NEXT: korb %k0, %k5, %k0
	; SKX-NEXT: kxorb %k5, %k0, %k0			; SKX-NEXT: kshiftrb $7, %k0, %k5
	; SKX-NEXT: kshiftrb $6, %k0, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kxorb %k6, %k5, %k5			; SKX-NEXT: kshiftlb $2, %k0, %k0
				; SKX-NEXT: kshiftrb $2, %k0, %k0
				; SKX-NEXT: korb %k5, %k0, %k0
				; SKX-NEXT: kmovb {{[0-9]+}}(%rsp), %k5
	; SKX-NEXT: kshiftlb $7, %k5, %k5			; SKX-NEXT: kshiftlb $7, %k5, %k5
	; SKX-NEXT: kshiftrb $1, %k5, %k5			; SKX-NEXT: kshiftrb $1, %k5, %k5
	; SKX-NEXT: kxorb %k5, %k0, %k0			; SKX-NEXT: korb %k0, %k5, %k0
	; SKX-NEXT: kandb %k4, %k0, %k0			; SKX-NEXT: kandb %k4, %k0, %k0
	; SKX-NEXT: kandb %k3, %k0, %k0			; SKX-NEXT: kandb %k3, %k0, %k0
	; SKX-NEXT: kandb %k2, %k0, %k0			; SKX-NEXT: kandb %k2, %k0, %k0
	; SKX-NEXT: kandb %k1, %k0, %k0			; SKX-NEXT: kandb %k1, %k0, %k0
	; SKX-NEXT: kshiftrb $6, %k0, %k1			; SKX-NEXT: kshiftrb $6, %k0, %k1
	; SKX-NEXT: kmovd %k1, %r8d			; SKX-NEXT: kmovd %k1, %r8d
	; SKX-NEXT: kshiftrb $5, %k0, %k1			; SKX-NEXT: kshiftrb $5, %k0, %k1
	; SKX-NEXT: kmovd %k1, %r9d			; SKX-NEXT: kmovd %k1, %r9d
	Show All 26 Lines
	; SKX-NEXT: orb %r9b, %r8b			; SKX-NEXT: orb %r9b, %r8b
	; SKX-NEXT: andb $127, %r8b			; SKX-NEXT: andb $127, %r8b
	; SKX-NEXT: movb %r8b, (%rax)			; SKX-NEXT: movb %r8b, (%rax)
	; SKX-NEXT: retq			; SKX-NEXT: retq
	;			;
	; KNL_X32-LABEL: test17:			; KNL_X32-LABEL: test17:
	; KNL_X32: ## %bb.0:			; KNL_X32: ## %bb.0:
	; KNL_X32-NEXT: pushl %ebx			; KNL_X32-NEXT: pushl %ebx
	; KNL_X32-NEXT: subl $8, %esp			; KNL_X32-NEXT: pushl %eax
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k0			; KNL_X32-NEXT: kmovw %eax, %k0
				; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $15, %k0, %k0
				; KNL_X32-NEXT: kshiftlw $2, %k0, %k1
				; KNL_X32-NEXT: korw %k1, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k0, %k1			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $14, %k1, %k1			; KNL_X32-NEXT: kshiftrw $14, %k2, %k2
	; KNL_X32-NEXT: kxorw %k1, %k2, %k2			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftrw $2, %k2, %k3
	; KNL_X32-NEXT: kxorw %k0, %k3, %k0
	; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
	; KNL_X32-NEXT: kxorw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftrw $3, %k0, %k2			; KNL_X32-NEXT: kshiftrw $3, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $3, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $14, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $14, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $12, %k2, %k2			; KNL_X32-NEXT: kshiftrw $13, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftrw $4, %k0, %k2			; KNL_X32-NEXT: kshiftrw $4, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $4, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $13, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $11, %k2, %k2			; KNL_X32-NEXT: kshiftrw $12, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftrw $5, %k0, %k2			; KNL_X32-NEXT: kshiftrw $5, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $5, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $12, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $12, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $10, %k2, %k2			; KNL_X32-NEXT: kshiftrw $11, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftrw $6, %k0, %k2			; KNL_X32-NEXT: kshiftrw $6, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $6, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $11, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $11, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
				; KNL_X32-NEXT: kshiftrw $10, %k2, %k2
				; KNL_X32-NEXT: korw %k0, %k2, %k0
				; KNL_X32-NEXT: kshiftrw $7, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $7, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $10, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $10, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $9, %k2, %k2			; KNL_X32-NEXT: kshiftrw $9, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kmovw %k0, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill			; KNL_X32-NEXT: kmovw %k0, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k0			; KNL_X32-NEXT: kmovw %eax, %k0
				; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $15, %k0, %k0
				; KNL_X32-NEXT: korw %k1, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k1, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $2, %k2, %k3			; KNL_X32-NEXT: kshiftrw $14, %k2, %k2
	; KNL_X32-NEXT: kxorw %k0, %k3, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
	; KNL_X32-NEXT: kxorw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftrw $3, %k0, %k2			; KNL_X32-NEXT: kshiftrw $3, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $3, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $14, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $14, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $12, %k2, %k2			; KNL_X32-NEXT: kshiftrw $13, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftrw $4, %k0, %k2			; KNL_X32-NEXT: kshiftrw $4, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $4, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $13, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $11, %k2, %k2			; KNL_X32-NEXT: kshiftrw $12, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftrw $5, %k0, %k2			; KNL_X32-NEXT: kshiftrw $5, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $5, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $12, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $12, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $10, %k2, %k2			; KNL_X32-NEXT: kshiftrw $11, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kshiftrw $6, %k0, %k2			; KNL_X32-NEXT: kshiftrw $6, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $6, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $11, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $11, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
				; KNL_X32-NEXT: kshiftrw $10, %k2, %k2
				; KNL_X32-NEXT: korw %k0, %k2, %k0
				; KNL_X32-NEXT: kshiftrw $7, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $7, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $10, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $10, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $9, %k2, %k2			; KNL_X32-NEXT: kshiftrw $9, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: kmovw %k0, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill			; KNL_X32-NEXT: kmovw %k0, (%esp) ## 2-byte Spill
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k0			; KNL_X32-NEXT: kmovw %eax, %k0
				; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $15, %k0, %k0
				; KNL_X32-NEXT: korw %k1, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k3			; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k1, %k3, %k3			; KNL_X32-NEXT: kshiftlw $15, %k3, %k3
	; KNL_X32-NEXT: kshiftrw $2, %k3, %k4			; KNL_X32-NEXT: kshiftrw $14, %k3, %k3
	; KNL_X32-NEXT: kxorw %k0, %k4, %k0			; KNL_X32-NEXT: korw %k0, %k3, %k0
	; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
	; KNL_X32-NEXT: kxorw %k0, %k3, %k0
	; KNL_X32-NEXT: kshiftrw $3, %k0, %k3			; KNL_X32-NEXT: kshiftrw $3, %k0, %k3
				; KNL_X32-NEXT: kshiftlw $3, %k3, %k3
				; KNL_X32-NEXT: kshiftlw $14, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $14, %k0, %k0
				; KNL_X32-NEXT: korw %k3, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k4			; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k4, %k3, %k3
	; KNL_X32-NEXT: kshiftlw $15, %k3, %k3			; KNL_X32-NEXT: kshiftlw $15, %k3, %k3
	; KNL_X32-NEXT: kshiftrw $12, %k3, %k3			; KNL_X32-NEXT: kshiftrw $13, %k3, %k3
	; KNL_X32-NEXT: kxorw %k3, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k3, %k0
	; KNL_X32-NEXT: kshiftrw $4, %k0, %k3			; KNL_X32-NEXT: kshiftrw $4, %k0, %k3
				; KNL_X32-NEXT: kshiftlw $4, %k3, %k3
				; KNL_X32-NEXT: kshiftlw $13, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
				; KNL_X32-NEXT: korw %k3, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k4			; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k4, %k3, %k3
	; KNL_X32-NEXT: kshiftlw $15, %k3, %k3			; KNL_X32-NEXT: kshiftlw $15, %k3, %k3
	; KNL_X32-NEXT: kshiftrw $11, %k3, %k3			; KNL_X32-NEXT: kshiftrw $12, %k3, %k3
	; KNL_X32-NEXT: kxorw %k3, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k3, %k0
	; KNL_X32-NEXT: kshiftrw $5, %k0, %k3			; KNL_X32-NEXT: kshiftrw $5, %k0, %k3
				; KNL_X32-NEXT: kshiftlw $5, %k3, %k3
				; KNL_X32-NEXT: kshiftlw $12, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $12, %k0, %k0
				; KNL_X32-NEXT: korw %k3, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k4			; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k4, %k3, %k3
	; KNL_X32-NEXT: kshiftlw $15, %k3, %k3			; KNL_X32-NEXT: kshiftlw $15, %k3, %k3
	; KNL_X32-NEXT: kshiftrw $10, %k3, %k3			; KNL_X32-NEXT: kshiftrw $11, %k3, %k3
	; KNL_X32-NEXT: kxorw %k3, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k3, %k0
	; KNL_X32-NEXT: kshiftrw $6, %k0, %k3			; KNL_X32-NEXT: kshiftrw $6, %k0, %k3
				; KNL_X32-NEXT: kshiftlw $6, %k3, %k3
				; KNL_X32-NEXT: kshiftlw $11, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $11, %k0, %k0
				; KNL_X32-NEXT: korw %k3, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k4			; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k4, %k3, %k3			; KNL_X32-NEXT: kshiftlw $15, %k3, %k3
				; KNL_X32-NEXT: kshiftrw $10, %k3, %k3
				; KNL_X32-NEXT: korw %k0, %k3, %k0
				; KNL_X32-NEXT: kshiftrw $7, %k0, %k3
				; KNL_X32-NEXT: kshiftlw $7, %k3, %k3
				; KNL_X32-NEXT: kshiftlw $10, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $10, %k0, %k0
				; KNL_X32-NEXT: korw %k3, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kshiftlw $15, %k3, %k3			; KNL_X32-NEXT: kshiftlw $15, %k3, %k3
	; KNL_X32-NEXT: kshiftrw $9, %k3, %k3			; KNL_X32-NEXT: kshiftrw $9, %k3, %k3
	; KNL_X32-NEXT: kxorw %k3, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k3, %k3
	; KNL_X32-NEXT: kmovw %k0, {{[-0-9]+}}(%e{{[sb]}}p) ## 2-byte Spill
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k0			; KNL_X32-NEXT: kmovw %eax, %k0
				; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $15, %k0, %k0
				; KNL_X32-NEXT: korw %k1, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k4			; KNL_X32-NEXT: kmovw %eax, %k4
	; KNL_X32-NEXT: kxorw %k1, %k4, %k4			; KNL_X32-NEXT: kshiftlw $15, %k4, %k4
	; KNL_X32-NEXT: kshiftrw $2, %k4, %k5			; KNL_X32-NEXT: kshiftrw $14, %k4, %k4
	; KNL_X32-NEXT: kxorw %k0, %k5, %k0			; KNL_X32-NEXT: korw %k0, %k4, %k0
	; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
	; KNL_X32-NEXT: kxorw %k0, %k4, %k0
	; KNL_X32-NEXT: kshiftrw $3, %k0, %k4			; KNL_X32-NEXT: kshiftrw $3, %k0, %k4
				; KNL_X32-NEXT: kshiftlw $3, %k4, %k4
				; KNL_X32-NEXT: kshiftlw $14, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $14, %k0, %k0
				; KNL_X32-NEXT: korw %k4, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k5			; KNL_X32-NEXT: kmovw %eax, %k4
	; KNL_X32-NEXT: kxorw %k5, %k4, %k4
	; KNL_X32-NEXT: kshiftlw $15, %k4, %k4			; KNL_X32-NEXT: kshiftlw $15, %k4, %k4
	; KNL_X32-NEXT: kshiftrw $12, %k4, %k4			; KNL_X32-NEXT: kshiftrw $13, %k4, %k4
	; KNL_X32-NEXT: kxorw %k4, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k4, %k0
	; KNL_X32-NEXT: kshiftrw $4, %k0, %k4			; KNL_X32-NEXT: kshiftrw $4, %k0, %k4
				; KNL_X32-NEXT: kshiftlw $4, %k4, %k4
				; KNL_X32-NEXT: kshiftlw $13, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
				; KNL_X32-NEXT: korw %k4, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k5			; KNL_X32-NEXT: kmovw %eax, %k4
	; KNL_X32-NEXT: kxorw %k5, %k4, %k4
	; KNL_X32-NEXT: kshiftlw $15, %k4, %k4			; KNL_X32-NEXT: kshiftlw $15, %k4, %k4
	; KNL_X32-NEXT: kshiftrw $11, %k4, %k4			; KNL_X32-NEXT: kshiftrw $12, %k4, %k4
	; KNL_X32-NEXT: kxorw %k4, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k4, %k0
	; KNL_X32-NEXT: kshiftrw $5, %k0, %k4			; KNL_X32-NEXT: kshiftrw $5, %k0, %k4
				; KNL_X32-NEXT: kshiftlw $5, %k4, %k4
				; KNL_X32-NEXT: kshiftlw $12, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $12, %k0, %k0
				; KNL_X32-NEXT: korw %k4, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k5			; KNL_X32-NEXT: kmovw %eax, %k4
	; KNL_X32-NEXT: kxorw %k5, %k4, %k4
	; KNL_X32-NEXT: kshiftlw $15, %k4, %k4			; KNL_X32-NEXT: kshiftlw $15, %k4, %k4
	; KNL_X32-NEXT: kshiftrw $10, %k4, %k4			; KNL_X32-NEXT: kshiftrw $11, %k4, %k4
	; KNL_X32-NEXT: kxorw %k4, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k4, %k0
	; KNL_X32-NEXT: kshiftrw $6, %k0, %k4			; KNL_X32-NEXT: kshiftrw $6, %k0, %k4
				; KNL_X32-NEXT: kshiftlw $6, %k4, %k4
				; KNL_X32-NEXT: kshiftlw $11, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $11, %k0, %k0
				; KNL_X32-NEXT: korw %k4, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k5			; KNL_X32-NEXT: kmovw %eax, %k4
	; KNL_X32-NEXT: kxorw %k5, %k4, %k4			; KNL_X32-NEXT: kshiftlw $15, %k4, %k4
				; KNL_X32-NEXT: kshiftrw $10, %k4, %k4
				; KNL_X32-NEXT: korw %k0, %k4, %k0
				; KNL_X32-NEXT: kshiftrw $7, %k0, %k4
				; KNL_X32-NEXT: kshiftlw $7, %k4, %k4
				; KNL_X32-NEXT: kshiftlw $10, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $10, %k0, %k0
				; KNL_X32-NEXT: korw %k4, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k4
	; KNL_X32-NEXT: kshiftlw $15, %k4, %k4			; KNL_X32-NEXT: kshiftlw $15, %k4, %k4
	; KNL_X32-NEXT: kshiftrw $9, %k4, %k4			; KNL_X32-NEXT: kshiftrw $9, %k4, %k4
	; KNL_X32-NEXT: kxorw %k4, %k0, %k4			; KNL_X32-NEXT: korw %k0, %k4, %k4
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k0			; KNL_X32-NEXT: kmovw %eax, %k0
				; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $15, %k0, %k0
				; KNL_X32-NEXT: korw %k1, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k5			; KNL_X32-NEXT: kmovw %eax, %k5
	; KNL_X32-NEXT: kxorw %k1, %k5, %k5			; KNL_X32-NEXT: kshiftlw $15, %k5, %k5
	; KNL_X32-NEXT: kshiftrw $2, %k5, %k6			; KNL_X32-NEXT: kshiftrw $14, %k5, %k5
	; KNL_X32-NEXT: kxorw %k0, %k6, %k0			; KNL_X32-NEXT: korw %k0, %k5, %k0
	; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
	; KNL_X32-NEXT: kxorw %k0, %k5, %k0
	; KNL_X32-NEXT: kshiftrw $3, %k0, %k5			; KNL_X32-NEXT: kshiftrw $3, %k0, %k5
				; KNL_X32-NEXT: kshiftlw $3, %k5, %k5
				; KNL_X32-NEXT: kshiftlw $14, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $14, %k0, %k0
				; KNL_X32-NEXT: korw %k5, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k6			; KNL_X32-NEXT: kmovw %eax, %k5
	; KNL_X32-NEXT: kxorw %k6, %k5, %k5
	; KNL_X32-NEXT: kshiftlw $15, %k5, %k5			; KNL_X32-NEXT: kshiftlw $15, %k5, %k5
	; KNL_X32-NEXT: kshiftrw $12, %k5, %k5			; KNL_X32-NEXT: kshiftrw $13, %k5, %k5
	; KNL_X32-NEXT: kxorw %k5, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k5, %k0
	; KNL_X32-NEXT: kshiftrw $4, %k0, %k5			; KNL_X32-NEXT: kshiftrw $4, %k0, %k5
				; KNL_X32-NEXT: kshiftlw $4, %k5, %k5
				; KNL_X32-NEXT: kshiftlw $13, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
				; KNL_X32-NEXT: korw %k5, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k6			; KNL_X32-NEXT: kmovw %eax, %k5
	; KNL_X32-NEXT: kxorw %k6, %k5, %k5
	; KNL_X32-NEXT: kshiftlw $15, %k5, %k5			; KNL_X32-NEXT: kshiftlw $15, %k5, %k5
	; KNL_X32-NEXT: kshiftrw $11, %k5, %k5			; KNL_X32-NEXT: kshiftrw $12, %k5, %k5
	; KNL_X32-NEXT: kxorw %k5, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k5, %k0
	; KNL_X32-NEXT: kshiftrw $5, %k0, %k5			; KNL_X32-NEXT: kshiftrw $5, %k0, %k5
				; KNL_X32-NEXT: kshiftlw $5, %k5, %k5
				; KNL_X32-NEXT: kshiftlw $12, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $12, %k0, %k0
				; KNL_X32-NEXT: korw %k5, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k6			; KNL_X32-NEXT: kmovw %eax, %k5
	; KNL_X32-NEXT: kxorw %k6, %k5, %k5
	; KNL_X32-NEXT: kshiftlw $15, %k5, %k5			; KNL_X32-NEXT: kshiftlw $15, %k5, %k5
	; KNL_X32-NEXT: kshiftrw $10, %k5, %k5			; KNL_X32-NEXT: kshiftrw $11, %k5, %k5
	; KNL_X32-NEXT: kxorw %k5, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k5, %k0
	; KNL_X32-NEXT: kshiftrw $6, %k0, %k5			; KNL_X32-NEXT: kshiftrw $6, %k0, %k5
				; KNL_X32-NEXT: kshiftlw $6, %k5, %k5
				; KNL_X32-NEXT: kshiftlw $11, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $11, %k0, %k0
				; KNL_X32-NEXT: korw %k5, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k6			; KNL_X32-NEXT: kmovw %eax, %k5
	; KNL_X32-NEXT: kxorw %k6, %k5, %k5			; KNL_X32-NEXT: kshiftlw $15, %k5, %k5
				; KNL_X32-NEXT: kshiftrw $10, %k5, %k5
				; KNL_X32-NEXT: korw %k0, %k5, %k0
				; KNL_X32-NEXT: kshiftrw $7, %k0, %k5
				; KNL_X32-NEXT: kshiftlw $7, %k5, %k5
				; KNL_X32-NEXT: kshiftlw $10, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $10, %k0, %k0
				; KNL_X32-NEXT: korw %k5, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k5
	; KNL_X32-NEXT: kshiftlw $15, %k5, %k5			; KNL_X32-NEXT: kshiftlw $15, %k5, %k5
	; KNL_X32-NEXT: kshiftrw $9, %k5, %k5			; KNL_X32-NEXT: kshiftrw $9, %k5, %k5
	; KNL_X32-NEXT: kxorw %k5, %k0, %k5			; KNL_X32-NEXT: korw %k0, %k5, %k5
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k0			; KNL_X32-NEXT: kmovw %eax, %k0
				; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $15, %k0, %k0
				; KNL_X32-NEXT: korw %k1, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k6			; KNL_X32-NEXT: kmovw %eax, %k6
	; KNL_X32-NEXT: kxorw %k1, %k6, %k6			; KNL_X32-NEXT: kshiftlw $15, %k6, %k6
	; KNL_X32-NEXT: kshiftrw $2, %k6, %k7			; KNL_X32-NEXT: kshiftrw $14, %k6, %k6
	; KNL_X32-NEXT: kxorw %k0, %k7, %k0			; KNL_X32-NEXT: korw %k0, %k6, %k0
	; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
	; KNL_X32-NEXT: kxorw %k0, %k6, %k0
	; KNL_X32-NEXT: kshiftrw $3, %k0, %k6			; KNL_X32-NEXT: kshiftrw $3, %k0, %k6
				; KNL_X32-NEXT: kshiftlw $3, %k6, %k6
				; KNL_X32-NEXT: kshiftlw $14, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $14, %k0, %k0
				; KNL_X32-NEXT: korw %k6, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k7			; KNL_X32-NEXT: kmovw %eax, %k6
	; KNL_X32-NEXT: kxorw %k7, %k6, %k6
	; KNL_X32-NEXT: kshiftlw $15, %k6, %k6			; KNL_X32-NEXT: kshiftlw $15, %k6, %k6
	; KNL_X32-NEXT: kshiftrw $12, %k6, %k6			; KNL_X32-NEXT: kshiftrw $13, %k6, %k6
	; KNL_X32-NEXT: kxorw %k6, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k6, %k0
	; KNL_X32-NEXT: kshiftrw $4, %k0, %k6			; KNL_X32-NEXT: kshiftrw $4, %k0, %k6
				; KNL_X32-NEXT: kshiftlw $4, %k6, %k6
				; KNL_X32-NEXT: kshiftlw $13, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
				; KNL_X32-NEXT: korw %k6, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k7			; KNL_X32-NEXT: kmovw %eax, %k6
	; KNL_X32-NEXT: kxorw %k7, %k6, %k6
	; KNL_X32-NEXT: kshiftlw $15, %k6, %k6			; KNL_X32-NEXT: kshiftlw $15, %k6, %k6
	; KNL_X32-NEXT: kshiftrw $11, %k6, %k6			; KNL_X32-NEXT: kshiftrw $12, %k6, %k6
	; KNL_X32-NEXT: kxorw %k6, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k6, %k0
	; KNL_X32-NEXT: kshiftrw $5, %k0, %k6			; KNL_X32-NEXT: kshiftrw $5, %k0, %k6
				; KNL_X32-NEXT: kshiftlw $5, %k6, %k6
				; KNL_X32-NEXT: kshiftlw $12, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $12, %k0, %k0
				; KNL_X32-NEXT: korw %k6, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k7			; KNL_X32-NEXT: kmovw %eax, %k6
	; KNL_X32-NEXT: kxorw %k7, %k6, %k6
	; KNL_X32-NEXT: kshiftlw $15, %k6, %k6			; KNL_X32-NEXT: kshiftlw $15, %k6, %k6
	; KNL_X32-NEXT: kshiftrw $10, %k6, %k6			; KNL_X32-NEXT: kshiftrw $11, %k6, %k6
	; KNL_X32-NEXT: kxorw %k6, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k6, %k0
	; KNL_X32-NEXT: kshiftrw $6, %k0, %k6			; KNL_X32-NEXT: kshiftrw $6, %k0, %k6
				; KNL_X32-NEXT: kshiftlw $6, %k6, %k6
				; KNL_X32-NEXT: kshiftlw $11, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $11, %k0, %k0
				; KNL_X32-NEXT: korw %k6, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k7			; KNL_X32-NEXT: kmovw %eax, %k6
	; KNL_X32-NEXT: kxorw %k7, %k6, %k6			; KNL_X32-NEXT: kshiftlw $15, %k6, %k6
				; KNL_X32-NEXT: kshiftrw $10, %k6, %k6
				; KNL_X32-NEXT: korw %k0, %k6, %k0
				; KNL_X32-NEXT: kshiftrw $7, %k0, %k6
				; KNL_X32-NEXT: kshiftlw $7, %k6, %k6
				; KNL_X32-NEXT: kshiftlw $10, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $10, %k0, %k0
				; KNL_X32-NEXT: korw %k6, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k6
	; KNL_X32-NEXT: kshiftlw $15, %k6, %k6			; KNL_X32-NEXT: kshiftlw $15, %k6, %k6
	; KNL_X32-NEXT: kshiftrw $9, %k6, %k6			; KNL_X32-NEXT: kshiftrw $9, %k6, %k6
	; KNL_X32-NEXT: kxorw %k6, %k0, %k6			; KNL_X32-NEXT: korw %k0, %k6, %k6
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k0
				; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $15, %k0, %k0
				; KNL_X32-NEXT: korw %k1, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %cl
	; KNL_X32-NEXT: kmovw %ecx, %k0
	; KNL_X32-NEXT: kxorw %k1, %k0, %k0
	; KNL_X32-NEXT: kmovw %eax, %k7			; KNL_X32-NEXT: kmovw %eax, %k7
	; KNL_X32-NEXT: kshiftrw $2, %k0, %k2			; KNL_X32-NEXT: kshiftlw $15, %k7, %k7
	; KNL_X32-NEXT: kxorw %k7, %k2, %k2			; KNL_X32-NEXT: kshiftrw $14, %k7, %k7
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: korw %k0, %k7, %k0
	; KNL_X32-NEXT: kshiftrw $13, %k2, %k2			; KNL_X32-NEXT: kshiftrw $3, %k0, %k7
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: kshiftlw $3, %k7, %k7
				; KNL_X32-NEXT: kshiftlw $14, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $14, %k0, %k0
				; KNL_X32-NEXT: korw %k7, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $3, %k0, %k2
	; KNL_X32-NEXT: kmovw %eax, %k7			; KNL_X32-NEXT: kmovw %eax, %k7
	; KNL_X32-NEXT: kxorw %k7, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k7, %k7
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftrw $13, %k7, %k7
	; KNL_X32-NEXT: kshiftrw $12, %k2, %k2			; KNL_X32-NEXT: korw %k0, %k7, %k0
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: kshiftrw $4, %k0, %k7
				; KNL_X32-NEXT: kshiftlw $4, %k7, %k7
				; KNL_X32-NEXT: kshiftlw $13, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
				; KNL_X32-NEXT: korw %k7, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $4, %k0, %k2
	; KNL_X32-NEXT: kmovw %eax, %k7			; KNL_X32-NEXT: kmovw %eax, %k7
	; KNL_X32-NEXT: kxorw %k7, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k7, %k7
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftrw $12, %k7, %k7
	; KNL_X32-NEXT: kshiftrw $11, %k2, %k2			; KNL_X32-NEXT: korw %k0, %k7, %k0
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: kshiftrw $5, %k0, %k7
				; KNL_X32-NEXT: kshiftlw $5, %k7, %k7
				; KNL_X32-NEXT: kshiftlw $12, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $12, %k0, %k0
				; KNL_X32-NEXT: korw %k7, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $5, %k0, %k2
	; KNL_X32-NEXT: kmovw %eax, %k7			; KNL_X32-NEXT: kmovw %eax, %k7
	; KNL_X32-NEXT: kxorw %k7, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k7, %k7
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftrw $11, %k7, %k7
	; KNL_X32-NEXT: kshiftrw $10, %k2, %k2			; KNL_X32-NEXT: korw %k0, %k7, %k0
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: kshiftrw $6, %k0, %k7
				; KNL_X32-NEXT: kshiftlw $6, %k7, %k7
				; KNL_X32-NEXT: kshiftlw $11, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $11, %k0, %k0
				; KNL_X32-NEXT: korw %k7, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $6, %k0, %k2
	; KNL_X32-NEXT: kmovw %eax, %k7			; KNL_X32-NEXT: kmovw %eax, %k7
	; KNL_X32-NEXT: kxorw %k7, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k7, %k7
				; KNL_X32-NEXT: kshiftrw $10, %k7, %k7
				; KNL_X32-NEXT: korw %k0, %k7, %k0
				; KNL_X32-NEXT: kshiftrw $7, %k0, %k7
				; KNL_X32-NEXT: kshiftlw $7, %k7, %k7
				; KNL_X32-NEXT: kshiftlw $10, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $10, %k0, %k0
				; KNL_X32-NEXT: korw %k7, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k7
				; KNL_X32-NEXT: kshiftlw $15, %k7, %k7
				; KNL_X32-NEXT: kshiftrw $9, %k7, %k7
				; KNL_X32-NEXT: korw %k0, %k7, %k7
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k0
				; KNL_X32-NEXT: kshiftlw $15, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $15, %k0, %k0
				; KNL_X32-NEXT: korw %k1, %k0, %k0
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $9, %k2, %k2			; KNL_X32-NEXT: kshiftrw $14, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k7			; KNL_X32-NEXT: korw %k0, %k2, %k0
				; KNL_X32-NEXT: kshiftrw $3, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $3, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $14, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $14, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %cl
	; KNL_X32-NEXT: kmovw %ecx, %k0
	; KNL_X32-NEXT: kxorw %k1, %k0, %k0
	; KNL_X32-NEXT: kmovw %eax, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kshiftrw $2, %k0, %k3
	; KNL_X32-NEXT: kxorw %k2, %k3, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $13, %k2, %k2			; KNL_X32-NEXT: kshiftrw $13, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
				; KNL_X32-NEXT: kshiftrw $4, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $4, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $13, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $13, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $3, %k0, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $12, %k2, %k2			; KNL_X32-NEXT: kshiftrw $12, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
				; KNL_X32-NEXT: kshiftrw $5, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $5, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $12, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $12, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $4, %k0, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $11, %k2, %k2			; KNL_X32-NEXT: kshiftrw $11, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
				; KNL_X32-NEXT: kshiftrw $6, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $6, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $11, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $11, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $5, %k0, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $10, %k2, %k2			; KNL_X32-NEXT: kshiftrw $10, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
				; KNL_X32-NEXT: kshiftrw $7, %k0, %k2
				; KNL_X32-NEXT: kshiftlw $7, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $10, %k0, %k0
				; KNL_X32-NEXT: kshiftrw $10, %k0, %k0
				; KNL_X32-NEXT: korw %k2, %k0, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $6, %k0, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $9, %k2, %k2			; KNL_X32-NEXT: kshiftrw $9, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k0, %k0			; KNL_X32-NEXT: korw %k0, %k2, %k0
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kxorw %k1, %k2, %k1			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
				; KNL_X32-NEXT: kshiftrw $15, %k2, %k2
				; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
				; KNL_X32-NEXT: kmovw %eax, %k2
				; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
				; KNL_X32-NEXT: kshiftrw $14, %k2, %k2
				; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: kshiftrw $3, %k1, %k2
				; KNL_X32-NEXT: kshiftlw $3, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $14, %k1, %k1
				; KNL_X32-NEXT: kshiftrw $14, %k1, %k1
				; KNL_X32-NEXT: korw %k2, %k1, %k1
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kmovw %eax, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kshiftrw $2, %k1, %k3
	; KNL_X32-NEXT: kxorw %k2, %k3, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $13, %k2, %k2			; KNL_X32-NEXT: kshiftrw $13, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: kshiftrw $4, %k1, %k2
				; KNL_X32-NEXT: kshiftlw $4, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $13, %k1, %k1
				; KNL_X32-NEXT: kshiftrw $13, %k1, %k1
				; KNL_X32-NEXT: korw %k2, %k1, %k1
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $3, %k1, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $12, %k2, %k2			; KNL_X32-NEXT: kshiftrw $12, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: kshiftrw $5, %k1, %k2
				; KNL_X32-NEXT: kshiftlw $5, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $12, %k1, %k1
				; KNL_X32-NEXT: kshiftrw $12, %k1, %k1
				; KNL_X32-NEXT: korw %k2, %k1, %k1
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $4, %k1, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $11, %k2, %k2			; KNL_X32-NEXT: kshiftrw $11, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: kshiftrw $6, %k1, %k2
				; KNL_X32-NEXT: kshiftlw $6, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $11, %k1, %k1
				; KNL_X32-NEXT: kshiftrw $11, %k1, %k1
				; KNL_X32-NEXT: korw %k2, %k1, %k1
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $5, %k1, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $10, %k2, %k2			; KNL_X32-NEXT: kshiftrw $10, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: korw %k1, %k2, %k1
				; KNL_X32-NEXT: kshiftrw $7, %k1, %k2
				; KNL_X32-NEXT: kshiftlw $7, %k2, %k2
				; KNL_X32-NEXT: kshiftlw $10, %k1, %k1
				; KNL_X32-NEXT: kshiftrw $10, %k1, %k1
				; KNL_X32-NEXT: korw %k2, %k1, %k1
	; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al			; KNL_X32-NEXT: movb {{[0-9]+}}(%esp), %al
	; KNL_X32-NEXT: kshiftrw $6, %k1, %k2			; KNL_X32-NEXT: kmovw %eax, %k2
	; KNL_X32-NEXT: kmovw %eax, %k3
	; KNL_X32-NEXT: kxorw %k3, %k2, %k2
	; KNL_X32-NEXT: kshiftlw $15, %k2, %k2			; KNL_X32-NEXT: kshiftlw $15, %k2, %k2
	; KNL_X32-NEXT: kshiftrw $9, %k2, %k2			; KNL_X32-NEXT: kshiftrw $9, %k2, %k2
	; KNL_X32-NEXT: kxorw %k2, %k1, %k1			; KNL_X32-NEXT: korw %k1, %k2, %k1
	; KNL_X32-NEXT: kandw %k1, %k0, %k0			; KNL_X32-NEXT: kandw %k1, %k0, %k0
	; KNL_X32-NEXT: kandw %k7, %k0, %k0			; KNL_X32-NEXT: kandw %k7, %k0, %k0
	; KNL_X32-NEXT: kandw %k6, %k0, %k0			; KNL_X32-NEXT: kandw %k6, %k0, %k0
	; KNL_X32-NEXT: kandw %k5, %k0, %k0			; KNL_X32-NEXT: kandw %k5, %k0, %k0
	; KNL_X32-NEXT: kandw %k4, %k0, %k0			; KNL_X32-NEXT: kandw %k4, %k0, %k0
	; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k1 ## 2-byte Reload			; KNL_X32-NEXT: kandw %k3, %k0, %k0
	; KNL_X32-NEXT: kandw %k1, %k0, %k0			; KNL_X32-NEXT: kmovw (%esp), %k1 ## 2-byte Reload
	; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k1 ## 2-byte Reload
	; KNL_X32-NEXT: kandw %k1, %k0, %k0			; KNL_X32-NEXT: kandw %k1, %k0, %k0
	; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k1 ## 2-byte Reload			; KNL_X32-NEXT: kmovw {{[-0-9]+}}(%e{{[sb]}}p), %k1 ## 2-byte Reload
	; KNL_X32-NEXT: kandw %k1, %k0, %k0			; KNL_X32-NEXT: kandw %k1, %k0, %k0
	; KNL_X32-NEXT: kshiftrw $6, %k0, %k1			; KNL_X32-NEXT: kshiftrw $6, %k0, %k1
	; KNL_X32-NEXT: kmovw %k1, %ecx			; KNL_X32-NEXT: kmovw %k1, %ecx
	; KNL_X32-NEXT: kshiftrw $5, %k0, %k1			; KNL_X32-NEXT: kshiftrw $5, %k0, %k1
	; KNL_X32-NEXT: kmovw %k1, %eax			; KNL_X32-NEXT: kmovw %k1, %eax
	; KNL_X32-NEXT: kshiftrw $1, %k0, %k1			; KNL_X32-NEXT: kshiftrw $1, %k0, %k1
	Show All 21 Lines
	; KNL_X32-NEXT: andb $1, %al			; KNL_X32-NEXT: andb $1, %al
	; KNL_X32-NEXT: shlb $5, %al			; KNL_X32-NEXT: shlb $5, %al
	; KNL_X32-NEXT: orb %bl, %al			; KNL_X32-NEXT: orb %bl, %al
	; KNL_X32-NEXT: shlb $6, %cl			; KNL_X32-NEXT: shlb $6, %cl
	; KNL_X32-NEXT: orb %al, %cl			; KNL_X32-NEXT: orb %al, %cl
	; KNL_X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; KNL_X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; KNL_X32-NEXT: andb $127, %cl			; KNL_X32-NEXT: andb $127, %cl
	; KNL_X32-NEXT: movb %cl, (%eax)			; KNL_X32-NEXT: movb %cl, (%eax)
	; KNL_X32-NEXT: addl $8, %esp			; KNL_X32-NEXT: addl $4, %esp
	; KNL_X32-NEXT: popl %ebx			; KNL_X32-NEXT: popl %ebx
	; KNL_X32-NEXT: retl $4			; KNL_X32-NEXT: retl $4
	%j = and <7 x i1> %a, %b			%j = and <7 x i1> %a, %b
	%k = and <7 x i1> %j, %c			%k = and <7 x i1> %j, %c
	%l = and <7 x i1> %k, %d			%l = and <7 x i1> %k, %d
	%m = and <7 x i1> %l, %e			%m = and <7 x i1> %l, %e
	%n = and <7 x i1> %m, %f			%n = and <7 x i1> %m, %f
	%o = and <7 x i1> %n, %g			%o = and <7 x i1> %n, %g
	%p = and <7 x i1> %o, %h			%p = and <7 x i1> %o, %h
	%q = and <7 x i1> %p, %i			%q = and <7 x i1> %p, %i
	ret <7 x i1> %q			ret <7 x i1> %q
	}			}

llvm/trunk/test/CodeGen/X86/avx512-ext.ll

Show First 20 Lines • Show All 1,880 Lines • ▼ Show 20 Lines	; ALL-NEXT: retq
%c = sext <8 x i8> %sign_load to <8 x i64>		%c = sext <8 x i8> %sign_load to <8 x i64>
store <8 x i64> %c, <8 x i64>* %res		store <8 x i64> %c, <8 x i64>* %res
ret void		ret void
}		}

define <64 x i16> @test21(<64 x i16> %x , <64 x i1> %mask) nounwind readnone {		define <64 x i16> @test21(<64 x i16> %x , <64 x i1> %mask) nounwind readnone {
; KNL-LABEL: test21:		; KNL-LABEL: test21:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: kmovw %edx, %k1		; KNL-NEXT: kmovw %edi, %k0
; KNL-NEXT: kmovw %edi, %k2
; KNL-NEXT: kshiftlw $15, %k0, %k0		; KNL-NEXT: kshiftlw $15, %k0, %k0
		; KNL-NEXT: kshiftrw $15, %k0, %k0
		; KNL-NEXT: kshiftlw $2, %k0, %k2
		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
		; KNL-NEXT: kmovw %esi, %k1
		; KNL-NEXT: kshiftlw $1, %k1, %k1
		; KNL-NEXT: korw %k1, %k2, %k1
		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $14, %k0, %k0
; KNL-NEXT: kshiftrw $14, %k0, %k0		; KNL-NEXT: kshiftrw $14, %k0, %k0
; KNL-NEXT: kxorw %k0, %k2, %k2		; KNL-NEXT: kshiftlw $3, %k0, %k3
; KNL-NEXT: kshiftrw $2, %k2, %k3		; KNL-NEXT: kmovw %edx, %k1
; KNL-NEXT: kxorw %k1, %k3, %k1		; KNL-NEXT: kshiftlw $2, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k1, %k1		; KNL-NEXT: korw %k1, %k3, %k1
; KNL-NEXT: kshiftrw $13, %k1, %k1		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kxorw %k1, %k2, %k1		; KNL-NEXT: kshiftlw $13, %k0, %k0
; KNL-NEXT: kshiftrw $3, %k1, %k2		; KNL-NEXT: kshiftrw $13, %k0, %k0
; KNL-NEXT: kmovw %ecx, %k3		; KNL-NEXT: kshiftlw $4, %k0, %k4
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kmovw %ecx, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $3, %k1, %k1
; KNL-NEXT: kshiftrw $12, %k2, %k2		; KNL-NEXT: korw %k1, %k4, %k1
; KNL-NEXT: kxorw %k2, %k1, %k1		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $4, %k1, %k2		; KNL-NEXT: kshiftlw $12, %k0, %k0
; KNL-NEXT: kmovw %r8d, %k3		; KNL-NEXT: kshiftrw $12, %k0, %k0
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $5, %k0, %k5
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kmovw %r8d, %k1
; KNL-NEXT: kshiftrw $11, %k2, %k2		; KNL-NEXT: kshiftlw $4, %k1, %k1
; KNL-NEXT: kxorw %k2, %k1, %k1		; KNL-NEXT: korw %k1, %k5, %k1
; KNL-NEXT: kshiftrw $5, %k1, %k2		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kmovw %r9d, %k3		; KNL-NEXT: kshiftlw $11, %k0, %k0
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftrw $11, %k0, %k0
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $6, %k0, %k6
; KNL-NEXT: kshiftrw $10, %k2, %k2		; KNL-NEXT: kmovw %r9d, %k1
; KNL-NEXT: kxorw %k2, %k1, %k1		; KNL-NEXT: kshiftlw $5, %k1, %k1
; KNL-NEXT: kshiftrw $6, %k1, %k2		; KNL-NEXT: korw %k1, %k6, %k1
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kshiftlw $10, %k0, %k0
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftrw $10, %k0, %k0
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $7, %k0, %k7
; KNL-NEXT: kshiftrw $9, %k2, %k2		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kxorw %k2, %k1, %k1		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kshiftrw $7, %k1, %k2		; KNL-NEXT: kshiftlw $6, %k1, %k1
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: korw %k1, %k7, %k1
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $9, %k0, %k0
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftrw $9, %k0, %k0
; KNL-NEXT: kshiftrw $8, %k2, %k2
; KNL-NEXT: kxorw %k2, %k1, %k1
; KNL-NEXT: kshiftrw $8, %k1, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3
; KNL-NEXT: kxorw %k3, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k2, %k2
; KNL-NEXT: kshiftrw $7, %k2, %k2
; KNL-NEXT: kxorw %k2, %k1, %k1
; KNL-NEXT: kshiftrw $9, %k1, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3
; KNL-NEXT: kxorw %k3, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k2, %k2
; KNL-NEXT: kshiftrw $6, %k2, %k2
; KNL-NEXT: kxorw %k2, %k1, %k1
; KNL-NEXT: kshiftrw $10, %k1, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3
; KNL-NEXT: kxorw %k3, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k2, %k2
; KNL-NEXT: kshiftrw $5, %k2, %k2
; KNL-NEXT: kxorw %k2, %k1, %k1
; KNL-NEXT: kshiftrw $11, %k1, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3
; KNL-NEXT: kxorw %k3, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k2, %k2
; KNL-NEXT: kshiftrw $4, %k2, %k2
; KNL-NEXT: kxorw %k2, %k1, %k1
; KNL-NEXT: kshiftrw $12, %k1, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3
; KNL-NEXT: kxorw %k3, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k2, %k2
; KNL-NEXT: kshiftrw $3, %k2, %k2
; KNL-NEXT: kxorw %k2, %k1, %k1
; KNL-NEXT: kshiftrw $13, %k1, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3
; KNL-NEXT: kxorw %k3, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k2, %k2
; KNL-NEXT: kshiftrw $2, %k2, %k2
; KNL-NEXT: kxorw %k2, %k1, %k1
; KNL-NEXT: kshiftrw $14, %k1, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $7, %k1, %k1
; KNL-NEXT: kshiftlw $14, %k2, %k2		; KNL-NEXT: kshiftlw $8, %k0, %k2
; KNL-NEXT: kxorw %k2, %k1, %k1		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kshiftlw $1, %k1, %k1		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $1, %k1, %k1		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $8, %k0, %k0
		; KNL-NEXT: kshiftrw $8, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k2		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $8, %k1, %k1
; KNL-NEXT: korw %k2, %k1, %k1		; KNL-NEXT: kshiftlw $9, %k0, %k2
		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
		; KNL-NEXT: korw %k1, %k2, %k1
		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $7, %k0, %k0
		; KNL-NEXT: kshiftrw $7, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k2		; KNL-NEXT: kmovw %eax, %k1
		; KNL-NEXT: kshiftlw $9, %k1, %k1
		; KNL-NEXT: kshiftlw $10, %k0, %k2
		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
		; KNL-NEXT: korw %k1, %k2, %k1
		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $6, %k0, %k0
		; KNL-NEXT: kshiftrw $6, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k0, %k3, %k3		; KNL-NEXT: kshiftlw $10, %k1, %k1
; KNL-NEXT: kshiftrw $2, %k3, %k4		; KNL-NEXT: kshiftlw $11, %k0, %k2
; KNL-NEXT: kxorw %k2, %k4, %k2		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $13, %k2, %k2		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kxorw %k2, %k3, %k2		; KNL-NEXT: kshiftlw $5, %k0, %k0
; KNL-NEXT: kshiftrw $3, %k2, %k3		; KNL-NEXT: kshiftrw $5, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $11, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kshiftlw $12, %k0, %k2
; KNL-NEXT: kshiftrw $12, %k3, %k3		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $4, %k2, %k3		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $4, %k0, %k0
		; KNL-NEXT: kshiftrw $4, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $12, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kshiftlw $13, %k0, %k2
; KNL-NEXT: kshiftrw $11, %k3, %k3		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $5, %k2, %k3		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $3, %k0, %k0
		; KNL-NEXT: kshiftrw $3, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $13, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kshiftlw $14, %k0, %k2
; KNL-NEXT: kshiftrw $10, %k3, %k3		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $6, %k2, %k3		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $2, %k0, %k0
		; KNL-NEXT: kshiftrw $2, %k0, %k1
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k0
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $14, %k0, %k0
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kshiftlw $15, %k0, %k2
; KNL-NEXT: kshiftrw $9, %k3, %k3		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k0, %k2, %k0
; KNL-NEXT: kshiftrw $7, %k2, %k3		; KNL-NEXT: korw %k0, %k1, %k0
		; KNL-NEXT: kshiftlw $1, %k0, %k0
		; KNL-NEXT: kshiftrw $1, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $15, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: korw %k1, %k0, %k1
; KNL-NEXT: kshiftrw $8, %k3, %k3		; KNL-NEXT: kmovw %k1, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kxorw %k3, %k2, %k2
; KNL-NEXT: kshiftrw $8, %k2, %k3
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k0
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $15, %k0, %k0
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kshiftrw $15, %k0, %k0
; KNL-NEXT: kshiftrw $7, %k3, %k3
; KNL-NEXT: kxorw %k3, %k2, %k2
; KNL-NEXT: kshiftrw $9, %k2, %k3
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $1, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
; KNL-NEXT: kshiftrw $6, %k3, %k3		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $10, %k2, %k3		; KNL-NEXT: kshiftlw $14, %k0, %k0
		; KNL-NEXT: kshiftrw $14, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $2, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw %k3, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kshiftrw $5, %k3, %k3		; KNL-NEXT: korw %k1, %k3, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $11, %k2, %k3		; KNL-NEXT: kshiftlw $13, %k0, %k0
		; KNL-NEXT: kshiftrw $13, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $3, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw %k4, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kshiftrw $4, %k3, %k3		; KNL-NEXT: korw %k1, %k4, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $12, %k2, %k3		; KNL-NEXT: kshiftlw $12, %k0, %k0
		; KNL-NEXT: kshiftrw $12, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $4, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw %k5, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kshiftrw $3, %k3, %k3		; KNL-NEXT: korw %k1, %k5, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $13, %k2, %k3		; KNL-NEXT: kshiftlw $11, %k0, %k0
		; KNL-NEXT: kshiftrw $11, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $5, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: korw %k1, %k6, %k1
; KNL-NEXT: kshiftrw $2, %k3, %k3		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $10, %k0, %k0
; KNL-NEXT: kshiftrw $14, %k2, %k3		; KNL-NEXT: kshiftrw $10, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $6, %k1, %k1
; KNL-NEXT: kshiftlw $14, %k3, %k3		; KNL-NEXT: kmovw %k7, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k1, %k7, %k1
; KNL-NEXT: kshiftlw $1, %k2, %k2		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $1, %k2, %k2		; KNL-NEXT: kshiftlw $9, %k0, %k0
		; KNL-NEXT: kshiftrw $9, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kshiftlw $7, %k1, %k1
; KNL-NEXT: korw %k3, %k2, %k2		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
		; KNL-NEXT: korw %k1, %k2, %k1
		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $8, %k0, %k0
		; KNL-NEXT: kshiftrw $8, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
		; KNL-NEXT: kshiftlw $8, %k1, %k1
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
		; KNL-NEXT: korw %k1, %k2, %k1
		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $7, %k0, %k0
		; KNL-NEXT: kshiftrw $7, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k0, %k4, %k4		; KNL-NEXT: kshiftlw $9, %k1, %k1
; KNL-NEXT: kshiftrw $2, %k4, %k5		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
; KNL-NEXT: kxorw %k3, %k5, %k3		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $13, %k3, %k3		; KNL-NEXT: kshiftlw $6, %k0, %k0
; KNL-NEXT: kxorw %k3, %k4, %k3		; KNL-NEXT: kshiftrw $6, %k0, %k0
; KNL-NEXT: kshiftrw $3, %k3, %k4
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $10, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
; KNL-NEXT: kshiftrw $12, %k4, %k4		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $4, %k3, %k4		; KNL-NEXT: kshiftlw $5, %k0, %k0
		; KNL-NEXT: kshiftrw $5, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $11, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
; KNL-NEXT: kshiftrw $11, %k4, %k4		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $5, %k3, %k4		; KNL-NEXT: kshiftlw $4, %k0, %k0
		; KNL-NEXT: kshiftrw $4, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $12, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
; KNL-NEXT: kshiftrw $10, %k4, %k4		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $6, %k3, %k4		; KNL-NEXT: kshiftlw $3, %k0, %k0
		; KNL-NEXT: kshiftrw $3, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $13, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
; KNL-NEXT: kshiftrw $9, %k4, %k4		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $7, %k3, %k4		; KNL-NEXT: kshiftlw $2, %k0, %k0
		; KNL-NEXT: kshiftrw $2, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $14, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
; KNL-NEXT: kshiftrw $8, %k4, %k4		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $8, %k3, %k4		; KNL-NEXT: kshiftlw $1, %k0, %k0
		; KNL-NEXT: kshiftrw $1, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $15, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k1, %k0, %k1
; KNL-NEXT: kshiftrw $7, %k4, %k4		; KNL-NEXT: kmovw %k1, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kxorw %k4, %k3, %k3
; KNL-NEXT: kshiftrw $9, %k3, %k4
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k0
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $15, %k0, %k0
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kshiftrw $15, %k0, %k0
; KNL-NEXT: kshiftrw $6, %k4, %k4
; KNL-NEXT: kxorw %k4, %k3, %k3
; KNL-NEXT: kshiftrw $10, %k3, %k4
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $1, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
; KNL-NEXT: kshiftrw $5, %k4, %k4		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $11, %k3, %k4		; KNL-NEXT: kshiftlw $14, %k0, %k0
		; KNL-NEXT: kshiftrw $14, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $2, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k1, %k3, %k1
; KNL-NEXT: kshiftrw $4, %k4, %k4		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $13, %k0, %k0
; KNL-NEXT: kshiftrw $12, %k3, %k4		; KNL-NEXT: kshiftrw $13, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $3, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k1, %k4, %k1
; KNL-NEXT: kshiftrw $3, %k4, %k4		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $12, %k0, %k0
; KNL-NEXT: kshiftrw $13, %k3, %k4		; KNL-NEXT: kshiftrw $12, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $4, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k1, %k5, %k1
; KNL-NEXT: kshiftrw $2, %k4, %k4		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $11, %k0, %k0
; KNL-NEXT: kshiftrw $14, %k3, %k4		; KNL-NEXT: kshiftrw $11, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $5, %k1, %k1
; KNL-NEXT: kshiftlw $14, %k4, %k4		; KNL-NEXT: korw %k1, %k6, %k1
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftlw $1, %k3, %k3		; KNL-NEXT: kshiftlw $10, %k0, %k0
; KNL-NEXT: kshiftrw $1, %k3, %k3		; KNL-NEXT: kshiftrw $10, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kshiftlw $6, %k1, %k1
; KNL-NEXT: korw %k4, %k3, %k3		; KNL-NEXT: korw %k1, %k7, %k1
		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $9, %k0, %k0
		; KNL-NEXT: kshiftrw $9, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k1
		; KNL-NEXT: kshiftlw $7, %k1, %k1
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
		; KNL-NEXT: korw %k1, %k2, %k1
		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $8, %k0, %k0
		; KNL-NEXT: kshiftrw $8, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k0, %k5, %k0		; KNL-NEXT: kshiftlw $8, %k1, %k1
; KNL-NEXT: kshiftrw $2, %k0, %k5		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k3 # 2-byte Reload
; KNL-NEXT: kxorw %k4, %k5, %k4		; KNL-NEXT: korw %k1, %k3, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $13, %k4, %k4		; KNL-NEXT: kshiftlw $7, %k0, %k0
; KNL-NEXT: kxorw %k4, %k0, %k0		; KNL-NEXT: kshiftrw $7, %k0, %k0
; KNL-NEXT: kshiftrw $3, %k0, %k4
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $9, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k4 # 2-byte Reload
; KNL-NEXT: kshiftrw $12, %k4, %k4		; KNL-NEXT: korw %k1, %k4, %k1
; KNL-NEXT: kxorw %k4, %k0, %k0		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $4, %k0, %k4		; KNL-NEXT: kshiftlw $6, %k0, %k0
		; KNL-NEXT: kshiftrw $6, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $10, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k5 # 2-byte Reload
; KNL-NEXT: kshiftrw $11, %k4, %k4		; KNL-NEXT: korw %k1, %k5, %k1
; KNL-NEXT: kxorw %k4, %k0, %k0		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $5, %k0, %k4		; KNL-NEXT: kshiftlw $5, %k0, %k0
		; KNL-NEXT: kshiftrw $5, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $11, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 2-byte Reload
; KNL-NEXT: kshiftrw $10, %k4, %k4		; KNL-NEXT: korw %k1, %k7, %k1
; KNL-NEXT: kxorw %k4, %k0, %k0		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $6, %k0, %k4		; KNL-NEXT: kshiftlw $4, %k0, %k0
		; KNL-NEXT: kshiftrw $4, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $12, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 2-byte Reload
; KNL-NEXT: kshiftrw $9, %k4, %k4		; KNL-NEXT: korw %k1, %k7, %k1
; KNL-NEXT: kxorw %k4, %k0, %k0		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $7, %k0, %k4		; KNL-NEXT: kshiftlw $3, %k0, %k0
		; KNL-NEXT: kshiftrw $3, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $13, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 2-byte Reload
; KNL-NEXT: kshiftrw $8, %k4, %k4		; KNL-NEXT: korw %k1, %k7, %k1
; KNL-NEXT: kxorw %k4, %k0, %k0		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $8, %k0, %k4		; KNL-NEXT: kshiftlw $2, %k0, %k0
		; KNL-NEXT: kshiftrw $2, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $14, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 2-byte Reload
; KNL-NEXT: kshiftrw $7, %k4, %k4		; KNL-NEXT: korw %k1, %k7, %k1
; KNL-NEXT: kxorw %k4, %k0, %k0		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $9, %k0, %k4		; KNL-NEXT: kshiftlw $1, %k0, %k0
		; KNL-NEXT: kshiftrw $1, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $15, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k1, %k0, %k1
; KNL-NEXT: kshiftrw $6, %k4, %k4		; KNL-NEXT: kmovw %k1, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; KNL-NEXT: kxorw %k4, %k0, %k0
; KNL-NEXT: kshiftrw $10, %k0, %k4
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k0
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $1, %k0, %k0
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; KNL-NEXT: kshiftrw $5, %k4, %k4		; KNL-NEXT: korw %k0, %k1, %k0
; KNL-NEXT: kxorw %k4, %k0, %k0
; KNL-NEXT: kshiftrw $11, %k0, %k4
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k7
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $15, %k7, %k7
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kshiftrw $15, %k7, %k7
; KNL-NEXT: kshiftrw $4, %k4, %k4		; KNL-NEXT: korw %k0, %k7, %k0
; KNL-NEXT: kxorw %k4, %k0, %k0		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kshiftrw $12, %k0, %k4		; KNL-NEXT: kmovw %eax, %k7
		; KNL-NEXT: kshiftlw $2, %k7, %k7
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
		; KNL-NEXT: korw %k7, %k1, %k7
		; KNL-NEXT: kshiftlw $14, %k0, %k0
		; KNL-NEXT: kshiftrw $14, %k0, %k0
		; KNL-NEXT: korw %k7, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k7
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $3, %k7, %k7
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; KNL-NEXT: kshiftrw $3, %k4, %k4		; KNL-NEXT: korw %k7, %k1, %k7
; KNL-NEXT: kxorw %k4, %k0, %k0		; KNL-NEXT: kshiftlw $13, %k0, %k0
; KNL-NEXT: kshiftrw $13, %k0, %k4		; KNL-NEXT: kshiftrw $13, %k0, %k0
		; KNL-NEXT: korw %k7, %k0, %k0
		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
		; KNL-NEXT: kmovw %eax, %k7
		; KNL-NEXT: kshiftlw $4, %k7, %k7
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
		; KNL-NEXT: korw %k7, %k1, %k7
		; KNL-NEXT: kshiftlw $12, %k0, %k0
		; KNL-NEXT: kshiftrw $12, %k0, %k0
		; KNL-NEXT: korw %k7, %k0, %k0
		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
		; KNL-NEXT: kmovw %eax, %k7
		; KNL-NEXT: kshiftlw $5, %k7, %k7
		; KNL-NEXT: korw %k7, %k6, %k7
		; KNL-NEXT: kshiftlw $11, %k0, %k0
		; KNL-NEXT: kshiftrw $11, %k0, %k0
		; KNL-NEXT: korw %k7, %k0, %k0
		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
		; KNL-NEXT: kmovw %eax, %k7
		; KNL-NEXT: kshiftlw $6, %k7, %k7
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
		; KNL-NEXT: korw %k7, %k1, %k7
		; KNL-NEXT: kshiftlw $10, %k0, %k0
		; KNL-NEXT: kshiftrw $10, %k0, %k0
		; KNL-NEXT: korw %k7, %k0, %k0
		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
		; KNL-NEXT: kmovw %eax, %k7
		; KNL-NEXT: kshiftlw $7, %k7, %k7
		; KNL-NEXT: korw %k7, %k2, %k7
		; KNL-NEXT: kshiftlw $9, %k0, %k0
		; KNL-NEXT: kshiftrw $9, %k0, %k0
		; KNL-NEXT: korw %k7, %k0, %k0
		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
		; KNL-NEXT: kmovw %eax, %k7
		; KNL-NEXT: kshiftlw $8, %k7, %k7
		; KNL-NEXT: korw %k7, %k3, %k7
		; KNL-NEXT: kshiftlw $8, %k0, %k0
		; KNL-NEXT: kshiftrw $8, %k0, %k0
		; KNL-NEXT: korw %k7, %k0, %k0
		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
		; KNL-NEXT: kmovw %eax, %k7
		; KNL-NEXT: kshiftlw $9, %k7, %k7
		; KNL-NEXT: korw %k7, %k4, %k7
		; KNL-NEXT: kshiftlw $7, %k0, %k0
		; KNL-NEXT: kshiftrw $7, %k0, %k0
		; KNL-NEXT: korw %k7, %k0, %k0
		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
		; KNL-NEXT: kmovw %eax, %k7
		; KNL-NEXT: kshiftlw $10, %k7, %k7
		; KNL-NEXT: korw %k7, %k5, %k6
		; KNL-NEXT: kshiftlw $6, %k0, %k0
		; KNL-NEXT: kshiftrw $6, %k0, %k0
		; KNL-NEXT: korw %k6, %k0, %k0
		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
		; KNL-NEXT: kmovw %eax, %k6
		; KNL-NEXT: kshiftlw $11, %k6, %k6
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
		; KNL-NEXT: korw %k6, %k2, %k5
		; KNL-NEXT: kshiftlw $5, %k0, %k0
		; KNL-NEXT: kshiftrw $5, %k0, %k0
		; KNL-NEXT: korw %k5, %k0, %k0
		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
		; KNL-NEXT: kmovw %eax, %k5
		; KNL-NEXT: kshiftlw $12, %k5, %k5
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
		; KNL-NEXT: korw %k5, %k2, %k4
		; KNL-NEXT: kshiftlw $4, %k0, %k0
		; KNL-NEXT: kshiftrw $4, %k0, %k0
		; KNL-NEXT: korw %k4, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k4
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $13, %k4, %k4
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
; KNL-NEXT: kshiftrw $2, %k4, %k4		; KNL-NEXT: korw %k4, %k2, %k3
; KNL-NEXT: kxorw %k4, %k0, %k0		; KNL-NEXT: kshiftlw $3, %k0, %k0
; KNL-NEXT: kshiftrw $14, %k0, %k4		; KNL-NEXT: kshiftrw $3, %k0, %k0
		; KNL-NEXT: korw %k3, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k3
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $14, %k3, %k3
; KNL-NEXT: kshiftlw $14, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k2 # 2-byte Reload
; KNL-NEXT: kxorw %k4, %k0, %k0		; KNL-NEXT: korw %k3, %k2, %k2
		; KNL-NEXT: kshiftlw $2, %k0, %k0
		; KNL-NEXT: kshiftrw $2, %k0, %k0
		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftlw $1, %k0, %k0		; KNL-NEXT: kshiftlw $1, %k0, %k0
; KNL-NEXT: kshiftrw $1, %k0, %k0		; KNL-NEXT: kshiftrw $1, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kshiftlw $15, %k2, %k2
; KNL-NEXT: korw %k4, %k0, %k4		; KNL-NEXT: korw %k2, %k0, %k2
; KNL-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4 {%k4} {z}		; KNL-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4 {%k2} {z}
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
		; KNL-NEXT: vpternlogd $255, %zmm5, %zmm5, %zmm5 {%k1} {z}
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
		; KNL-NEXT: vpternlogd $255, %zmm6, %zmm6, %zmm6 {%k1} {z}
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
		; KNL-NEXT: vpternlogd $255, %zmm7, %zmm7, %zmm7 {%k1} {z}
; KNL-NEXT: vpmovdw %zmm4, %ymm4		; KNL-NEXT: vpmovdw %zmm4, %ymm4
; KNL-NEXT: vpand %ymm1, %ymm4, %ymm1		; KNL-NEXT: vpand %ymm1, %ymm4, %ymm1
; KNL-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4 {%k3} {z}		; KNL-NEXT: vpmovdw %zmm5, %ymm4
; KNL-NEXT: vpmovdw %zmm4, %ymm4
; KNL-NEXT: vpand %ymm2, %ymm4, %ymm2		; KNL-NEXT: vpand %ymm2, %ymm4, %ymm2
; KNL-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4 {%k2} {z}		; KNL-NEXT: vpmovdw %zmm6, %ymm4
; KNL-NEXT: vpmovdw %zmm4, %ymm4
; KNL-NEXT: vpand %ymm3, %ymm4, %ymm3		; KNL-NEXT: vpand %ymm3, %ymm4, %ymm3
; KNL-NEXT: vpternlogd $255, %zmm4, %zmm4, %zmm4 {%k1} {z}		; KNL-NEXT: vpmovdw %zmm7, %ymm4
; KNL-NEXT: vpmovdw %zmm4, %ymm4
; KNL-NEXT: vpand %ymm0, %ymm4, %ymm0		; KNL-NEXT: vpand %ymm0, %ymm4, %ymm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: test21:		; SKX-LABEL: test21:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpsllw $7, %zmm2, %zmm2		; SKX-NEXT: vpsllw $7, %zmm2, %zmm2
; SKX-NEXT: vpmovb2m %zmm2, %k1		; SKX-NEXT: vpmovb2m %zmm2, %k1
; SKX-NEXT: vmovdqu16 %zmm0, %zmm0 {%k1} {z}		; SKX-NEXT: vmovdqu16 %zmm0, %zmm0 {%k1} {z}
; SKX-NEXT: kshiftrq $32, %k1, %k1		; SKX-NEXT: kshiftrq $32, %k1, %k1
; SKX-NEXT: vmovdqu16 %zmm1, %zmm1 {%k1} {z}		; SKX-NEXT: vmovdqu16 %zmm1, %zmm1 {%k1} {z}
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; AVX512DQNOBW-LABEL: test21:		; AVX512DQNOBW-LABEL: test21:
; AVX512DQNOBW: # %bb.0:		; AVX512DQNOBW: # %bb.0:
; AVX512DQNOBW-NEXT: kmovw %edx, %k0		; AVX512DQNOBW-NEXT: kmovw %edi, %k0
; AVX512DQNOBW-NEXT: kmovw %edi, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k0, %k1
; AVX512DQNOBW-NEXT: kshiftrw $14, %k1, %k1
; AVX512DQNOBW-NEXT: kxorw %k1, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $2, %k2, %k3
; AVX512DQNOBW-NEXT: kxorw %k0, %k3, %k0
; AVX512DQNOBW-NEXT: kshiftlw $15, %k0, %k0		; AVX512DQNOBW-NEXT: kshiftlw $15, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $15, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $2, %k0, %k2
		; AVX512DQNOBW-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
		; AVX512DQNOBW-NEXT: kmovw %esi, %k1
		; AVX512DQNOBW-NEXT: kshiftlw $1, %k1, %k1
		; AVX512DQNOBW-NEXT: korw %k1, %k2, %k1
		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $14, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $14, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $3, %k0, %k3
		; AVX512DQNOBW-NEXT: kmovw %edx, %k1
		; AVX512DQNOBW-NEXT: kshiftlw $2, %k1, %k1
		; AVX512DQNOBW-NEXT: korw %k1, %k3, %k1
		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $13, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $13, %k0, %k0		; AVX512DQNOBW-NEXT: kshiftrw $13, %k0, %k0
; AVX512DQNOBW-NEXT: kxorw %k0, %k2, %k0		; AVX512DQNOBW-NEXT: kshiftlw $4, %k0, %k4
; AVX512DQNOBW-NEXT: kshiftrw $3, %k0, %k2		; AVX512DQNOBW-NEXT: kmovw %ecx, %k1
; AVX512DQNOBW-NEXT: kmovw %ecx, %k3		; AVX512DQNOBW-NEXT: kshiftlw $3, %k1, %k1
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k4, %k1
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $12, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $12, %k0, %k0
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: kshiftrw $12, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $4, %k0, %k2		; AVX512DQNOBW-NEXT: kshiftlw $5, %k0, %k5
; AVX512DQNOBW-NEXT: kmovw %r8d, %k3		; AVX512DQNOBW-NEXT: kmovw %r8d, %k1
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $4, %k1, %k1
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k5, %k1
; AVX512DQNOBW-NEXT: kshiftrw $11, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: kshiftlw $11, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $5, %k0, %k2		; AVX512DQNOBW-NEXT: kshiftrw $11, %k0, %k0
; AVX512DQNOBW-NEXT: kmovw %r9d, %k3		; AVX512DQNOBW-NEXT: kshiftlw $6, %k0, %k6
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: kmovw %r9d, %k1
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $5, %k1, %k1
; AVX512DQNOBW-NEXT: kshiftrw $10, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k6, %k1
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $6, %k0, %k2		; AVX512DQNOBW-NEXT: kshiftlw $10, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: kshiftrw $10, %k0, %k0
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kshiftlw $7, %k0, %k7
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: kmovw %eax, %k1
; AVX512DQNOBW-NEXT: kshiftrw $9, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $6, %k1, %k1
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: korw %k1, %k7, %k1
; AVX512DQNOBW-NEXT: kshiftrw $7, %k0, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $9, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $9, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kmovw %eax, %k1
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $7, %k1, %k1
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $8, %k0, %k2
; AVX512DQNOBW-NEXT: kshiftrw $8, %k2, %k2		; AVX512DQNOBW-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: korw %k1, %k2, %k1
; AVX512DQNOBW-NEXT: kshiftrw $8, %k0, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $8, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $8, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kmovw %eax, %k1
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $8, %k1, %k1
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $9, %k0, %k2
; AVX512DQNOBW-NEXT: kshiftrw $7, %k2, %k2		; AVX512DQNOBW-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: korw %k1, %k2, %k1
; AVX512DQNOBW-NEXT: kshiftrw $9, %k0, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $7, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $7, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kmovw %eax, %k1
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $9, %k1, %k1
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $10, %k0, %k2
; AVX512DQNOBW-NEXT: kshiftrw $6, %k2, %k2		; AVX512DQNOBW-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: korw %k1, %k2, %k1
; AVX512DQNOBW-NEXT: kshiftrw $10, %k0, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $6, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $6, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kmovw %eax, %k1
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $10, %k1, %k1
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $11, %k0, %k2
; AVX512DQNOBW-NEXT: kshiftrw $5, %k2, %k2		; AVX512DQNOBW-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: korw %k1, %k2, %k1
; AVX512DQNOBW-NEXT: kshiftrw $11, %k0, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $5, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $5, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kmovw %eax, %k1
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $11, %k1, %k1
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $12, %k0, %k2
; AVX512DQNOBW-NEXT: kshiftrw $4, %k2, %k2		; AVX512DQNOBW-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: korw %k1, %k2, %k1
; AVX512DQNOBW-NEXT: kshiftrw $12, %k0, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $4, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $4, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kmovw %eax, %k1
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $12, %k1, %k1
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $13, %k0, %k2
; AVX512DQNOBW-NEXT: kshiftrw $3, %k2, %k2		; AVX512DQNOBW-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: korw %k1, %k2, %k1
; AVX512DQNOBW-NEXT: kshiftrw $13, %k0, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $3, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $3, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kmovw %eax, %k1
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $13, %k1, %k1
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $14, %k0, %k2
; AVX512DQNOBW-NEXT: kshiftrw $2, %k2, %k2		; AVX512DQNOBW-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: korw %k1, %k2, %k1
; AVX512DQNOBW-NEXT: kshiftrw $14, %k0, %k2		; AVX512DQNOBW-NEXT: korw %k1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $2, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $2, %k0, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kmovw %eax, %k1
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $14, %k1, %k0
; AVX512DQNOBW-NEXT: kshiftlw $14, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $15, %k0, %k1
; AVX512DQNOBW-NEXT: kxorw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: kmovw %k1, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
		; AVX512DQNOBW-NEXT: korw %k0, %k1, %k0
		; AVX512DQNOBW-NEXT: korw %k0, %k2, %k0
; AVX512DQNOBW-NEXT: kshiftlw $1, %k0, %k0		; AVX512DQNOBW-NEXT: kshiftlw $1, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $1, %k0, %k0		; AVX512DQNOBW-NEXT: kshiftrw $1, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k2		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2
; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
		; AVX512DQNOBW-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
		; AVX512DQNOBW-NEXT: kmovw %eax, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $15, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $15, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k2		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
		; AVX512DQNOBW-NEXT: kshiftlw $1, %k2, %k2
		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k2
		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $14, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $14, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k1, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $2, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $2, %k3, %k4		; AVX512DQNOBW-NEXT: kmovw %k3, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: kxorw %k2, %k4, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k3, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $13, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $13, %k0, %k0
; AVX512DQNOBW-NEXT: kxorw %k2, %k3, %k2		; AVX512DQNOBW-NEXT: kshiftrw $13, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $3, %k2, %k3
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $3, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw %k4, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: kshiftrw $12, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k4, %k2
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $4, %k2, %k3		; AVX512DQNOBW-NEXT: kshiftlw $12, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $12, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $4, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw %k5, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: kshiftrw $11, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k5, %k2
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $5, %k2, %k3		; AVX512DQNOBW-NEXT: kshiftlw $11, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $11, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $5, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k6, %k2
; AVX512DQNOBW-NEXT: kshiftrw $10, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $10, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $6, %k2, %k3		; AVX512DQNOBW-NEXT: kshiftrw $10, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $6, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw %k7, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: kshiftrw $9, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k7, %k2
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $7, %k2, %k3		; AVX512DQNOBW-NEXT: kshiftlw $9, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $9, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $7, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $8, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k2
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $8, %k2, %k3		; AVX512DQNOBW-NEXT: kshiftlw $8, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $8, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $8, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $7, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k2
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $9, %k2, %k3		; AVX512DQNOBW-NEXT: kshiftlw $7, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $7, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $9, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $6, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k2
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $10, %k2, %k3		; AVX512DQNOBW-NEXT: kshiftlw $6, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $6, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $10, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $5, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k2
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $11, %k2, %k3		; AVX512DQNOBW-NEXT: kshiftlw $5, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $5, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $11, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $4, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k2
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $12, %k2, %k3		; AVX512DQNOBW-NEXT: kshiftlw $4, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $4, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $12, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $3, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k2
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $13, %k2, %k3		; AVX512DQNOBW-NEXT: kshiftlw $3, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $3, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $13, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $2, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k2
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $14, %k2, %k3		; AVX512DQNOBW-NEXT: kshiftlw $2, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $2, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $14, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $14, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kxorw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k2
; AVX512DQNOBW-NEXT: kshiftlw $1, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $1, %k2, %k2		; AVX512DQNOBW-NEXT: kshiftlw $1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $1, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2
; AVX512DQNOBW-NEXT: korw %k3, %k2, %k2		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
		; AVX512DQNOBW-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k3		; AVX512DQNOBW-NEXT: kmovw %eax, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $15, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $15, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k1, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $1, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $2, %k4, %k5		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kxorw %k3, %k5, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $13, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $14, %k0, %k0
; AVX512DQNOBW-NEXT: kxorw %k3, %k4, %k3		; AVX512DQNOBW-NEXT: kshiftrw $14, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $3, %k3, %k4
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $2, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k3, %k2
; AVX512DQNOBW-NEXT: kshiftrw $12, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $13, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $4, %k3, %k4		; AVX512DQNOBW-NEXT: kshiftrw $13, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $3, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k4, %k2
; AVX512DQNOBW-NEXT: kshiftrw $11, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $12, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $5, %k3, %k4		; AVX512DQNOBW-NEXT: kshiftrw $12, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $4, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k5, %k2
; AVX512DQNOBW-NEXT: kshiftrw $10, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $11, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $6, %k3, %k4		; AVX512DQNOBW-NEXT: kshiftrw $11, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $5, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k6, %k2
; AVX512DQNOBW-NEXT: kshiftrw $9, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $10, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $7, %k3, %k4		; AVX512DQNOBW-NEXT: kshiftrw $10, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $6, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k7, %k2
; AVX512DQNOBW-NEXT: kshiftrw $8, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $9, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $8, %k3, %k4		; AVX512DQNOBW-NEXT: kshiftrw $9, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $7, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $7, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $9, %k3, %k4		; AVX512DQNOBW-NEXT: kshiftlw $8, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $8, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $8, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k3 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $6, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k3, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $10, %k3, %k4		; AVX512DQNOBW-NEXT: kshiftlw $7, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $7, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $9, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k4 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $5, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k4, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $11, %k3, %k4		; AVX512DQNOBW-NEXT: kshiftlw $6, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $6, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $10, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k5 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $4, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k5, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $12, %k3, %k4		; AVX512DQNOBW-NEXT: kshiftlw $5, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $5, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $11, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $3, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k7, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $13, %k3, %k4		; AVX512DQNOBW-NEXT: kshiftlw $4, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $4, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $12, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $2, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k7, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $14, %k3, %k4		; AVX512DQNOBW-NEXT: kshiftlw $3, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $3, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $13, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftlw $14, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 2-byte Reload
; AVX512DQNOBW-NEXT: kxorw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k7, %k2
; AVX512DQNOBW-NEXT: kshiftlw $1, %k3, %k3		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
; AVX512DQNOBW-NEXT: kshiftrw $1, %k3, %k3		; AVX512DQNOBW-NEXT: kshiftlw $2, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $2, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $14, %k2, %k2
; AVX512DQNOBW-NEXT: korw %k4, %k3, %k3		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 2-byte Reload
		; AVX512DQNOBW-NEXT: korw %k2, %k7, %k2
		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftlw $1, %k0, %k0
		; AVX512DQNOBW-NEXT: kshiftrw $1, %k0, %k0
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
		; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2
		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k0
		; AVX512DQNOBW-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kxorw %k1, %k5, %k1		; AVX512DQNOBW-NEXT: kshiftlw $1, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $2, %k1, %k5		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 # 2-byte Reload
; AVX512DQNOBW-NEXT: kxorw %k4, %k5, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k0, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4
; AVX512DQNOBW-NEXT: kshiftrw $13, %k4, %k4
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1
; AVX512DQNOBW-NEXT: kshiftrw $3, %k1, %k4
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k7
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $15, %k7, %k7
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftrw $15, %k7, %k7
; AVX512DQNOBW-NEXT: kshiftrw $12, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k2, %k7, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kshiftrw $4, %k1, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k7
		; AVX512DQNOBW-NEXT: kshiftlw $2, %k7, %k7
		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 # 2-byte Reload
		; AVX512DQNOBW-NEXT: korw %k7, %k0, %k7
		; AVX512DQNOBW-NEXT: kshiftlw $14, %k2, %k2
		; AVX512DQNOBW-NEXT: kshiftrw $14, %k2, %k2
		; AVX512DQNOBW-NEXT: korw %k7, %k2, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k7
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $3, %k7, %k7
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $11, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k0, %k7
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftlw $13, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $5, %k1, %k4		; AVX512DQNOBW-NEXT: kshiftrw $13, %k2, %k2
		; AVX512DQNOBW-NEXT: korw %k7, %k2, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k7
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $4, %k7, %k7
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $10, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k0, %k7
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftlw $12, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $6, %k1, %k4		; AVX512DQNOBW-NEXT: kshiftrw $12, %k2, %k2
		; AVX512DQNOBW-NEXT: korw %k7, %k2, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k7
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $5, %k7, %k7
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k6, %k7
; AVX512DQNOBW-NEXT: kshiftrw $9, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $11, %k2, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftrw $11, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $7, %k1, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k2, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k7
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $6, %k7, %k7
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $8, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k0, %k7
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftlw $10, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $8, %k1, %k4		; AVX512DQNOBW-NEXT: kshiftrw $10, %k2, %k2
		; AVX512DQNOBW-NEXT: korw %k7, %k2, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k7
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $7, %k7, %k7
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k1, %k7
; AVX512DQNOBW-NEXT: kshiftrw $7, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $9, %k2, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftrw $9, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $9, %k1, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k2, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k7
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $8, %k7, %k7
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k3, %k7
; AVX512DQNOBW-NEXT: kshiftrw $6, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $8, %k2, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftrw $8, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $10, %k1, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k2, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k7
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $9, %k7, %k7
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k4, %k7
; AVX512DQNOBW-NEXT: kshiftrw $5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $7, %k2, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftrw $7, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $11, %k1, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k2, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k7
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $10, %k7, %k7
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k7, %k5, %k6
; AVX512DQNOBW-NEXT: kshiftrw $4, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $6, %k2, %k2
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftrw $6, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $12, %k1, %k4		; AVX512DQNOBW-NEXT: korw %k6, %k2, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k6
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $11, %k6, %k6
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $3, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k6, %k1, %k5
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftlw $5, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $13, %k1, %k4		; AVX512DQNOBW-NEXT: kshiftrw $5, %k2, %k2
		; AVX512DQNOBW-NEXT: korw %k5, %k2, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k5
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $12, %k5, %k5
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kshiftrw $2, %k4, %k4		; AVX512DQNOBW-NEXT: korw %k5, %k1, %k4
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftlw $4, %k2, %k2
; AVX512DQNOBW-NEXT: kshiftrw $14, %k1, %k4		; AVX512DQNOBW-NEXT: kshiftrw $4, %k2, %k2
		; AVX512DQNOBW-NEXT: korw %k4, %k2, %k2
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k5		; AVX512DQNOBW-NEXT: kmovw %eax, %k4
; AVX512DQNOBW-NEXT: kxorw %k5, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $13, %k4, %k4
; AVX512DQNOBW-NEXT: kshiftlw $14, %k4, %k4		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
; AVX512DQNOBW-NEXT: kxorw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: korw %k4, %k1, %k3
		; AVX512DQNOBW-NEXT: kshiftlw $3, %k2, %k2
		; AVX512DQNOBW-NEXT: kshiftrw $3, %k2, %k2
		; AVX512DQNOBW-NEXT: korw %k3, %k2, %k2
		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
		; AVX512DQNOBW-NEXT: kmovw %eax, %k3
		; AVX512DQNOBW-NEXT: kshiftlw $14, %k3, %k3
		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 # 2-byte Reload
		; AVX512DQNOBW-NEXT: korw %k3, %k1, %k1
		; AVX512DQNOBW-NEXT: kshiftlw $2, %k2, %k2
		; AVX512DQNOBW-NEXT: kshiftrw $2, %k2, %k2
		; AVX512DQNOBW-NEXT: korw %k1, %k2, %k1
; AVX512DQNOBW-NEXT: kshiftlw $1, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftlw $1, %k1, %k1
; AVX512DQNOBW-NEXT: kshiftrw $1, %k1, %k1		; AVX512DQNOBW-NEXT: kshiftrw $1, %k1, %k1
; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQNOBW-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQNOBW-NEXT: kmovw %eax, %k4		; AVX512DQNOBW-NEXT: kmovw %eax, %k2
; AVX512DQNOBW-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQNOBW-NEXT: kshiftlw $15, %k2, %k2
; AVX512DQNOBW-NEXT: korw %k4, %k1, %k1		; AVX512DQNOBW-NEXT: korw %k2, %k1, %k1
; AVX512DQNOBW-NEXT: vpmovm2d %k1, %zmm4		; AVX512DQNOBW-NEXT: vpmovm2d %k1, %zmm4
		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 # 2-byte Reload
		; AVX512DQNOBW-NEXT: vpmovm2d %k0, %zmm5
		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 # 2-byte Reload
		; AVX512DQNOBW-NEXT: vpmovm2d %k0, %zmm6
		; AVX512DQNOBW-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 # 2-byte Reload
		; AVX512DQNOBW-NEXT: vpmovm2d %k0, %zmm7
; AVX512DQNOBW-NEXT: vpmovdw %zmm4, %ymm4		; AVX512DQNOBW-NEXT: vpmovdw %zmm4, %ymm4
; AVX512DQNOBW-NEXT: vpand %ymm1, %ymm4, %ymm1		; AVX512DQNOBW-NEXT: vpand %ymm1, %ymm4, %ymm1
; AVX512DQNOBW-NEXT: vpmovm2d %k3, %zmm4		; AVX512DQNOBW-NEXT: vpmovdw %zmm5, %ymm4
; AVX512DQNOBW-NEXT: vpmovdw %zmm4, %ymm4
; AVX512DQNOBW-NEXT: vpand %ymm2, %ymm4, %ymm2		; AVX512DQNOBW-NEXT: vpand %ymm2, %ymm4, %ymm2
; AVX512DQNOBW-NEXT: vpmovm2d %k2, %zmm4		; AVX512DQNOBW-NEXT: vpmovdw %zmm6, %ymm4
; AVX512DQNOBW-NEXT: vpmovdw %zmm4, %ymm4
; AVX512DQNOBW-NEXT: vpand %ymm3, %ymm4, %ymm3		; AVX512DQNOBW-NEXT: vpand %ymm3, %ymm4, %ymm3
; AVX512DQNOBW-NEXT: vpmovm2d %k0, %zmm4		; AVX512DQNOBW-NEXT: vpmovdw %zmm7, %ymm4
; AVX512DQNOBW-NEXT: vpmovdw %zmm4, %ymm4
; AVX512DQNOBW-NEXT: vpand %ymm0, %ymm4, %ymm0		; AVX512DQNOBW-NEXT: vpand %ymm0, %ymm4, %ymm0
; AVX512DQNOBW-NEXT: retq		; AVX512DQNOBW-NEXT: retq
%ret = select <64 x i1> %mask, <64 x i16> %x, <64 x i16> zeroinitializer		%ret = select <64 x i1> %mask, <64 x i16> %x, <64 x i16> zeroinitializer
ret <64 x i16> %ret		ret <64 x i16> %ret
}		}

define <16 x i16> @shuffle_zext_16x8_to_16x16(<16 x i8> %a) nounwind readnone {		define <16 x i16> @shuffle_zext_16x8_to_16x16(<16 x i8> %a) nounwind readnone {
; ALL-LABEL: shuffle_zext_16x8_to_16x16:		; ALL-LABEL: shuffle_zext_16x8_to_16x16:
▲ Show 20 Lines • Show All 271 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-insert-extract.ll

Show First 20 Lines • Show All 296 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
ret i16 %x2		ret i16 %x2
}		}

define i16 @test16(i1 *%addr, i16 %a) {		define i16 @test16(i1 *%addr, i16 %a) {
; KNL-LABEL: test16:		; KNL-LABEL: test16:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: movb (%rdi), %al		; KNL-NEXT: movb (%rdi), %al
; KNL-NEXT: kmovw %esi, %k0		; KNL-NEXT: kmovw %esi, %k0
; KNL-NEXT: kmovw %eax, %k1		; KNL-NEXT: kshiftrw $11, %k0, %k1
; KNL-NEXT: kshiftrw $10, %k0, %k2		; KNL-NEXT: kshiftlw $11, %k1, %k1
; KNL-NEXT: kxorw %k1, %k2, %k1		; KNL-NEXT: kshiftlw $6, %k0, %k0
; KNL-NEXT: kshiftlw $15, %k1, %k1		; KNL-NEXT: kshiftrw $6, %k0, %k0
; KNL-NEXT: kshiftrw $5, %k1, %k1		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k1, %k0, %k0		; KNL-NEXT: kshiftlw $15, %k2, %k2
		; KNL-NEXT: kshiftrw $5, %k2, %k2
		; KNL-NEXT: korw %k2, %k1, %k1
		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kmovw %k0, %eax		; KNL-NEXT: kmovw %k0, %eax
; KNL-NEXT: ## kill: def $ax killed $ax killed $eax		; KNL-NEXT: ## kill: def $ax killed $ax killed $eax
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: test16:		; SKX-LABEL: test16:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: kmovb (%rdi), %k0		; SKX-NEXT: kmovb (%rdi), %k0
; SKX-NEXT: kmovd %esi, %k1		; SKX-NEXT: kmovd %esi, %k1
; SKX-NEXT: kshiftrw $10, %k1, %k2		; SKX-NEXT: kshiftrw $11, %k1, %k2
; SKX-NEXT: kxorw %k0, %k2, %k0		; SKX-NEXT: kshiftlw $11, %k2, %k2
		; SKX-NEXT: kshiftlw $6, %k1, %k1
		; SKX-NEXT: kshiftrw $6, %k1, %k1
; SKX-NEXT: kshiftlw $15, %k0, %k0		; SKX-NEXT: kshiftlw $15, %k0, %k0
; SKX-NEXT: kshiftrw $5, %k0, %k0		; SKX-NEXT: kshiftrw $5, %k0, %k0
; SKX-NEXT: kxorw %k0, %k1, %k0		; SKX-NEXT: korw %k0, %k2, %k0
		; SKX-NEXT: korw %k0, %k1, %k0
; SKX-NEXT: kmovd %k0, %eax		; SKX-NEXT: kmovd %k0, %eax
; SKX-NEXT: ## kill: def $ax killed $ax killed $eax		; SKX-NEXT: ## kill: def $ax killed $ax killed $eax
; SKX-NEXT: retq		; SKX-NEXT: retq
%x = load i1 , i1 * %addr, align 128		%x = load i1 , i1 * %addr, align 128
%a1 = bitcast i16 %a to <16 x i1>		%a1 = bitcast i16 %a to <16 x i1>
%x1 = insertelement <16 x i1> %a1, i1 %x, i32 10		%x1 = insertelement <16 x i1> %a1, i1 %x, i32 10
%x2 = bitcast <16 x i1>%x1 to i16		%x2 = bitcast <16 x i1>%x1 to i16
ret i16 %x2		ret i16 %x2
}		}

define i8 @test17(i1 *%addr, i8 %a) {		define i8 @test17(i1 *%addr, i8 %a) {
; KNL-LABEL: test17:		; KNL-LABEL: test17:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: movb (%rdi), %al		; KNL-NEXT: movb (%rdi), %al
; KNL-NEXT: kmovw %esi, %k0		; KNL-NEXT: kmovw %esi, %k0
		; KNL-NEXT: kshiftrw $5, %k0, %k1
		; KNL-NEXT: kshiftlw $5, %k1, %k1
		; KNL-NEXT: kshiftlw $12, %k0, %k0
		; KNL-NEXT: kshiftrw $12, %k0, %k0
		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kmovw %eax, %k1		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kshiftrw $4, %k0, %k2
; KNL-NEXT: kxorw %k1, %k2, %k1
; KNL-NEXT: kshiftlw $15, %k1, %k1		; KNL-NEXT: kshiftlw $15, %k1, %k1
; KNL-NEXT: kshiftrw $11, %k1, %k1		; KNL-NEXT: kshiftrw $11, %k1, %k1
; KNL-NEXT: kxorw %k1, %k0, %k0		; KNL-NEXT: korw %k0, %k1, %k0
; KNL-NEXT: kmovw %k0, %eax		; KNL-NEXT: kmovw %k0, %eax
; KNL-NEXT: ## kill: def $al killed $al killed $eax		; KNL-NEXT: ## kill: def $al killed $al killed $eax
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: test17:		; SKX-LABEL: test17:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: kmovb (%rdi), %k0		; SKX-NEXT: kmovb (%rdi), %k0
; SKX-NEXT: kmovd %esi, %k1		; SKX-NEXT: kmovd %esi, %k1
; SKX-NEXT: kshiftrb $4, %k1, %k2		; SKX-NEXT: kshiftrb $5, %k1, %k2
; SKX-NEXT: kxorb %k0, %k2, %k0		; SKX-NEXT: kshiftlb $5, %k2, %k2
		; SKX-NEXT: kshiftlb $4, %k1, %k1
		; SKX-NEXT: kshiftrb $4, %k1, %k1
; SKX-NEXT: kshiftlb $7, %k0, %k0		; SKX-NEXT: kshiftlb $7, %k0, %k0
; SKX-NEXT: kshiftrb $3, %k0, %k0		; SKX-NEXT: kshiftrb $3, %k0, %k0
; SKX-NEXT: kxorb %k0, %k1, %k0		; SKX-NEXT: korb %k0, %k2, %k0
		; SKX-NEXT: korb %k0, %k1, %k0
; SKX-NEXT: kmovd %k0, %eax		; SKX-NEXT: kmovd %k0, %eax
; SKX-NEXT: ## kill: def $al killed $al killed $eax		; SKX-NEXT: ## kill: def $al killed $al killed $eax
; SKX-NEXT: retq		; SKX-NEXT: retq
%x = load i1 , i1 * %addr, align 128		%x = load i1 , i1 * %addr, align 128
%a1 = bitcast i8 %a to <8 x i1>		%a1 = bitcast i8 %a to <8 x i1>
%x1 = insertelement <8 x i1> %a1, i1 %x, i32 4		%x1 = insertelement <8 x i1> %a1, i1 %x, i32 4
%x2 = bitcast <8 x i1>%x1 to i8		%x2 = bitcast <8 x i1>%x1 to i8
ret i8 %x2		ret i8 %x2
▲ Show 20 Lines • Show All 419 Lines • ▼ Show 20 Lines
; KNL-LABEL: test_insertelement_v32i1:		; KNL-LABEL: test_insertelement_v32i1:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: cmpl %esi, %edi		; KNL-NEXT: cmpl %esi, %edi
; KNL-NEXT: setb %al		; KNL-NEXT: setb %al
; KNL-NEXT: vpcmpltud %zmm3, %zmm1, %k0		; KNL-NEXT: vpcmpltud %zmm3, %zmm1, %k0
; KNL-NEXT: kmovw %k0, %ecx		; KNL-NEXT: kmovw %k0, %ecx
; KNL-NEXT: shll $16, %ecx		; KNL-NEXT: shll $16, %ecx
; KNL-NEXT: vpcmpltud %zmm2, %zmm0, %k0		; KNL-NEXT: vpcmpltud %zmm2, %zmm0, %k0
; KNL-NEXT: kshiftrw $4, %k0, %k1		; KNL-NEXT: kshiftrw $5, %k0, %k1
		; KNL-NEXT: kshiftlw $5, %k1, %k1
		; KNL-NEXT: kshiftlw $12, %k0, %k0
		; KNL-NEXT: kshiftrw $12, %k0, %k0
; KNL-NEXT: kmovw %eax, %k2		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k2, %k1, %k1		; KNL-NEXT: kshiftlw $15, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k1, %k1		; KNL-NEXT: kshiftrw $11, %k2, %k2
; KNL-NEXT: kshiftrw $11, %k1, %k1		; KNL-NEXT: korw %k2, %k1, %k1
; KNL-NEXT: kxorw %k1, %k0, %k0		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kmovw %k0, %eax		; KNL-NEXT: kmovw %k0, %eax
; KNL-NEXT: orl %ecx, %eax		; KNL-NEXT: orl %ecx, %eax
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: test_insertelement_v32i1:		; SKX-LABEL: test_insertelement_v32i1:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: cmpl %esi, %edi		; SKX-NEXT: cmpl %esi, %edi
; SKX-NEXT: setb %al		; SKX-NEXT: setb %al
; SKX-NEXT: vpcmpltud %zmm2, %zmm0, %k0		; SKX-NEXT: vpcmpltud %zmm2, %zmm0, %k0
; SKX-NEXT: vpcmpltud %zmm3, %zmm1, %k1		; SKX-NEXT: vpcmpltud %zmm3, %zmm1, %k1
; SKX-NEXT: kunpckwd %k0, %k1, %k0		; SKX-NEXT: kunpckwd %k0, %k1, %k0
; SKX-NEXT: kshiftrd $4, %k0, %k1		; SKX-NEXT: kshiftrd $5, %k0, %k1
		; SKX-NEXT: kshiftld $5, %k1, %k1
		; SKX-NEXT: kshiftld $28, %k0, %k0
		; SKX-NEXT: kshiftrd $28, %k0, %k0
; SKX-NEXT: kmovd %eax, %k2		; SKX-NEXT: kmovd %eax, %k2
; SKX-NEXT: kxord %k2, %k1, %k1		; SKX-NEXT: kshiftld $31, %k2, %k2
; SKX-NEXT: kshiftld $31, %k1, %k1		; SKX-NEXT: kshiftrd $27, %k2, %k2
; SKX-NEXT: kshiftrd $27, %k1, %k1		; SKX-NEXT: kord %k2, %k1, %k1
; SKX-NEXT: kxord %k1, %k0, %k0		; SKX-NEXT: kord %k1, %k0, %k0
; SKX-NEXT: kmovd %k0, %eax		; SKX-NEXT: kmovd %k0, %eax
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
%cmp_res_i1 = icmp ult i32 %a, %b		%cmp_res_i1 = icmp ult i32 %a, %b
%cmp_cmp_vec = icmp ult <32 x i32> %x, %y		%cmp_cmp_vec = icmp ult <32 x i32> %x, %y
%maskv = insertelement <32 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 4		%maskv = insertelement <32 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 4
%res = bitcast <32 x i1> %maskv to i32		%res = bitcast <32 x i1> %maskv to i32
ret i32 %res		ret i32 %res
}		}

define i8 @test_iinsertelement_v4i1(i32 %a, i32 %b, <4 x i32> %x , <4 x i32> %y) {		define i8 @test_iinsertelement_v4i1(i32 %a, i32 %b, <4 x i32> %x , <4 x i32> %y) {
; KNL-LABEL: test_iinsertelement_v4i1:		; KNL-LABEL: test_iinsertelement_v4i1:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: ## kill: def $xmm1 killed $xmm1 def $zmm1		; KNL-NEXT: ## kill: def $xmm1 killed $xmm1 def $zmm1
; KNL-NEXT: ## kill: def $xmm0 killed $xmm0 def $zmm0		; KNL-NEXT: ## kill: def $xmm0 killed $xmm0 def $zmm0
; KNL-NEXT: cmpl %esi, %edi		; KNL-NEXT: cmpl %esi, %edi
; KNL-NEXT: setb %al		; KNL-NEXT: setb %al
; KNL-NEXT: vpcmpltud %zmm1, %zmm0, %k0		; KNL-NEXT: vpcmpltud %zmm1, %zmm0, %k0
; KNL-NEXT: kshiftrw $2, %k0, %k1		; KNL-NEXT: kshiftrw $3, %k0, %k1
; KNL-NEXT: kmovw %eax, %k2		; KNL-NEXT: kshiftlw $3, %k1, %k1
; KNL-NEXT: kxorw %k2, %k1, %k1		; KNL-NEXT: kshiftlw $14, %k0, %k0
		; KNL-NEXT: kshiftrw $14, %k0, %k0
		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kshiftlw $15, %k1, %k1		; KNL-NEXT: kshiftlw $15, %k1, %k1
; KNL-NEXT: kshiftrw $13, %k1, %k1		; KNL-NEXT: kshiftrw $13, %k1, %k1
; KNL-NEXT: kxorw %k1, %k0, %k0		; KNL-NEXT: korw %k0, %k1, %k0
; KNL-NEXT: kmovw %k0, %eax		; KNL-NEXT: kmovw %k0, %eax
; KNL-NEXT: ## kill: def $al killed $al killed $eax		; KNL-NEXT: ## kill: def $al killed $al killed $eax
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: test_iinsertelement_v4i1:		; SKX-LABEL: test_iinsertelement_v4i1:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: cmpl %esi, %edi		; SKX-NEXT: cmpl %esi, %edi
; SKX-NEXT: setb %al		; SKX-NEXT: setb %al
; SKX-NEXT: vpcmpltud %xmm1, %xmm0, %k0		; SKX-NEXT: vpcmpltud %xmm1, %xmm0, %k0
; SKX-NEXT: kshiftrb $2, %k0, %k1		; SKX-NEXT: kshiftrb $3, %k0, %k1
; SKX-NEXT: kmovd %eax, %k2		; SKX-NEXT: kshiftlb $3, %k1, %k1
; SKX-NEXT: kxorb %k2, %k1, %k1		; SKX-NEXT: kshiftlb $6, %k0, %k0
		; SKX-NEXT: kshiftrb $6, %k0, %k0
		; SKX-NEXT: korw %k1, %k0, %k0
		; SKX-NEXT: kmovd %eax, %k1
; SKX-NEXT: kshiftlb $7, %k1, %k1		; SKX-NEXT: kshiftlb $7, %k1, %k1
; SKX-NEXT: kshiftrb $5, %k1, %k1		; SKX-NEXT: kshiftrb $5, %k1, %k1
; SKX-NEXT: kxorw %k1, %k0, %k0		; SKX-NEXT: korw %k0, %k1, %k0
; SKX-NEXT: kmovd %k0, %eax		; SKX-NEXT: kmovd %k0, %eax
; SKX-NEXT: ## kill: def $al killed $al killed $eax		; SKX-NEXT: ## kill: def $al killed $al killed $eax
; SKX-NEXT: retq		; SKX-NEXT: retq
%cmp_res_i1 = icmp ult i32 %a, %b		%cmp_res_i1 = icmp ult i32 %a, %b
%cmp_cmp_vec = icmp ult <4 x i32> %x, %y		%cmp_cmp_vec = icmp ult <4 x i32> %x, %y
%maskv = insertelement <4 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 2		%maskv = insertelement <4 x i1> %cmp_cmp_vec, i1 %cmp_res_i1, i32 2
%res0 = shufflevector <4 x i1> %maskv, <4 x i1> undef , <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 4, i32 4, i32 4>		%res0 = shufflevector <4 x i1> %maskv, <4 x i1> undef , <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 4, i32 4, i32 4>
%res = bitcast <8 x i1> %res0 to i8		%res = bitcast <8 x i1> %res0 to i8
▲ Show 20 Lines • Show All 1,499 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-mask-op.ll

Show First 20 Lines • Show All 1,063 Lines • ▼ Show 20 Lines
; KNL-NEXT: movl %edi, %ecx		; KNL-NEXT: movl %edi, %ecx
; KNL-NEXT: kmovw %edi, %k0		; KNL-NEXT: kmovw %edi, %k0
; KNL-NEXT: shrq $32, %rdi		; KNL-NEXT: shrq $32, %rdi
; KNL-NEXT: shrq $48, %rax		; KNL-NEXT: shrq $48, %rax
; KNL-NEXT: shrl $16, %ecx		; KNL-NEXT: shrl $16, %ecx
; KNL-NEXT: kmovw %ecx, %k1		; KNL-NEXT: kmovw %ecx, %k1
; KNL-NEXT: kmovw %eax, %k2		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kmovw %edi, %k3		; KNL-NEXT: kmovw %edi, %k3
; KNL-NEXT: kshiftrw $5, %k0, %k4		; KNL-NEXT: kshiftrw $6, %k0, %k4
; KNL-NEXT: kxnorw %k0, %k0, %k5		; KNL-NEXT: kshiftlw $6, %k4, %k4
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $11, %k0, %k0
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kshiftrw $11, %k0, %k0
; KNL-NEXT: kshiftrw $10, %k4, %k4		; KNL-NEXT: movb $1, %al
; KNL-NEXT: kxorw %k4, %k0, %k4		; KNL-NEXT: kmovw %eax, %k5
		; KNL-NEXT: kshiftlw $15, %k5, %k5
		; KNL-NEXT: kshiftrw $10, %k5, %k5
		; KNL-NEXT: korw %k5, %k4, %k4
		; KNL-NEXT: korw %k4, %k0, %k4
; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k3} {z}		; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k3} {z}
; KNL-NEXT: vpmovdb %zmm0, %xmm0		; KNL-NEXT: vpmovdb %zmm0, %xmm0
; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1 {%k2} {z}		; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1 {%k2} {z}
; KNL-NEXT: vpmovdb %zmm1, %xmm1		; KNL-NEXT: vpmovdb %zmm1, %xmm1
; KNL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; KNL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1 {%k4} {z}		; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1 {%k4} {z}
; KNL-NEXT: vpmovdb %zmm1, %xmm1		; KNL-NEXT: vpmovdb %zmm1, %xmm1
; KNL-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2 {%k1} {z}		; KNL-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2 {%k1} {z}
; KNL-NEXT: vpmovdb %zmm2, %xmm2		; KNL-NEXT: vpmovdb %zmm2, %xmm2
; KNL-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1		; KNL-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
; KNL-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0		; KNL-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: test16:		; SKX-LABEL: test16:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: kmovq %rdi, %k0		; SKX-NEXT: kmovq %rdi, %k0
; SKX-NEXT: kxnorw %k0, %k0, %k1		; SKX-NEXT: kshiftrq $6, %k0, %k1
; SKX-NEXT: kshiftrq $5, %k0, %k2		; SKX-NEXT: kshiftlq $6, %k1, %k1
; SKX-NEXT: kxorq %k1, %k2, %k1		; SKX-NEXT: kshiftlq $59, %k0, %k0
; SKX-NEXT: kshiftlq $63, %k1, %k1		; SKX-NEXT: kshiftrq $59, %k0, %k0
; SKX-NEXT: kshiftrq $58, %k1, %k1		; SKX-NEXT: movb $1, %al
; SKX-NEXT: kxorq %k1, %k0, %k0		; SKX-NEXT: kmovd %eax, %k2
		; SKX-NEXT: kshiftlq $63, %k2, %k2
		; SKX-NEXT: kshiftrq $58, %k2, %k2
		; SKX-NEXT: korq %k2, %k1, %k1
		; SKX-NEXT: korq %k1, %k0, %k0
; SKX-NEXT: vpmovm2b %k0, %zmm0		; SKX-NEXT: vpmovm2b %k0, %zmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; AVX512BW-LABEL: test16:		; AVX512BW-LABEL: test16:
; AVX512BW: ## %bb.0:		; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovq %rdi, %k0		; AVX512BW-NEXT: kmovq %rdi, %k0
; AVX512BW-NEXT: kxnorw %k0, %k0, %k1		; AVX512BW-NEXT: kshiftrq $6, %k0, %k1
; AVX512BW-NEXT: kshiftrq $5, %k0, %k2		; AVX512BW-NEXT: kshiftlq $6, %k1, %k1
; AVX512BW-NEXT: kxorq %k1, %k2, %k1		; AVX512BW-NEXT: kshiftlq $59, %k0, %k0
; AVX512BW-NEXT: kshiftlq $63, %k1, %k1		; AVX512BW-NEXT: kshiftrq $59, %k0, %k0
; AVX512BW-NEXT: kshiftrq $58, %k1, %k1		; AVX512BW-NEXT: movb $1, %al
; AVX512BW-NEXT: kxorq %k1, %k0, %k0		; AVX512BW-NEXT: kmovd %eax, %k2
		; AVX512BW-NEXT: kshiftlq $63, %k2, %k2
		; AVX512BW-NEXT: kshiftrq $58, %k2, %k2
		; AVX512BW-NEXT: korq %k2, %k1, %k1
		; AVX512BW-NEXT: korq %k1, %k0, %k0
; AVX512BW-NEXT: vpmovm2b %k0, %zmm0		; AVX512BW-NEXT: vpmovm2b %k0, %zmm0
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512DQ-LABEL: test16:		; AVX512DQ-LABEL: test16:
; AVX512DQ: ## %bb.0:		; AVX512DQ: ## %bb.0:
; AVX512DQ-NEXT: movq %rdi, %rax		; AVX512DQ-NEXT: movq %rdi, %rax
; AVX512DQ-NEXT: movl %edi, %ecx		; AVX512DQ-NEXT: movl %edi, %ecx
; AVX512DQ-NEXT: kmovw %edi, %k0		; AVX512DQ-NEXT: kmovw %edi, %k1
; AVX512DQ-NEXT: shrq $32, %rdi		; AVX512DQ-NEXT: shrq $32, %rdi
; AVX512DQ-NEXT: shrq $48, %rax		; AVX512DQ-NEXT: shrq $48, %rax
; AVX512DQ-NEXT: shrl $16, %ecx		; AVX512DQ-NEXT: shrl $16, %ecx
; AVX512DQ-NEXT: kmovw %ecx, %k1		; AVX512DQ-NEXT: kmovw %ecx, %k0
; AVX512DQ-NEXT: kmovw %eax, %k2		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kmovw %edi, %k3		; AVX512DQ-NEXT: kmovw %edi, %k3
; AVX512DQ-NEXT: kshiftrw $5, %k0, %k4		; AVX512DQ-NEXT: kshiftrw $6, %k1, %k4
; AVX512DQ-NEXT: kxnorw %k0, %k0, %k5		; AVX512DQ-NEXT: kshiftlw $6, %k4, %k4
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $11, %k1, %k1
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kshiftrw $11, %k1, %k1
; AVX512DQ-NEXT: kshiftrw $10, %k4, %k4		; AVX512DQ-NEXT: movb $1, %al
; AVX512DQ-NEXT: kxorw %k4, %k0, %k0		; AVX512DQ-NEXT: kmovw %eax, %k5
		; AVX512DQ-NEXT: kshiftlw $15, %k5, %k5
		; AVX512DQ-NEXT: kshiftrw $10, %k5, %k5
		; AVX512DQ-NEXT: korw %k5, %k4, %k4
		; AVX512DQ-NEXT: korw %k4, %k1, %k1
; AVX512DQ-NEXT: vpmovm2d %k3, %zmm0		; AVX512DQ-NEXT: vpmovm2d %k3, %zmm0
; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0		; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0
; AVX512DQ-NEXT: vpmovm2d %k2, %zmm1		; AVX512DQ-NEXT: vpmovm2d %k2, %zmm1
; AVX512DQ-NEXT: vpmovdb %zmm1, %xmm1		; AVX512DQ-NEXT: vpmovdb %zmm1, %xmm1
; AVX512DQ-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX512DQ-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX512DQ-NEXT: vpmovm2d %k0, %zmm1		; AVX512DQ-NEXT: vpmovm2d %k1, %zmm1
; AVX512DQ-NEXT: vpmovdb %zmm1, %xmm1		; AVX512DQ-NEXT: vpmovdb %zmm1, %xmm1
; AVX512DQ-NEXT: vpmovm2d %k1, %zmm2		; AVX512DQ-NEXT: vpmovm2d %k0, %zmm2
; AVX512DQ-NEXT: vpmovdb %zmm2, %xmm2		; AVX512DQ-NEXT: vpmovdb %zmm2, %xmm2
; AVX512DQ-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1		; AVX512DQ-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
; AVX512DQ-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0		; AVX512DQ-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
; AVX512DQ-NEXT: retq		; AVX512DQ-NEXT: retq
;		;
; X86-LABEL: test16:		; X86-LABEL: test16:
; X86: ## %bb.0:		; X86: ## %bb.0:
; X86-NEXT: kmovq {{[0-9]+}}(%esp), %k0		; X86-NEXT: kmovq {{[0-9]+}}(%esp), %k0
; X86-NEXT: kshiftrq $5, %k0, %k1		; X86-NEXT: kshiftrq $6, %k0, %k1
; X86-NEXT: kxnorw %k0, %k0, %k2		; X86-NEXT: kshiftlq $6, %k1, %k1
; X86-NEXT: kxorq %k2, %k1, %k1		; X86-NEXT: kshiftlq $59, %k0, %k0
; X86-NEXT: kshiftlq $63, %k1, %k1		; X86-NEXT: kshiftrq $59, %k0, %k0
; X86-NEXT: kshiftrq $58, %k1, %k1		; X86-NEXT: movb $1, %al
; X86-NEXT: kxorq %k1, %k0, %k0		; X86-NEXT: kmovd %eax, %k2
		; X86-NEXT: kshiftlq $63, %k2, %k2
		; X86-NEXT: kshiftrq $58, %k2, %k2
		; X86-NEXT: korq %k2, %k1, %k1
		; X86-NEXT: korq %k1, %k0, %k0
; X86-NEXT: vpmovm2b %k0, %zmm0		; X86-NEXT: vpmovm2b %k0, %zmm0
; X86-NEXT: retl		; X86-NEXT: retl
%a = bitcast i64 %x to <64 x i1>		%a = bitcast i64 %x to <64 x i1>
%b = insertelement <64 x i1>%a, i1 true, i32 5		%b = insertelement <64 x i1>%a, i1 true, i32 5
%c = sext <64 x i1>%b to <64 x i8>		%c = sext <64 x i1>%b to <64 x i8>
ret <64 x i8>%c		ret <64 x i8>%c
}		}

define <64 x i8> @test17(i64 %x, i32 %y, i32 %z) {		define <64 x i8> @test17(i64 %x, i32 %y, i32 %z) {
;		;
; KNL-LABEL: test17:		; KNL-LABEL: test17:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: movq %rdi, %rax		; KNL-NEXT: movq %rdi, %rax
; KNL-NEXT: movl %edi, %ecx		; KNL-NEXT: movl %edi, %ecx
; KNL-NEXT: kmovw %edi, %k0		; KNL-NEXT: kmovw %edi, %k0
; KNL-NEXT: shrq $32, %rdi		; KNL-NEXT: shrq $32, %rdi
; KNL-NEXT: shrq $48, %rax		; KNL-NEXT: shrq $48, %rax
; KNL-NEXT: shrl $16, %ecx		; KNL-NEXT: shrl $16, %ecx
; KNL-NEXT: kmovw %ecx, %k1		; KNL-NEXT: kmovw %ecx, %k1
; KNL-NEXT: kmovw %eax, %k2		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kmovw %edi, %k3		; KNL-NEXT: kmovw %edi, %k3
; KNL-NEXT: cmpl %edx, %esi		; KNL-NEXT: cmpl %edx, %esi
; KNL-NEXT: setg %al		; KNL-NEXT: setg %al
; KNL-NEXT: kshiftrw $5, %k0, %k4		; KNL-NEXT: kshiftrw $6, %k0, %k4
		; KNL-NEXT: kshiftlw $6, %k4, %k4
		; KNL-NEXT: kshiftlw $11, %k0, %k0
		; KNL-NEXT: kshiftrw $11, %k0, %k0
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k5
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $15, %k5, %k5
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kshiftrw $10, %k5, %k5
; KNL-NEXT: kshiftrw $10, %k4, %k4		; KNL-NEXT: korw %k5, %k4, %k4
; KNL-NEXT: kxorw %k4, %k0, %k4		; KNL-NEXT: korw %k4, %k0, %k4
; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k3} {z}		; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k3} {z}
; KNL-NEXT: vpmovdb %zmm0, %xmm0		; KNL-NEXT: vpmovdb %zmm0, %xmm0
; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1 {%k2} {z}		; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1 {%k2} {z}
; KNL-NEXT: vpmovdb %zmm1, %xmm1		; KNL-NEXT: vpmovdb %zmm1, %xmm1
; KNL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; KNL-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1 {%k4} {z}		; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1 {%k4} {z}
; KNL-NEXT: vpmovdb %zmm1, %xmm1		; KNL-NEXT: vpmovdb %zmm1, %xmm1
; KNL-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2 {%k1} {z}		; KNL-NEXT: vpternlogd $255, %zmm2, %zmm2, %zmm2 {%k1} {z}
; KNL-NEXT: vpmovdb %zmm2, %xmm2		; KNL-NEXT: vpmovdb %zmm2, %xmm2
; KNL-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1		; KNL-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
; KNL-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0		; KNL-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: test17:		; SKX-LABEL: test17:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: kmovq %rdi, %k0		; SKX-NEXT: kmovq %rdi, %k0
; SKX-NEXT: cmpl %edx, %esi		; SKX-NEXT: cmpl %edx, %esi
; SKX-NEXT: setg %al		; SKX-NEXT: setg %al
; SKX-NEXT: kmovd %eax, %k1		; SKX-NEXT: kshiftrq $6, %k0, %k1
; SKX-NEXT: kshiftrq $5, %k0, %k2		; SKX-NEXT: kshiftlq $6, %k1, %k1
; SKX-NEXT: kxorq %k1, %k2, %k1		; SKX-NEXT: kshiftlq $59, %k0, %k0
; SKX-NEXT: kshiftlq $63, %k1, %k1		; SKX-NEXT: kshiftrq $59, %k0, %k0
; SKX-NEXT: kshiftrq $58, %k1, %k1		; SKX-NEXT: kmovd %eax, %k2
; SKX-NEXT: kxorq %k1, %k0, %k0		; SKX-NEXT: kshiftlq $63, %k2, %k2
		; SKX-NEXT: kshiftrq $58, %k2, %k2
		; SKX-NEXT: korq %k2, %k1, %k1
		; SKX-NEXT: korq %k1, %k0, %k0
; SKX-NEXT: vpmovm2b %k0, %zmm0		; SKX-NEXT: vpmovm2b %k0, %zmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; AVX512BW-LABEL: test17:		; AVX512BW-LABEL: test17:
; AVX512BW: ## %bb.0:		; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovq %rdi, %k0		; AVX512BW-NEXT: kmovq %rdi, %k0
; AVX512BW-NEXT: cmpl %edx, %esi		; AVX512BW-NEXT: cmpl %edx, %esi
; AVX512BW-NEXT: setg %al		; AVX512BW-NEXT: setg %al
; AVX512BW-NEXT: kmovd %eax, %k1		; AVX512BW-NEXT: kshiftrq $6, %k0, %k1
; AVX512BW-NEXT: kshiftrq $5, %k0, %k2		; AVX512BW-NEXT: kshiftlq $6, %k1, %k1
; AVX512BW-NEXT: kxorq %k1, %k2, %k1		; AVX512BW-NEXT: kshiftlq $59, %k0, %k0
; AVX512BW-NEXT: kshiftlq $63, %k1, %k1		; AVX512BW-NEXT: kshiftrq $59, %k0, %k0
; AVX512BW-NEXT: kshiftrq $58, %k1, %k1		; AVX512BW-NEXT: kmovd %eax, %k2
; AVX512BW-NEXT: kxorq %k1, %k0, %k0		; AVX512BW-NEXT: kshiftlq $63, %k2, %k2
		; AVX512BW-NEXT: kshiftrq $58, %k2, %k2
		; AVX512BW-NEXT: korq %k2, %k1, %k1
		; AVX512BW-NEXT: korq %k1, %k0, %k0
; AVX512BW-NEXT: vpmovm2b %k0, %zmm0		; AVX512BW-NEXT: vpmovm2b %k0, %zmm0
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512DQ-LABEL: test17:		; AVX512DQ-LABEL: test17:
; AVX512DQ: ## %bb.0:		; AVX512DQ: ## %bb.0:
; AVX512DQ-NEXT: movq %rdi, %rax		; AVX512DQ-NEXT: movq %rdi, %rax
; AVX512DQ-NEXT: movl %edi, %ecx		; AVX512DQ-NEXT: movl %edi, %ecx
; AVX512DQ-NEXT: kmovw %edi, %k0		; AVX512DQ-NEXT: kmovw %edi, %k1
; AVX512DQ-NEXT: shrq $32, %rdi		; AVX512DQ-NEXT: shrq $32, %rdi
; AVX512DQ-NEXT: shrq $48, %rax		; AVX512DQ-NEXT: shrq $48, %rax
; AVX512DQ-NEXT: shrl $16, %ecx		; AVX512DQ-NEXT: shrl $16, %ecx
; AVX512DQ-NEXT: kmovw %ecx, %k1		; AVX512DQ-NEXT: kmovw %ecx, %k0
; AVX512DQ-NEXT: kmovw %eax, %k2		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kmovw %edi, %k3		; AVX512DQ-NEXT: kmovw %edi, %k3
; AVX512DQ-NEXT: cmpl %edx, %esi		; AVX512DQ-NEXT: cmpl %edx, %esi
; AVX512DQ-NEXT: setg %al		; AVX512DQ-NEXT: setg %al
; AVX512DQ-NEXT: kshiftrw $5, %k0, %k4		; AVX512DQ-NEXT: kshiftrw $6, %k1, %k4
		; AVX512DQ-NEXT: kshiftlw $6, %k4, %k4
		; AVX512DQ-NEXT: kshiftlw $11, %k1, %k1
		; AVX512DQ-NEXT: kshiftrw $11, %k1, %k1
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k5
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $15, %k5, %k5
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kshiftrw $10, %k5, %k5
; AVX512DQ-NEXT: kshiftrw $10, %k4, %k4		; AVX512DQ-NEXT: korw %k5, %k4, %k4
; AVX512DQ-NEXT: kxorw %k4, %k0, %k0		; AVX512DQ-NEXT: korw %k4, %k1, %k1
; AVX512DQ-NEXT: vpmovm2d %k3, %zmm0		; AVX512DQ-NEXT: vpmovm2d %k3, %zmm0
; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0		; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0
; AVX512DQ-NEXT: vpmovm2d %k2, %zmm1		; AVX512DQ-NEXT: vpmovm2d %k2, %zmm1
; AVX512DQ-NEXT: vpmovdb %zmm1, %xmm1		; AVX512DQ-NEXT: vpmovdb %zmm1, %xmm1
; AVX512DQ-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX512DQ-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX512DQ-NEXT: vpmovm2d %k0, %zmm1		; AVX512DQ-NEXT: vpmovm2d %k1, %zmm1
; AVX512DQ-NEXT: vpmovdb %zmm1, %xmm1		; AVX512DQ-NEXT: vpmovdb %zmm1, %xmm1
; AVX512DQ-NEXT: vpmovm2d %k1, %zmm2		; AVX512DQ-NEXT: vpmovm2d %k0, %zmm2
; AVX512DQ-NEXT: vpmovdb %zmm2, %xmm2		; AVX512DQ-NEXT: vpmovdb %zmm2, %xmm2
; AVX512DQ-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1		; AVX512DQ-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
; AVX512DQ-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0		; AVX512DQ-NEXT: vinserti64x4 $1, %ymm0, %zmm1, %zmm0
; AVX512DQ-NEXT: retq		; AVX512DQ-NEXT: retq
;		;
; X86-LABEL: test17:		; X86-LABEL: test17:
; X86: ## %bb.0:		; X86: ## %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: kmovq {{[0-9]+}}(%esp), %k0		; X86-NEXT: kmovq {{[0-9]+}}(%esp), %k0
; X86-NEXT: cmpl {{[0-9]+}}(%esp), %eax		; X86-NEXT: cmpl {{[0-9]+}}(%esp), %eax
; X86-NEXT: setg %al		; X86-NEXT: setg %al
; X86-NEXT: kmovd %eax, %k1		; X86-NEXT: kshiftrq $6, %k0, %k1
; X86-NEXT: kshiftrq $5, %k0, %k2		; X86-NEXT: kshiftlq $6, %k1, %k1
; X86-NEXT: kxorq %k1, %k2, %k1		; X86-NEXT: kshiftlq $59, %k0, %k0
; X86-NEXT: kshiftlq $63, %k1, %k1		; X86-NEXT: kshiftrq $59, %k0, %k0
; X86-NEXT: kshiftrq $58, %k1, %k1		; X86-NEXT: kmovd %eax, %k2
; X86-NEXT: kxorq %k1, %k0, %k0		; X86-NEXT: kshiftlq $63, %k2, %k2
		; X86-NEXT: kshiftrq $58, %k2, %k2
		; X86-NEXT: korq %k2, %k1, %k1
		; X86-NEXT: korq %k1, %k0, %k0
; X86-NEXT: vpmovm2b %k0, %zmm0		; X86-NEXT: vpmovm2b %k0, %zmm0
; X86-NEXT: retl		; X86-NEXT: retl
%a = bitcast i64 %x to <64 x i1>		%a = bitcast i64 %x to <64 x i1>
%b = icmp sgt i32 %y, %z		%b = icmp sgt i32 %y, %z
%c = insertelement <64 x i1>%a, i1 %b, i32 5		%c = insertelement <64 x i1>%a, i1 %b, i32 5
%d = sext <64 x i1>%c to <64 x i8>		%d = sext <64 x i1>%c to <64 x i8>
ret <64 x i8>%d		ret <64 x i8>%d
}		}

define <8 x i1> @test18(i8 %a, i16 %y) {		define <8 x i1> @test18(i8 %a, i16 %y) {
; KNL-LABEL: test18:		; KNL-LABEL: test18:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: kmovw %edi, %k0		; KNL-NEXT: kmovw %edi, %k0
; KNL-NEXT: kmovw %esi, %k1		; KNL-NEXT: kmovw %esi, %k1
; KNL-NEXT: kshiftrw $8, %k1, %k2		; KNL-NEXT: kshiftrw $8, %k1, %k2
; KNL-NEXT: kshiftrw $9, %k1, %k1		; KNL-NEXT: kshiftrw $9, %k1, %k1
; KNL-NEXT: kshiftrw $6, %k0, %k3		; KNL-NEXT: kshiftlw $10, %k0, %k0
; KNL-NEXT: kxorw %k1, %k3, %k1		; KNL-NEXT: kshiftrw $10, %k0, %k0
		; KNL-NEXT: kshiftlw $7, %k0, %k3
; KNL-NEXT: kshiftlw $6, %k1, %k1		; KNL-NEXT: kshiftlw $6, %k1, %k1
; KNL-NEXT: kxorw %k1, %k0, %k0		; KNL-NEXT: korw %k1, %k3, %k1
		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftlw $9, %k0, %k0		; KNL-NEXT: kshiftlw $9, %k0, %k0
; KNL-NEXT: kshiftrw $9, %k0, %k0		; KNL-NEXT: kshiftrw $9, %k0, %k0
; KNL-NEXT: kshiftlw $7, %k2, %k1		; KNL-NEXT: kshiftlw $7, %k2, %k1
; KNL-NEXT: korw %k1, %k0, %k1		; KNL-NEXT: korw %k1, %k0, %k1
; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}		; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
; KNL-NEXT: vpmovdw %zmm0, %ymm0		; KNL-NEXT: vpmovdw %zmm0, %ymm0
; KNL-NEXT: ## kill: def $xmm0 killed $xmm0 killed $ymm0		; KNL-NEXT: ## kill: def $xmm0 killed $xmm0 killed $ymm0
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: test18:		; SKX-LABEL: test18:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: kmovd %edi, %k0		; SKX-NEXT: kmovd %edi, %k0
; SKX-NEXT: kmovd %esi, %k1		; SKX-NEXT: kmovd %esi, %k1
; SKX-NEXT: kshiftrw $8, %k1, %k2		; SKX-NEXT: kshiftrw $8, %k1, %k2
; SKX-NEXT: kshiftrw $9, %k1, %k1		; SKX-NEXT: kshiftrw $9, %k1, %k1
; SKX-NEXT: kshiftrb $6, %k0, %k3		; SKX-NEXT: kshiftlb $2, %k0, %k0
; SKX-NEXT: kxorb %k1, %k3, %k1		; SKX-NEXT: kshiftrb $2, %k0, %k0
		; SKX-NEXT: kshiftlb $7, %k0, %k3
; SKX-NEXT: kshiftlb $6, %k1, %k1		; SKX-NEXT: kshiftlb $6, %k1, %k1
; SKX-NEXT: kxorb %k1, %k0, %k0		; SKX-NEXT: korb %k1, %k3, %k1
		; SKX-NEXT: korb %k1, %k0, %k0
; SKX-NEXT: kshiftlb $1, %k0, %k0		; SKX-NEXT: kshiftlb $1, %k0, %k0
; SKX-NEXT: kshiftrb $1, %k0, %k0		; SKX-NEXT: kshiftrb $1, %k0, %k0
; SKX-NEXT: kshiftlb $7, %k2, %k1		; SKX-NEXT: kshiftlb $7, %k2, %k1
; SKX-NEXT: korb %k1, %k0, %k0		; SKX-NEXT: korb %k1, %k0, %k0
; SKX-NEXT: vpmovm2w %k0, %xmm0		; SKX-NEXT: vpmovm2w %k0, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; AVX512BW-LABEL: test18:		; AVX512BW-LABEL: test18:
; AVX512BW: ## %bb.0:		; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %edi, %k0		; AVX512BW-NEXT: kmovd %edi, %k0
; AVX512BW-NEXT: kmovd %esi, %k1		; AVX512BW-NEXT: kmovd %esi, %k1
; AVX512BW-NEXT: kshiftrw $8, %k1, %k2		; AVX512BW-NEXT: kshiftrw $8, %k1, %k2
; AVX512BW-NEXT: kshiftrw $9, %k1, %k1		; AVX512BW-NEXT: kshiftrw $9, %k1, %k1
; AVX512BW-NEXT: kshiftrw $6, %k0, %k3		; AVX512BW-NEXT: kshiftlw $10, %k0, %k0
; AVX512BW-NEXT: kxorw %k1, %k3, %k1		; AVX512BW-NEXT: kshiftrw $10, %k0, %k0
		; AVX512BW-NEXT: kshiftlw $7, %k0, %k3
; AVX512BW-NEXT: kshiftlw $6, %k1, %k1		; AVX512BW-NEXT: kshiftlw $6, %k1, %k1
; AVX512BW-NEXT: kxorw %k1, %k0, %k0		; AVX512BW-NEXT: korw %k1, %k3, %k1
		; AVX512BW-NEXT: korw %k1, %k0, %k0
; AVX512BW-NEXT: kshiftlw $9, %k0, %k0		; AVX512BW-NEXT: kshiftlw $9, %k0, %k0
; AVX512BW-NEXT: kshiftrw $9, %k0, %k0		; AVX512BW-NEXT: kshiftrw $9, %k0, %k0
; AVX512BW-NEXT: kshiftlw $7, %k2, %k1		; AVX512BW-NEXT: kshiftlw $7, %k2, %k1
; AVX512BW-NEXT: korw %k1, %k0, %k0		; AVX512BW-NEXT: korw %k1, %k0, %k0
; AVX512BW-NEXT: vpmovm2w %k0, %zmm0		; AVX512BW-NEXT: vpmovm2w %k0, %zmm0
; AVX512BW-NEXT: ## kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512BW-NEXT: ## kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512DQ-LABEL: test18:		; AVX512DQ-LABEL: test18:
; AVX512DQ: ## %bb.0:		; AVX512DQ: ## %bb.0:
; AVX512DQ-NEXT: kmovw %edi, %k0		; AVX512DQ-NEXT: kmovw %edi, %k0
; AVX512DQ-NEXT: kmovw %esi, %k1		; AVX512DQ-NEXT: kmovw %esi, %k1
; AVX512DQ-NEXT: kshiftrw $8, %k1, %k2		; AVX512DQ-NEXT: kshiftrw $8, %k1, %k2
; AVX512DQ-NEXT: kshiftrw $9, %k1, %k1		; AVX512DQ-NEXT: kshiftrw $9, %k1, %k1
; AVX512DQ-NEXT: kshiftrb $6, %k0, %k3		; AVX512DQ-NEXT: kshiftlb $2, %k0, %k0
; AVX512DQ-NEXT: kxorb %k1, %k3, %k1		; AVX512DQ-NEXT: kshiftrb $2, %k0, %k0
		; AVX512DQ-NEXT: kshiftlb $7, %k0, %k3
; AVX512DQ-NEXT: kshiftlb $6, %k1, %k1		; AVX512DQ-NEXT: kshiftlb $6, %k1, %k1
; AVX512DQ-NEXT: kxorb %k1, %k0, %k0		; AVX512DQ-NEXT: korb %k1, %k3, %k1
		; AVX512DQ-NEXT: korb %k1, %k0, %k0
; AVX512DQ-NEXT: kshiftlb $1, %k0, %k0		; AVX512DQ-NEXT: kshiftlb $1, %k0, %k0
; AVX512DQ-NEXT: kshiftrb $1, %k0, %k0		; AVX512DQ-NEXT: kshiftrb $1, %k0, %k0
; AVX512DQ-NEXT: kshiftlb $7, %k2, %k1		; AVX512DQ-NEXT: kshiftlb $7, %k2, %k1
; AVX512DQ-NEXT: korb %k1, %k0, %k0		; AVX512DQ-NEXT: korb %k1, %k0, %k0
; AVX512DQ-NEXT: vpmovm2d %k0, %zmm0		; AVX512DQ-NEXT: vpmovm2d %k0, %zmm0
; AVX512DQ-NEXT: vpmovdw %zmm0, %ymm0		; AVX512DQ-NEXT: vpmovdw %zmm0, %ymm0
; AVX512DQ-NEXT: ## kill: def $xmm0 killed $xmm0 killed $ymm0		; AVX512DQ-NEXT: ## kill: def $xmm0 killed $xmm0 killed $ymm0
; AVX512DQ-NEXT: vzeroupper		; AVX512DQ-NEXT: vzeroupper
; AVX512DQ-NEXT: retq		; AVX512DQ-NEXT: retq
;		;
; X86-LABEL: test18:		; X86-LABEL: test18:
; X86: ## %bb.0:		; X86: ## %bb.0:
; X86-NEXT: kmovb {{[0-9]+}}(%esp), %k0		; X86-NEXT: kmovb {{[0-9]+}}(%esp), %k0
; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1		; X86-NEXT: kmovw {{[0-9]+}}(%esp), %k1
; X86-NEXT: kshiftrw $8, %k1, %k2		; X86-NEXT: kshiftrw $8, %k1, %k2
; X86-NEXT: kshiftrw $9, %k1, %k1		; X86-NEXT: kshiftrw $9, %k1, %k1
; X86-NEXT: kshiftrb $6, %k0, %k3		; X86-NEXT: kshiftlb $7, %k0, %k3
; X86-NEXT: kxorb %k1, %k3, %k1		; X86-NEXT: kshiftlb $2, %k0, %k0
		; X86-NEXT: kshiftrb $2, %k0, %k0
; X86-NEXT: kshiftlb $6, %k1, %k1		; X86-NEXT: kshiftlb $6, %k1, %k1
; X86-NEXT: kxorb %k1, %k0, %k0		; X86-NEXT: korb %k1, %k3, %k1
		; X86-NEXT: korb %k1, %k0, %k0
; X86-NEXT: kshiftlb $1, %k0, %k0		; X86-NEXT: kshiftlb $1, %k0, %k0
; X86-NEXT: kshiftrb $1, %k0, %k0		; X86-NEXT: kshiftrb $1, %k0, %k0
; X86-NEXT: kshiftlb $7, %k2, %k1		; X86-NEXT: kshiftlb $7, %k2, %k1
; X86-NEXT: korb %k1, %k0, %k0		; X86-NEXT: korb %k1, %k0, %k0
; X86-NEXT: vpmovm2w %k0, %xmm0		; X86-NEXT: vpmovm2w %k0, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
%b = bitcast i8 %a to <8 x i1>		%b = bitcast i8 %a to <8 x i1>
%b1 = bitcast i16 %y to <16 x i1>		%b1 = bitcast i16 %y to <16 x i1>
▲ Show 20 Lines • Show All 1,371 Lines • ▼ Show 20 Lines	; X86-NEXT: retl
ret void		ret void
}		}


define void @store_64i1(<64 x i1>* %a, <64 x i1> %v) {		define void @store_64i1(<64 x i1>* %a, <64 x i1> %v) {
;		;
; KNL-LABEL: store_64i1:		; KNL-LABEL: store_64i1:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: kmovw %ecx, %k0		; KNL-NEXT: kmovw %esi, %k0
; KNL-NEXT: kmovw %esi, %k2
; KNL-NEXT: kshiftlw $15, %k0, %k1
; KNL-NEXT: kshiftrw $14, %k1, %k1
; KNL-NEXT: kxorw %k1, %k2, %k2
; KNL-NEXT: kshiftrw $2, %k2, %k3
; KNL-NEXT: kxorw %k0, %k3, %k0
; KNL-NEXT: kshiftlw $15, %k0, %k0		; KNL-NEXT: kshiftlw $15, %k0, %k0
		; KNL-NEXT: kshiftrw $15, %k0, %k0
		; KNL-NEXT: kshiftlw $2, %k0, %k2
		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
		; KNL-NEXT: kmovw %edx, %k1
		; KNL-NEXT: kshiftlw $1, %k1, %k1
		; KNL-NEXT: korw %k1, %k2, %k1
		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $14, %k0, %k0
		; KNL-NEXT: kshiftrw $14, %k0, %k0
		; KNL-NEXT: kshiftlw $3, %k0, %k3
		; KNL-NEXT: kmovw %ecx, %k1
		; KNL-NEXT: kshiftlw $2, %k1, %k1
		; KNL-NEXT: korw %k1, %k3, %k1
		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $13, %k0, %k0
; KNL-NEXT: kshiftrw $13, %k0, %k0		; KNL-NEXT: kshiftrw $13, %k0, %k0
; KNL-NEXT: kxorw %k0, %k2, %k0		; KNL-NEXT: kshiftlw $4, %k0, %k4
; KNL-NEXT: kshiftrw $3, %k0, %k2		; KNL-NEXT: kmovw %r8d, %k1
; KNL-NEXT: kmovw %r8d, %k3		; KNL-NEXT: kshiftlw $3, %k1, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k1, %k4, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $12, %k2, %k2		; KNL-NEXT: kshiftlw $12, %k0, %k0
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: kshiftrw $12, %k0, %k0
; KNL-NEXT: kshiftrw $4, %k0, %k2		; KNL-NEXT: kshiftlw $5, %k0, %k5
; KNL-NEXT: kmovw %r9d, %k3		; KNL-NEXT: kmovw %r9d, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $4, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: korw %k1, %k5, %k1
; KNL-NEXT: kshiftrw $11, %k2, %k2		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: kshiftlw $11, %k0, %k0
; KNL-NEXT: kshiftrw $5, %k0, %k2		; KNL-NEXT: kshiftrw $11, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: kshiftlw $6, %k0, %k6
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $5, %k1, %k1
; KNL-NEXT: kshiftrw $10, %k2, %k2		; KNL-NEXT: korw %k1, %k6, %k1
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kshiftrw $6, %k0, %k2		; KNL-NEXT: kshiftlw $10, %k0, %k0
		; KNL-NEXT: kshiftrw $10, %k0, %k0
		; KNL-NEXT: kshiftlw $7, %k0, %k7
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $6, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: korw %k1, %k7, %k1
; KNL-NEXT: kshiftrw $9, %k2, %k2		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: kshiftlw $9, %k0, %k0
; KNL-NEXT: kshiftrw $7, %k0, %k2		; KNL-NEXT: kshiftrw $9, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $7, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $8, %k0, %k2
; KNL-NEXT: kshiftrw $8, %k2, %k2		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $8, %k0, %k2		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $8, %k0, %k0
		; KNL-NEXT: kshiftrw $8, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $8, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $9, %k0, %k2
; KNL-NEXT: kshiftrw $7, %k2, %k2		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $9, %k0, %k2		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $7, %k0, %k0
		; KNL-NEXT: kshiftrw $7, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $9, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $10, %k0, %k2
; KNL-NEXT: kshiftrw $6, %k2, %k2		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $10, %k0, %k2		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $6, %k0, %k0
		; KNL-NEXT: kshiftrw $6, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $10, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $11, %k0, %k2
; KNL-NEXT: kshiftrw $5, %k2, %k2		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $11, %k0, %k2		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $5, %k0, %k0
		; KNL-NEXT: kshiftrw $5, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $11, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $12, %k0, %k2
; KNL-NEXT: kshiftrw $4, %k2, %k2		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $12, %k0, %k2		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $4, %k0, %k0
		; KNL-NEXT: kshiftrw $4, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $12, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $13, %k0, %k2
; KNL-NEXT: kshiftrw $3, %k2, %k2		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $13, %k0, %k2		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $3, %k0, %k0
		; KNL-NEXT: kshiftrw $3, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $13, %k1, %k1
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $14, %k0, %k2
; KNL-NEXT: kshiftrw $2, %k2, %k2		; KNL-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftrw $14, %k0, %k2		; KNL-NEXT: korw %k1, %k0, %k0
		; KNL-NEXT: kshiftlw $2, %k0, %k0
		; KNL-NEXT: kshiftrw $2, %k0, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $14, %k1, %k0
; KNL-NEXT: kshiftlw $14, %k2, %k2		; KNL-NEXT: kshiftlw $15, %k0, %k1
; KNL-NEXT: kxorw %k2, %k0, %k0		; KNL-NEXT: kmovw %k1, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
		; KNL-NEXT: korw %k0, %k1, %k0
		; KNL-NEXT: korw %k0, %k2, %k0
; KNL-NEXT: kshiftlw $1, %k0, %k0		; KNL-NEXT: kshiftlw $1, %k0, %k0
; KNL-NEXT: kshiftrw $1, %k0, %k0		; KNL-NEXT: kshiftrw $1, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k2		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: kshiftlw $15, %k2, %k2
; KNL-NEXT: korw %k2, %k0, %k0		; KNL-NEXT: korw %k2, %k0, %k0
		; KNL-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
		; KNL-NEXT: kmovw %eax, %k0
		; KNL-NEXT: kshiftlw $15, %k0, %k0
		; KNL-NEXT: kshiftrw $15, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k2		; KNL-NEXT: kmovw %eax, %k2
		; KNL-NEXT: kshiftlw $1, %k2, %k2
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
		; KNL-NEXT: korw %k2, %k1, %k2
		; KNL-NEXT: korw %k2, %k0, %k0
		; KNL-NEXT: kshiftlw $14, %k0, %k0
		; KNL-NEXT: kshiftrw $14, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k1, %k3, %k3		; KNL-NEXT: kshiftlw $2, %k2, %k2
; KNL-NEXT: kshiftrw $2, %k3, %k4		; KNL-NEXT: kmovw %k3, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: kxorw %k2, %k4, %k2		; KNL-NEXT: korw %k2, %k3, %k2
; KNL-NEXT: kshiftlw $15, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $13, %k2, %k2		; KNL-NEXT: kshiftlw $13, %k0, %k0
; KNL-NEXT: kxorw %k2, %k3, %k2		; KNL-NEXT: kshiftrw $13, %k0, %k0
; KNL-NEXT: kshiftrw $3, %k2, %k3
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $3, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw %k4, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: kshiftrw $12, %k3, %k3		; KNL-NEXT: korw %k2, %k4, %k2
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $4, %k2, %k3		; KNL-NEXT: kshiftlw $12, %k0, %k0
		; KNL-NEXT: kshiftrw $12, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $4, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw %k5, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: kshiftrw $11, %k3, %k3		; KNL-NEXT: korw %k2, %k5, %k2
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $5, %k2, %k3		; KNL-NEXT: kshiftlw $11, %k0, %k0
		; KNL-NEXT: kshiftrw $11, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $5, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: korw %k2, %k6, %k2
; KNL-NEXT: kshiftrw $10, %k3, %k3		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: kshiftlw $10, %k0, %k0
; KNL-NEXT: kshiftrw $6, %k2, %k3		; KNL-NEXT: kshiftrw $10, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $6, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw %k7, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: kshiftrw $9, %k3, %k3		; KNL-NEXT: korw %k2, %k7, %k2
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $7, %k2, %k3		; KNL-NEXT: kshiftlw $9, %k0, %k0
		; KNL-NEXT: kshiftrw $9, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $7, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kshiftrw $8, %k3, %k3		; KNL-NEXT: korw %k2, %k1, %k2
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $8, %k2, %k3		; KNL-NEXT: kshiftlw $8, %k0, %k0
		; KNL-NEXT: kshiftrw $8, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $8, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kshiftrw $7, %k3, %k3		; KNL-NEXT: korw %k2, %k1, %k2
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $9, %k2, %k3		; KNL-NEXT: kshiftlw $7, %k0, %k0
		; KNL-NEXT: kshiftrw $7, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $9, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kshiftrw $6, %k3, %k3		; KNL-NEXT: korw %k2, %k1, %k2
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $10, %k2, %k3		; KNL-NEXT: kshiftlw $6, %k0, %k0
		; KNL-NEXT: kshiftrw $6, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $10, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kshiftrw $5, %k3, %k3		; KNL-NEXT: korw %k2, %k1, %k2
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $11, %k2, %k3		; KNL-NEXT: kshiftlw $5, %k0, %k0
		; KNL-NEXT: kshiftrw $5, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $11, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kshiftrw $4, %k3, %k3		; KNL-NEXT: korw %k2, %k1, %k2
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $12, %k2, %k3		; KNL-NEXT: kshiftlw $4, %k0, %k0
		; KNL-NEXT: kshiftrw $4, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $12, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kshiftrw $3, %k3, %k3		; KNL-NEXT: korw %k2, %k1, %k2
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $13, %k2, %k3		; KNL-NEXT: kshiftlw $3, %k0, %k0
		; KNL-NEXT: kshiftrw $3, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $13, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kshiftrw $2, %k3, %k3		; KNL-NEXT: korw %k2, %k1, %k2
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $14, %k2, %k3		; KNL-NEXT: kshiftlw $2, %k0, %k0
		; KNL-NEXT: kshiftrw $2, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $14, %k2, %k2
; KNL-NEXT: kshiftlw $14, %k3, %k3		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kxorw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k1, %k2
; KNL-NEXT: kshiftlw $1, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $1, %k2, %k2		; KNL-NEXT: kshiftlw $1, %k0, %k0
		; KNL-NEXT: kshiftrw $1, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: kshiftlw $15, %k2, %k2
; KNL-NEXT: korw %k3, %k2, %k2		; KNL-NEXT: korw %k2, %k0, %k0
		; KNL-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k3		; KNL-NEXT: kmovw %eax, %k0
		; KNL-NEXT: kshiftlw $15, %k0, %k0
		; KNL-NEXT: kshiftrw $15, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k1, %k4, %k4		; KNL-NEXT: kshiftlw $1, %k2, %k2
; KNL-NEXT: kshiftrw $2, %k4, %k5		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kxorw %k3, %k5, %k3		; KNL-NEXT: korw %k2, %k1, %k2
; KNL-NEXT: kshiftlw $15, %k3, %k3		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $13, %k3, %k3		; KNL-NEXT: kshiftlw $14, %k0, %k0
; KNL-NEXT: kxorw %k3, %k4, %k3		; KNL-NEXT: kshiftrw $14, %k0, %k0
; KNL-NEXT: kshiftrw $3, %k3, %k4
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $2, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k2, %k3, %k2
; KNL-NEXT: kshiftrw $12, %k4, %k4		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $13, %k0, %k0
; KNL-NEXT: kshiftrw $4, %k3, %k4		; KNL-NEXT: kshiftrw $13, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $3, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k2, %k4, %k2
; KNL-NEXT: kshiftrw $11, %k4, %k4		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $12, %k0, %k0
; KNL-NEXT: kshiftrw $5, %k3, %k4		; KNL-NEXT: kshiftrw $12, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $4, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k2, %k5, %k2
; KNL-NEXT: kshiftrw $10, %k4, %k4		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $11, %k0, %k0
; KNL-NEXT: kshiftrw $6, %k3, %k4		; KNL-NEXT: kshiftrw $11, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $5, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k2, %k6, %k2
; KNL-NEXT: kshiftrw $9, %k4, %k4		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $10, %k0, %k0
; KNL-NEXT: kshiftrw $7, %k3, %k4		; KNL-NEXT: kshiftrw $10, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $6, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k2, %k7, %k2
; KNL-NEXT: kshiftrw $8, %k4, %k4		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: kshiftlw $9, %k0, %k0
; KNL-NEXT: kshiftrw $8, %k3, %k4		; KNL-NEXT: kshiftrw $9, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $7, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kshiftrw $7, %k4, %k4		; KNL-NEXT: korw %k2, %k1, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $9, %k3, %k4		; KNL-NEXT: kshiftlw $8, %k0, %k0
		; KNL-NEXT: kshiftrw $8, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $8, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k3 ## 2-byte Reload
; KNL-NEXT: kshiftrw $6, %k4, %k4		; KNL-NEXT: korw %k2, %k3, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $10, %k3, %k4		; KNL-NEXT: kshiftlw $7, %k0, %k0
		; KNL-NEXT: kshiftrw $7, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $9, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k4 ## 2-byte Reload
; KNL-NEXT: kshiftrw $5, %k4, %k4		; KNL-NEXT: korw %k2, %k4, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $11, %k3, %k4		; KNL-NEXT: kshiftlw $6, %k0, %k0
		; KNL-NEXT: kshiftrw $6, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $10, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k5 ## 2-byte Reload
; KNL-NEXT: kshiftrw $4, %k4, %k4		; KNL-NEXT: korw %k2, %k5, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $12, %k3, %k4		; KNL-NEXT: kshiftlw $5, %k0, %k0
		; KNL-NEXT: kshiftrw $5, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $11, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
; KNL-NEXT: kshiftrw $3, %k4, %k4		; KNL-NEXT: korw %k2, %k7, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $13, %k3, %k4		; KNL-NEXT: kshiftlw $4, %k0, %k0
		; KNL-NEXT: kshiftrw $4, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $12, %k2, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
; KNL-NEXT: kshiftrw $2, %k4, %k4		; KNL-NEXT: korw %k2, %k7, %k2
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $14, %k3, %k4		; KNL-NEXT: kshiftlw $3, %k0, %k0
		; KNL-NEXT: kshiftrw $3, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $13, %k2, %k2
; KNL-NEXT: kshiftlw $14, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
; KNL-NEXT: kxorw %k4, %k3, %k3		; KNL-NEXT: korw %k2, %k7, %k2
; KNL-NEXT: kshiftlw $1, %k3, %k3		; KNL-NEXT: korw %k2, %k0, %k0
; KNL-NEXT: kshiftrw $1, %k3, %k3		; KNL-NEXT: kshiftlw $2, %k0, %k0
		; KNL-NEXT: kshiftrw $2, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kshiftlw $14, %k2, %k2
; KNL-NEXT: korw %k4, %k3, %k3		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
		; KNL-NEXT: korw %k2, %k7, %k2
		; KNL-NEXT: korw %k2, %k0, %k0
		; KNL-NEXT: kshiftlw $1, %k0, %k0
		; KNL-NEXT: kshiftrw $1, %k0, %k0
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
		; KNL-NEXT: kshiftlw $15, %k2, %k2
		; KNL-NEXT: korw %k2, %k0, %k0
		; KNL-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kxorw %k1, %k5, %k1		; KNL-NEXT: kshiftlw $1, %k2, %k2
; KNL-NEXT: kshiftrw $2, %k1, %k5		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; KNL-NEXT: kxorw %k4, %k5, %k4		; KNL-NEXT: korw %k2, %k0, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4
; KNL-NEXT: kshiftrw $13, %k4, %k4
; KNL-NEXT: kxorw %k4, %k1, %k1
; KNL-NEXT: kshiftrw $3, %k1, %k4
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k7
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $15, %k7, %k7
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kshiftrw $15, %k7, %k7
; KNL-NEXT: kshiftrw $12, %k4, %k4		; KNL-NEXT: korw %k2, %k7, %k2
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kshiftrw $4, %k1, %k4		; KNL-NEXT: kmovw %eax, %k7
		; KNL-NEXT: kshiftlw $2, %k7, %k7
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
		; KNL-NEXT: korw %k7, %k0, %k7
		; KNL-NEXT: kshiftlw $14, %k2, %k2
		; KNL-NEXT: kshiftrw $14, %k2, %k2
		; KNL-NEXT: korw %k7, %k2, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k7
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $3, %k7, %k7
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; KNL-NEXT: kshiftrw $11, %k4, %k4		; KNL-NEXT: korw %k7, %k0, %k7
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: kshiftlw $13, %k2, %k2
; KNL-NEXT: kshiftrw $5, %k1, %k4		; KNL-NEXT: kshiftrw $13, %k2, %k2
		; KNL-NEXT: korw %k7, %k2, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k7
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $4, %k7, %k7
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; KNL-NEXT: kshiftrw $10, %k4, %k4		; KNL-NEXT: korw %k7, %k0, %k7
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: kshiftlw $12, %k2, %k2
; KNL-NEXT: kshiftrw $6, %k1, %k4		; KNL-NEXT: kshiftrw $12, %k2, %k2
		; KNL-NEXT: korw %k7, %k2, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k7
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $5, %k7, %k7
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k7, %k6, %k7
; KNL-NEXT: kshiftrw $9, %k4, %k4		; KNL-NEXT: kshiftlw $11, %k2, %k2
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: kshiftrw $11, %k2, %k2
; KNL-NEXT: kshiftrw $7, %k1, %k4		; KNL-NEXT: korw %k7, %k2, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k7
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $6, %k7, %k7
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; KNL-NEXT: kshiftrw $8, %k4, %k4		; KNL-NEXT: korw %k7, %k0, %k7
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: kshiftlw $10, %k2, %k2
; KNL-NEXT: kshiftrw $8, %k1, %k4		; KNL-NEXT: kshiftrw $10, %k2, %k2
		; KNL-NEXT: korw %k7, %k2, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k7
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $7, %k7, %k7
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k7, %k1, %k7
; KNL-NEXT: kshiftrw $7, %k4, %k4		; KNL-NEXT: kshiftlw $9, %k2, %k2
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: kshiftrw $9, %k2, %k2
; KNL-NEXT: kshiftrw $9, %k1, %k4		; KNL-NEXT: korw %k7, %k2, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k7
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $8, %k7, %k7
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k7, %k3, %k7
; KNL-NEXT: kshiftrw $6, %k4, %k4		; KNL-NEXT: kshiftlw $8, %k2, %k2
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: kshiftrw $8, %k2, %k2
; KNL-NEXT: kshiftrw $10, %k1, %k4		; KNL-NEXT: korw %k7, %k2, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k7
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $9, %k7, %k7
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k7, %k4, %k7
; KNL-NEXT: kshiftrw $5, %k4, %k4		; KNL-NEXT: kshiftlw $7, %k2, %k2
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: kshiftrw $7, %k2, %k2
; KNL-NEXT: kshiftrw $11, %k1, %k4		; KNL-NEXT: korw %k7, %k2, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k7
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $10, %k7, %k7
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: korw %k7, %k5, %k6
; KNL-NEXT: kshiftrw $4, %k4, %k4		; KNL-NEXT: kshiftlw $6, %k2, %k2
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: kshiftrw $6, %k2, %k2
; KNL-NEXT: kshiftrw $12, %k1, %k4		; KNL-NEXT: korw %k6, %k2, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k6
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $11, %k6, %k6
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kshiftrw $3, %k4, %k4		; KNL-NEXT: korw %k6, %k1, %k5
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: kshiftlw $5, %k2, %k2
; KNL-NEXT: kshiftrw $13, %k1, %k4		; KNL-NEXT: kshiftrw $5, %k2, %k2
		; KNL-NEXT: korw %k5, %k2, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k5
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $12, %k5, %k5
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kshiftrw $2, %k4, %k4		; KNL-NEXT: korw %k5, %k1, %k4
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: kshiftlw $4, %k2, %k2
; KNL-NEXT: kshiftrw $14, %k1, %k4		; KNL-NEXT: kshiftrw $4, %k2, %k2
		; KNL-NEXT: korw %k4, %k2, %k2
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k5		; KNL-NEXT: kmovw %eax, %k4
; KNL-NEXT: kxorw %k5, %k4, %k4		; KNL-NEXT: kshiftlw $13, %k4, %k4
; KNL-NEXT: kshiftlw $14, %k4, %k4		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; KNL-NEXT: kxorw %k4, %k1, %k1		; KNL-NEXT: korw %k4, %k1, %k3
		; KNL-NEXT: kshiftlw $3, %k2, %k2
		; KNL-NEXT: kshiftrw $3, %k2, %k2
		; KNL-NEXT: korw %k3, %k2, %k2
		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
		; KNL-NEXT: kmovw %eax, %k3
		; KNL-NEXT: kshiftlw $14, %k3, %k3
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
		; KNL-NEXT: korw %k3, %k1, %k1
		; KNL-NEXT: kshiftlw $2, %k2, %k2
		; KNL-NEXT: kshiftrw $2, %k2, %k2
		; KNL-NEXT: korw %k1, %k2, %k1
; KNL-NEXT: kshiftlw $1, %k1, %k1		; KNL-NEXT: kshiftlw $1, %k1, %k1
; KNL-NEXT: kshiftrw $1, %k1, %k1		; KNL-NEXT: kshiftrw $1, %k1, %k1
; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al		; KNL-NEXT: movb {{[0-9]+}}(%rsp), %al
; KNL-NEXT: kmovw %eax, %k4		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kshiftlw $15, %k4, %k4		; KNL-NEXT: kshiftlw $15, %k2, %k2
; KNL-NEXT: korw %k4, %k1, %k1		; KNL-NEXT: korw %k2, %k1, %k1
; KNL-NEXT: kmovw %k1, 6(%rdi)		; KNL-NEXT: kmovw %k1, 6(%rdi)
; KNL-NEXT: kmovw %k3, 4(%rdi)		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; KNL-NEXT: kmovw %k2, 2(%rdi)		; KNL-NEXT: kmovw %k0, 4(%rdi)
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
		; KNL-NEXT: kmovw %k0, 2(%rdi)
		; KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; KNL-NEXT: kmovw %k0, (%rdi)		; KNL-NEXT: kmovw %k0, (%rdi)
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: store_64i1:		; SKX-LABEL: store_64i1:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: vpsllw $7, %zmm0, %zmm0		; SKX-NEXT: vpsllw $7, %zmm0, %zmm0
; SKX-NEXT: vpmovb2m %zmm0, %k0		; SKX-NEXT: vpmovb2m %zmm0, %k0
; SKX-NEXT: kmovq %k0, (%rdi)		; SKX-NEXT: kmovq %k0, (%rdi)
; SKX-NEXT: vzeroupper		; SKX-NEXT: vzeroupper
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; AVX512BW-LABEL: store_64i1:		; AVX512BW-LABEL: store_64i1:
; AVX512BW: ## %bb.0:		; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: vpsllw $7, %zmm0, %zmm0		; AVX512BW-NEXT: vpsllw $7, %zmm0, %zmm0
; AVX512BW-NEXT: vpmovb2m %zmm0, %k0		; AVX512BW-NEXT: vpmovb2m %zmm0, %k0
; AVX512BW-NEXT: kmovq %k0, (%rdi)		; AVX512BW-NEXT: kmovq %k0, (%rdi)
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512DQ-LABEL: store_64i1:		; AVX512DQ-LABEL: store_64i1:
; AVX512DQ: ## %bb.0:		; AVX512DQ: ## %bb.0:
; AVX512DQ-NEXT: kmovw %ecx, %k0		; AVX512DQ-NEXT: kmovw %esi, %k0
; AVX512DQ-NEXT: kmovw %esi, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k0, %k1
; AVX512DQ-NEXT: kshiftrw $14, %k1, %k1
; AVX512DQ-NEXT: kxorw %k1, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $2, %k2, %k3
; AVX512DQ-NEXT: kxorw %k0, %k3, %k0
; AVX512DQ-NEXT: kshiftlw $15, %k0, %k0		; AVX512DQ-NEXT: kshiftlw $15, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $15, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $2, %k0, %k2
		; AVX512DQ-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
		; AVX512DQ-NEXT: kmovw %edx, %k1
		; AVX512DQ-NEXT: kshiftlw $1, %k1, %k1
		; AVX512DQ-NEXT: korw %k1, %k2, %k1
		; AVX512DQ-NEXT: korw %k1, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $14, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $14, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $3, %k0, %k3
		; AVX512DQ-NEXT: kmovw %ecx, %k1
		; AVX512DQ-NEXT: kshiftlw $2, %k1, %k1
		; AVX512DQ-NEXT: korw %k1, %k3, %k1
		; AVX512DQ-NEXT: korw %k1, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $13, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $13, %k0, %k0		; AVX512DQ-NEXT: kshiftrw $13, %k0, %k0
; AVX512DQ-NEXT: kxorw %k0, %k2, %k0		; AVX512DQ-NEXT: kshiftlw $4, %k0, %k4
; AVX512DQ-NEXT: kshiftrw $3, %k0, %k2		; AVX512DQ-NEXT: kmovw %r8d, %k1
; AVX512DQ-NEXT: kmovw %r8d, %k3		; AVX512DQ-NEXT: kshiftlw $3, %k1, %k1
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k1, %k4, %k1
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: korw %k1, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $12, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $12, %k0, %k0
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: kshiftrw $12, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $4, %k0, %k2		; AVX512DQ-NEXT: kshiftlw $5, %k0, %k5
; AVX512DQ-NEXT: kmovw %r9d, %k3		; AVX512DQ-NEXT: kmovw %r9d, %k1
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $4, %k1, %k1
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: korw %k1, %k5, %k1
; AVX512DQ-NEXT: kshiftrw $11, %k2, %k2		; AVX512DQ-NEXT: korw %k1, %k0, %k0
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: kshiftlw $11, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $5, %k0, %k2		; AVX512DQ-NEXT: kshiftrw $11, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: kshiftlw $6, %k0, %k6
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: kmovw %eax, %k1
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $5, %k1, %k1
; AVX512DQ-NEXT: kshiftrw $10, %k2, %k2		; AVX512DQ-NEXT: korw %k1, %k6, %k1
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: korw %k1, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $6, %k0, %k2		; AVX512DQ-NEXT: kshiftlw $10, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: kshiftrw $10, %k0, %k0
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kshiftlw $7, %k0, %k7
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: kmovw %eax, %k1
; AVX512DQ-NEXT: kshiftrw $9, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $6, %k1, %k1
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: korw %k1, %k7, %k1
; AVX512DQ-NEXT: kshiftrw $7, %k0, %k2		; AVX512DQ-NEXT: korw %k1, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $9, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $9, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kmovw %eax, %k1
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $7, %k1, %k1
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $8, %k0, %k2
; AVX512DQ-NEXT: kshiftrw $8, %k2, %k2		; AVX512DQ-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: korw %k1, %k2, %k1
; AVX512DQ-NEXT: kshiftrw $8, %k0, %k2		; AVX512DQ-NEXT: korw %k1, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $8, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $8, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kmovw %eax, %k1
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $8, %k1, %k1
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $9, %k0, %k2
; AVX512DQ-NEXT: kshiftrw $7, %k2, %k2		; AVX512DQ-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: korw %k1, %k2, %k1
; AVX512DQ-NEXT: kshiftrw $9, %k0, %k2		; AVX512DQ-NEXT: korw %k1, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $7, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $7, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kmovw %eax, %k1
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $9, %k1, %k1
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $10, %k0, %k2
; AVX512DQ-NEXT: kshiftrw $6, %k2, %k2		; AVX512DQ-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: korw %k1, %k2, %k1
; AVX512DQ-NEXT: kshiftrw $10, %k0, %k2		; AVX512DQ-NEXT: korw %k1, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $6, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $6, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kmovw %eax, %k1
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $10, %k1, %k1
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $11, %k0, %k2
; AVX512DQ-NEXT: kshiftrw $5, %k2, %k2		; AVX512DQ-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: korw %k1, %k2, %k1
; AVX512DQ-NEXT: kshiftrw $11, %k0, %k2		; AVX512DQ-NEXT: korw %k1, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $5, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $5, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kmovw %eax, %k1
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $11, %k1, %k1
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $12, %k0, %k2
; AVX512DQ-NEXT: kshiftrw $4, %k2, %k2		; AVX512DQ-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: korw %k1, %k2, %k1
; AVX512DQ-NEXT: kshiftrw $12, %k0, %k2		; AVX512DQ-NEXT: korw %k1, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $4, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $4, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kmovw %eax, %k1
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $12, %k1, %k1
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $13, %k0, %k2
; AVX512DQ-NEXT: kshiftrw $3, %k2, %k2		; AVX512DQ-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: korw %k1, %k2, %k1
; AVX512DQ-NEXT: kshiftrw $13, %k0, %k2		; AVX512DQ-NEXT: korw %k1, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $3, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $3, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kmovw %eax, %k1
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $13, %k1, %k1
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $14, %k0, %k2
; AVX512DQ-NEXT: kshiftrw $2, %k2, %k2		; AVX512DQ-NEXT: kmovw %k2, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: korw %k1, %k2, %k1
; AVX512DQ-NEXT: kshiftrw $14, %k0, %k2		; AVX512DQ-NEXT: korw %k1, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $2, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $2, %k0, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kmovw %eax, %k1
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $14, %k1, %k0
; AVX512DQ-NEXT: kshiftlw $14, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $15, %k0, %k1
; AVX512DQ-NEXT: kxorw %k2, %k0, %k0		; AVX512DQ-NEXT: kmovw %k1, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
		; AVX512DQ-NEXT: korw %k0, %k1, %k0
		; AVX512DQ-NEXT: korw %k0, %k2, %k0
; AVX512DQ-NEXT: kshiftlw $1, %k0, %k0		; AVX512DQ-NEXT: kshiftlw $1, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $1, %k0, %k0		; AVX512DQ-NEXT: kshiftrw $1, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k2		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2
; AVX512DQ-NEXT: korw %k2, %k0, %k0		; AVX512DQ-NEXT: korw %k2, %k0, %k0
		; AVX512DQ-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
		; AVX512DQ-NEXT: kmovw %eax, %k0
		; AVX512DQ-NEXT: kshiftlw $15, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $15, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k2		; AVX512DQ-NEXT: kmovw %eax, %k2
		; AVX512DQ-NEXT: kshiftlw $1, %k2, %k2
		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
		; AVX512DQ-NEXT: korw %k2, %k1, %k2
		; AVX512DQ-NEXT: korw %k2, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $14, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $14, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k1, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $2, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $2, %k3, %k4		; AVX512DQ-NEXT: kmovw %k3, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: kxorw %k2, %k4, %k2		; AVX512DQ-NEXT: korw %k2, %k3, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $13, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $13, %k0, %k0
; AVX512DQ-NEXT: kxorw %k2, %k3, %k2		; AVX512DQ-NEXT: kshiftrw $13, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $3, %k2, %k3
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $3, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: kmovw %k4, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: kshiftrw $12, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k4, %k2
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $4, %k2, %k3		; AVX512DQ-NEXT: kshiftlw $12, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $12, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $4, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: kmovw %k5, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: kshiftrw $11, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k5, %k2
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $5, %k2, %k3		; AVX512DQ-NEXT: kshiftlw $11, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $11, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $5, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k6, %k2
; AVX512DQ-NEXT: kshiftrw $10, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $10, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $6, %k2, %k3		; AVX512DQ-NEXT: kshiftrw $10, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $6, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: kmovw %k7, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: kshiftrw $9, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k7, %k2
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $7, %k2, %k3		; AVX512DQ-NEXT: kshiftlw $9, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $9, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $7, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $8, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k1, %k2
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $8, %k2, %k3		; AVX512DQ-NEXT: kshiftlw $8, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $8, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $8, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $7, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k1, %k2
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $9, %k2, %k3		; AVX512DQ-NEXT: kshiftlw $7, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $7, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $9, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $6, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k1, %k2
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $10, %k2, %k3		; AVX512DQ-NEXT: kshiftlw $6, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $6, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $10, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $5, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k1, %k2
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $11, %k2, %k3		; AVX512DQ-NEXT: kshiftlw $5, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $5, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $11, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $4, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k1, %k2
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $12, %k2, %k3		; AVX512DQ-NEXT: kshiftlw $4, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $4, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $12, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $3, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k1, %k2
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $13, %k2, %k3		; AVX512DQ-NEXT: kshiftlw $3, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $3, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $13, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $2, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k1, %k2
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $14, %k2, %k3		; AVX512DQ-NEXT: kshiftlw $2, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $2, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $14, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $14, %k3, %k3		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kxorw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k1, %k2
; AVX512DQ-NEXT: kshiftlw $1, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $1, %k2, %k2		; AVX512DQ-NEXT: kshiftlw $1, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $1, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2
; AVX512DQ-NEXT: korw %k3, %k2, %k2		; AVX512DQ-NEXT: korw %k2, %k0, %k0
		; AVX512DQ-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k3		; AVX512DQ-NEXT: kmovw %eax, %k0
		; AVX512DQ-NEXT: kshiftlw $15, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $15, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k1, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $1, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $2, %k4, %k5		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kxorw %k3, %k5, %k3		; AVX512DQ-NEXT: korw %k2, %k1, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $13, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $14, %k0, %k0
; AVX512DQ-NEXT: kxorw %k3, %k4, %k3		; AVX512DQ-NEXT: kshiftrw $14, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $3, %k3, %k4
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $2, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k3, %k2
; AVX512DQ-NEXT: kshiftrw $12, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $13, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $4, %k3, %k4		; AVX512DQ-NEXT: kshiftrw $13, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $3, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k4, %k2
; AVX512DQ-NEXT: kshiftrw $11, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $12, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $5, %k3, %k4		; AVX512DQ-NEXT: kshiftrw $12, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $4, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k5, %k2
; AVX512DQ-NEXT: kshiftrw $10, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $11, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $6, %k3, %k4		; AVX512DQ-NEXT: kshiftrw $11, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $5, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k6, %k2
; AVX512DQ-NEXT: kshiftrw $9, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $10, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $7, %k3, %k4		; AVX512DQ-NEXT: kshiftrw $10, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $6, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k7, %k2
; AVX512DQ-NEXT: kshiftrw $8, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $9, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $8, %k3, %k4		; AVX512DQ-NEXT: kshiftrw $9, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $7, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $7, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k1, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $9, %k3, %k4		; AVX512DQ-NEXT: kshiftlw $8, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $8, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $8, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k3 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $6, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k3, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $10, %k3, %k4		; AVX512DQ-NEXT: kshiftlw $7, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $7, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $9, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k4 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $5, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k4, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $11, %k3, %k4		; AVX512DQ-NEXT: kshiftlw $6, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $6, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $10, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k5 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $4, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k5, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $12, %k3, %k4		; AVX512DQ-NEXT: kshiftlw $5, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $5, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $11, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $3, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k7, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $13, %k3, %k4		; AVX512DQ-NEXT: kshiftlw $4, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $4, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $12, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $2, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k7, %k2
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $14, %k3, %k4		; AVX512DQ-NEXT: kshiftlw $3, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $3, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $13, %k2, %k2
; AVX512DQ-NEXT: kshiftlw $14, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
; AVX512DQ-NEXT: kxorw %k4, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k7, %k2
; AVX512DQ-NEXT: kshiftlw $1, %k3, %k3		; AVX512DQ-NEXT: korw %k2, %k0, %k0
; AVX512DQ-NEXT: kshiftrw $1, %k3, %k3		; AVX512DQ-NEXT: kshiftlw $2, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $2, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $14, %k2, %k2
; AVX512DQ-NEXT: korw %k4, %k3, %k3		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 ## 2-byte Reload
		; AVX512DQ-NEXT: korw %k2, %k7, %k2
		; AVX512DQ-NEXT: korw %k2, %k0, %k0
		; AVX512DQ-NEXT: kshiftlw $1, %k0, %k0
		; AVX512DQ-NEXT: kshiftrw $1, %k0, %k0
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
		; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2
		; AVX512DQ-NEXT: korw %k2, %k0, %k0
		; AVX512DQ-NEXT: kmovw %k0, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kxorw %k1, %k5, %k1		; AVX512DQ-NEXT: kshiftlw $1, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $2, %k1, %k5		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; AVX512DQ-NEXT: kxorw %k4, %k5, %k4		; AVX512DQ-NEXT: korw %k2, %k0, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4
; AVX512DQ-NEXT: kshiftrw $13, %k4, %k4
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1
; AVX512DQ-NEXT: kshiftrw $3, %k1, %k4
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k7
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $15, %k7, %k7
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kshiftrw $15, %k7, %k7
; AVX512DQ-NEXT: kshiftrw $12, %k4, %k4		; AVX512DQ-NEXT: korw %k2, %k7, %k2
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kshiftrw $4, %k1, %k4		; AVX512DQ-NEXT: kmovw %eax, %k7
		; AVX512DQ-NEXT: kshiftlw $2, %k7, %k7
		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
		; AVX512DQ-NEXT: korw %k7, %k0, %k7
		; AVX512DQ-NEXT: kshiftlw $14, %k2, %k2
		; AVX512DQ-NEXT: kshiftrw $14, %k2, %k2
		; AVX512DQ-NEXT: korw %k7, %k2, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k7
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $3, %k7, %k7
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $11, %k4, %k4		; AVX512DQ-NEXT: korw %k7, %k0, %k7
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: kshiftlw $13, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $5, %k1, %k4		; AVX512DQ-NEXT: kshiftrw $13, %k2, %k2
		; AVX512DQ-NEXT: korw %k7, %k2, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k7
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $4, %k7, %k7
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $10, %k4, %k4		; AVX512DQ-NEXT: korw %k7, %k0, %k7
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: kshiftlw $12, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $6, %k1, %k4		; AVX512DQ-NEXT: kshiftrw $12, %k2, %k2
		; AVX512DQ-NEXT: korw %k7, %k2, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k7
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $5, %k7, %k7
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: korw %k7, %k6, %k7
; AVX512DQ-NEXT: kshiftrw $9, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $11, %k2, %k2
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: kshiftrw $11, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $7, %k1, %k4		; AVX512DQ-NEXT: korw %k7, %k2, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k7
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $6, %k7, %k7
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $8, %k4, %k4		; AVX512DQ-NEXT: korw %k7, %k0, %k7
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: kshiftlw $10, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $8, %k1, %k4		; AVX512DQ-NEXT: kshiftrw $10, %k2, %k2
		; AVX512DQ-NEXT: korw %k7, %k2, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k7
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $7, %k7, %k7
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: korw %k7, %k1, %k7
; AVX512DQ-NEXT: kshiftrw $7, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $9, %k2, %k2
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: kshiftrw $9, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $9, %k1, %k4		; AVX512DQ-NEXT: korw %k7, %k2, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k7
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $8, %k7, %k7
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: korw %k7, %k3, %k7
; AVX512DQ-NEXT: kshiftrw $6, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $8, %k2, %k2
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: kshiftrw $8, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $10, %k1, %k4		; AVX512DQ-NEXT: korw %k7, %k2, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k7
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $9, %k7, %k7
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: korw %k7, %k4, %k7
; AVX512DQ-NEXT: kshiftrw $5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $7, %k2, %k2
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: kshiftrw $7, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $11, %k1, %k4		; AVX512DQ-NEXT: korw %k7, %k2, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k7
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $10, %k7, %k7
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: korw %k7, %k5, %k6
; AVX512DQ-NEXT: kshiftrw $4, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $6, %k2, %k2
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: kshiftrw $6, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $12, %k1, %k4		; AVX512DQ-NEXT: korw %k6, %k2, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k6
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $11, %k6, %k6
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $3, %k4, %k4		; AVX512DQ-NEXT: korw %k6, %k1, %k5
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: kshiftlw $5, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $13, %k1, %k4		; AVX512DQ-NEXT: kshiftrw $5, %k2, %k2
		; AVX512DQ-NEXT: korw %k5, %k2, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k5
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $12, %k5, %k5
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kshiftrw $2, %k4, %k4		; AVX512DQ-NEXT: korw %k5, %k1, %k4
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: kshiftlw $4, %k2, %k2
; AVX512DQ-NEXT: kshiftrw $14, %k1, %k4		; AVX512DQ-NEXT: kshiftrw $4, %k2, %k2
		; AVX512DQ-NEXT: korw %k4, %k2, %k2
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k5		; AVX512DQ-NEXT: kmovw %eax, %k4
; AVX512DQ-NEXT: kxorw %k5, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $13, %k4, %k4
; AVX512DQ-NEXT: kshiftlw $14, %k4, %k4		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
; AVX512DQ-NEXT: kxorw %k4, %k1, %k1		; AVX512DQ-NEXT: korw %k4, %k1, %k3
		; AVX512DQ-NEXT: kshiftlw $3, %k2, %k2
		; AVX512DQ-NEXT: kshiftrw $3, %k2, %k2
		; AVX512DQ-NEXT: korw %k3, %k2, %k2
		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
		; AVX512DQ-NEXT: kmovw %eax, %k3
		; AVX512DQ-NEXT: kshiftlw $14, %k3, %k3
		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k1 ## 2-byte Reload
		; AVX512DQ-NEXT: korw %k3, %k1, %k1
		; AVX512DQ-NEXT: kshiftlw $2, %k2, %k2
		; AVX512DQ-NEXT: kshiftrw $2, %k2, %k2
		; AVX512DQ-NEXT: korw %k1, %k2, %k1
; AVX512DQ-NEXT: kshiftlw $1, %k1, %k1		; AVX512DQ-NEXT: kshiftlw $1, %k1, %k1
; AVX512DQ-NEXT: kshiftrw $1, %k1, %k1		; AVX512DQ-NEXT: kshiftrw $1, %k1, %k1
; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al		; AVX512DQ-NEXT: movb {{[0-9]+}}(%rsp), %al
; AVX512DQ-NEXT: kmovw %eax, %k4		; AVX512DQ-NEXT: kmovw %eax, %k2
; AVX512DQ-NEXT: kshiftlw $15, %k4, %k4		; AVX512DQ-NEXT: kshiftlw $15, %k2, %k2
; AVX512DQ-NEXT: korw %k4, %k1, %k1		; AVX512DQ-NEXT: korw %k2, %k1, %k1
; AVX512DQ-NEXT: kmovw %k1, 6(%rdi)		; AVX512DQ-NEXT: kmovw %k1, 6(%rdi)
; AVX512DQ-NEXT: kmovw %k3, 4(%rdi)		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; AVX512DQ-NEXT: kmovw %k2, 2(%rdi)		; AVX512DQ-NEXT: kmovw %k0, 4(%rdi)
		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
		; AVX512DQ-NEXT: kmovw %k0, 2(%rdi)
		; AVX512DQ-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k0 ## 2-byte Reload
; AVX512DQ-NEXT: kmovw %k0, (%rdi)		; AVX512DQ-NEXT: kmovw %k0, (%rdi)
; AVX512DQ-NEXT: retq		; AVX512DQ-NEXT: retq
;		;
; X86-LABEL: store_64i1:		; X86-LABEL: store_64i1:
; X86: ## %bb.0:		; X86: ## %bb.0:
; X86-NEXT: vpsllw $7, %zmm0, %zmm0		; X86-NEXT: vpsllw $7, %zmm0, %zmm0
; X86-NEXT: vpmovb2m %zmm0, %k0		; X86-NEXT: vpmovb2m %zmm0, %k0
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
▲ Show 20 Lines • Show All 1,574 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/masked_store.ll

	Show First 20 Lines • Show All 4,907 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX2-NEXT: vpslld $31, %xmm1, %xmm1			; AVX2-NEXT: vpslld $31, %xmm1, %xmm1
	; AVX2-NEXT: vpmaskmovd %xmm0, %xmm1, (%rdi)			; AVX2-NEXT: vpmaskmovd %xmm0, %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: widen_masked_store:			; AVX512F-LABEL: widen_masked_store:
	; AVX512F: ## %bb.0:			; AVX512F: ## %bb.0:
	; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 def $zmm0			; AVX512F-NEXT: ## kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: kmovw %edx, %k0
	; AVX512F-NEXT: andl $1, %esi			; AVX512F-NEXT: andl $1, %esi
	; AVX512F-NEXT: kmovw %esi, %k1			; AVX512F-NEXT: kmovw %esi, %k0
	; AVX512F-NEXT: kxorw %k0, %k0, %k2			; AVX512F-NEXT: kxorw %k0, %k0, %k1
	; AVX512F-NEXT: kshiftrw $1, %k2, %k2			; AVX512F-NEXT: kshiftrw $1, %k1, %k1
	; AVX512F-NEXT: kshiftlw $1, %k2, %k2			; AVX512F-NEXT: kshiftlw $1, %k1, %k1
	; AVX512F-NEXT: korw %k1, %k2, %k1			; AVX512F-NEXT: korw %k0, %k1, %k0
	; AVX512F-NEXT: kshiftrw $1, %k1, %k2			; AVX512F-NEXT: kshiftrw $2, %k0, %k1
	; AVX512F-NEXT: kxorw %k0, %k2, %k0			; AVX512F-NEXT: kshiftlw $2, %k1, %k1
	; AVX512F-NEXT: kshiftlw $15, %k0, %k0			; AVX512F-NEXT: kshiftlw $15, %k0, %k0
				; AVX512F-NEXT: kshiftrw $15, %k0, %k0
				; AVX512F-NEXT: kmovw %edx, %k2
				; AVX512F-NEXT: kshiftlw $15, %k2, %k2
				; AVX512F-NEXT: kshiftrw $14, %k2, %k2
				; AVX512F-NEXT: korw %k2, %k1, %k1
				; AVX512F-NEXT: korw %k1, %k0, %k0
				; AVX512F-NEXT: kshiftrw $3, %k0, %k1
				; AVX512F-NEXT: kshiftlw $3, %k1, %k1
				; AVX512F-NEXT: kshiftlw $14, %k0, %k0
	; AVX512F-NEXT: kshiftrw $14, %k0, %k0			; AVX512F-NEXT: kshiftrw $14, %k0, %k0
	; AVX512F-NEXT: kxorw %k0, %k1, %k0			; AVX512F-NEXT: korw %k1, %k0, %k0
	; AVX512F-NEXT: kshiftrw $2, %k0, %k1			; AVX512F-NEXT: kmovw %ecx, %k1
	; AVX512F-NEXT: kmovw %ecx, %k2
	; AVX512F-NEXT: kxorw %k2, %k1, %k1
	; AVX512F-NEXT: kshiftlw $15, %k1, %k1			; AVX512F-NEXT: kshiftlw $15, %k1, %k1
	; AVX512F-NEXT: kshiftrw $13, %k1, %k1			; AVX512F-NEXT: kshiftrw $13, %k1, %k1
	; AVX512F-NEXT: kxorw %k1, %k0, %k0			; AVX512F-NEXT: korw %k0, %k1, %k0
	; AVX512F-NEXT: kshiftlw $12, %k0, %k0			; AVX512F-NEXT: kshiftlw $12, %k0, %k0
	; AVX512F-NEXT: kshiftrw $12, %k0, %k1			; AVX512F-NEXT: kshiftrw $12, %k0, %k1
	; AVX512F-NEXT: vmovdqu32 %zmm0, (%rdi) {%k1}			; AVX512F-NEXT: vmovdqu32 %zmm0, (%rdi) {%k1}
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VLDQ-LABEL: widen_masked_store:			; AVX512VLDQ-LABEL: widen_masked_store:
	; AVX512VLDQ: ## %bb.0:			; AVX512VLDQ: ## %bb.0:
	; AVX512VLDQ-NEXT: kmovw %edx, %k0			; AVX512VLDQ-NEXT: kmovw %esi, %k0
	; AVX512VLDQ-NEXT: kmovw %esi, %k1
	; AVX512VLDQ-NEXT: kshiftlb $7, %k1, %k1
	; AVX512VLDQ-NEXT: kshiftrb $7, %k1, %k1
	; AVX512VLDQ-NEXT: kxorw %k0, %k0, %k2
	; AVX512VLDQ-NEXT: kshiftrb $1, %k2, %k2
	; AVX512VLDQ-NEXT: kshiftlb $1, %k2, %k2
	; AVX512VLDQ-NEXT: korb %k1, %k2, %k1
	; AVX512VLDQ-NEXT: kshiftrb $1, %k1, %k2
	; AVX512VLDQ-NEXT: kxorb %k0, %k2, %k0
	; AVX512VLDQ-NEXT: kshiftlb $7, %k0, %k0			; AVX512VLDQ-NEXT: kshiftlb $7, %k0, %k0
	; AVX512VLDQ-NEXT: kshiftrb $6, %k0, %k0			; AVX512VLDQ-NEXT: kshiftrb $7, %k0, %k0
	; AVX512VLDQ-NEXT: kxorb %k0, %k1, %k0			; AVX512VLDQ-NEXT: kxorw %k0, %k0, %k1
				; AVX512VLDQ-NEXT: kshiftrb $1, %k1, %k1
				; AVX512VLDQ-NEXT: kshiftlb $1, %k1, %k1
				; AVX512VLDQ-NEXT: korb %k0, %k1, %k0
	; AVX512VLDQ-NEXT: kshiftrb $2, %k0, %k1			; AVX512VLDQ-NEXT: kshiftrb $2, %k0, %k1
	; AVX512VLDQ-NEXT: kmovw %ecx, %k2			; AVX512VLDQ-NEXT: kshiftlb $2, %k1, %k1
	; AVX512VLDQ-NEXT: kxorb %k2, %k1, %k1			; AVX512VLDQ-NEXT: kshiftlb $7, %k0, %k0
				; AVX512VLDQ-NEXT: kshiftrb $7, %k0, %k0
				; AVX512VLDQ-NEXT: kmovw %edx, %k2
				; AVX512VLDQ-NEXT: kshiftlb $7, %k2, %k2
				; AVX512VLDQ-NEXT: kshiftrb $6, %k2, %k2
				; AVX512VLDQ-NEXT: korb %k2, %k1, %k1
				; AVX512VLDQ-NEXT: korb %k1, %k0, %k0
				; AVX512VLDQ-NEXT: kshiftrb $3, %k0, %k1
				; AVX512VLDQ-NEXT: kshiftlb $3, %k1, %k1
				; AVX512VLDQ-NEXT: kshiftlb $6, %k0, %k0
				; AVX512VLDQ-NEXT: kshiftrb $6, %k0, %k0
				; AVX512VLDQ-NEXT: korw %k1, %k0, %k0
				; AVX512VLDQ-NEXT: kmovw %ecx, %k1
	; AVX512VLDQ-NEXT: kshiftlb $7, %k1, %k1			; AVX512VLDQ-NEXT: kshiftlb $7, %k1, %k1
	; AVX512VLDQ-NEXT: kshiftrb $5, %k1, %k1			; AVX512VLDQ-NEXT: kshiftrb $5, %k1, %k1
	; AVX512VLDQ-NEXT: kxorw %k1, %k0, %k1			; AVX512VLDQ-NEXT: korw %k0, %k1, %k1
	; AVX512VLDQ-NEXT: vmovdqa32 %xmm0, (%rdi) {%k1}			; AVX512VLDQ-NEXT: vmovdqa32 %xmm0, (%rdi) {%k1}
	; AVX512VLDQ-NEXT: retq			; AVX512VLDQ-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: widen_masked_store:			; AVX512VLBW-LABEL: widen_masked_store:
	; AVX512VLBW: ## %bb.0:			; AVX512VLBW: ## %bb.0:
	; AVX512VLBW-NEXT: kmovd %edx, %k0
	; AVX512VLBW-NEXT: andl $1, %esi			; AVX512VLBW-NEXT: andl $1, %esi
	; AVX512VLBW-NEXT: kmovw %esi, %k1			; AVX512VLBW-NEXT: kmovw %esi, %k0
	; AVX512VLBW-NEXT: kxorw %k0, %k0, %k2			; AVX512VLBW-NEXT: kxorw %k0, %k0, %k1
	; AVX512VLBW-NEXT: kshiftrw $1, %k2, %k2			; AVX512VLBW-NEXT: kshiftrw $1, %k1, %k1
	; AVX512VLBW-NEXT: kshiftlw $1, %k2, %k2			; AVX512VLBW-NEXT: kshiftlw $1, %k1, %k1
	; AVX512VLBW-NEXT: korw %k1, %k2, %k1			; AVX512VLBW-NEXT: korw %k0, %k1, %k0
	; AVX512VLBW-NEXT: kshiftrw $1, %k1, %k2			; AVX512VLBW-NEXT: kshiftrw $2, %k0, %k1
	; AVX512VLBW-NEXT: kxorw %k0, %k2, %k0			; AVX512VLBW-NEXT: kshiftlw $2, %k1, %k1
	; AVX512VLBW-NEXT: kshiftlw $15, %k0, %k0			; AVX512VLBW-NEXT: kshiftlw $15, %k0, %k0
				; AVX512VLBW-NEXT: kshiftrw $15, %k0, %k0
				; AVX512VLBW-NEXT: kmovd %edx, %k2
				; AVX512VLBW-NEXT: kshiftlw $15, %k2, %k2
				; AVX512VLBW-NEXT: kshiftrw $14, %k2, %k2
				; AVX512VLBW-NEXT: korw %k2, %k1, %k1
				; AVX512VLBW-NEXT: korw %k1, %k0, %k0
				; AVX512VLBW-NEXT: kshiftrw $3, %k0, %k1
				; AVX512VLBW-NEXT: kshiftlw $3, %k1, %k1
				; AVX512VLBW-NEXT: kshiftlw $14, %k0, %k0
	; AVX512VLBW-NEXT: kshiftrw $14, %k0, %k0			; AVX512VLBW-NEXT: kshiftrw $14, %k0, %k0
	; AVX512VLBW-NEXT: kxorw %k0, %k1, %k0			; AVX512VLBW-NEXT: korw %k1, %k0, %k0
	; AVX512VLBW-NEXT: kshiftrw $2, %k0, %k1			; AVX512VLBW-NEXT: kmovd %ecx, %k1
	; AVX512VLBW-NEXT: kmovd %ecx, %k2
	; AVX512VLBW-NEXT: kxorw %k2, %k1, %k1
	; AVX512VLBW-NEXT: kshiftlw $15, %k1, %k1			; AVX512VLBW-NEXT: kshiftlw $15, %k1, %k1
	; AVX512VLBW-NEXT: kshiftrw $13, %k1, %k1			; AVX512VLBW-NEXT: kshiftrw $13, %k1, %k1
	; AVX512VLBW-NEXT: kxorw %k1, %k0, %k1			; AVX512VLBW-NEXT: korw %k0, %k1, %k1
	; AVX512VLBW-NEXT: vmovdqa32 %xmm0, (%rdi) {%k1}			; AVX512VLBW-NEXT: vmovdqa32 %xmm0, (%rdi) {%k1}
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	call void @llvm.masked.store.v3i32.p0v3i32(<3 x i32> %v, <3 x i32>* %p, i32 16, <3 x i1> %mask)			call void @llvm.masked.store.v3i32.p0v3i32(<3 x i32> %v, <3 x i32>* %p, i32 16, <3 x i1> %mask)
	ret void			ret void
	}			}

	define void @zero_mask(<2 x double>* %addr, <2 x double> %val) {			define void @zero_mask(<2 x double>* %addr, <2 x double> %val) {
	; SSE-LABEL: zero_mask:			; SSE-LABEL: zero_mask:
	▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_smulo.ll

	Show First 20 Lines • Show All 1,724 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX2-NEXT: vmovdqa %xmm1, (%rdi)			; AVX2-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: smulo_v2i64:			; AVX512-LABEL: smulo_v2i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovq %xmm1, %rax			; AVX512-NEXT: vpextrq $1, %xmm1, %rax
	; AVX512-NEXT: vmovq %xmm0, %rcx			; AVX512-NEXT: vpextrq $1, %xmm0, %rcx
	; AVX512-NEXT: vpextrq $1, %xmm1, %rdx			; AVX512-NEXT: vmovq %xmm1, %rdx
	; AVX512-NEXT: vpextrq $1, %xmm0, %rsi			; AVX512-NEXT: vmovq %xmm0, %rsi
	; AVX512-NEXT: imulq %rdx, %rsi			; AVX512-NEXT: imulq %rdx, %rsi
	; AVX512-NEXT: vmovq %rsi, %xmm0			; AVX512-NEXT: seto %dl
	; AVX512-NEXT: imulq %rax, %rcx			; AVX512-NEXT: imulq %rax, %rcx
	; AVX512-NEXT: vmovq %rcx, %xmm1			; AVX512-NEXT: vmovq %rcx, %xmm0
				; AVX512-NEXT: vmovq %rsi, %xmm1
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: kmovd %eax, %k0			; AVX512-NEXT: kmovd %eax, %k0
	; AVX512-NEXT: kshiftlw $15, %k0, %k1			; AVX512-NEXT: kshiftlw $15, %k0, %k0
	; AVX512-NEXT: kshiftrw $14, %k1, %k1			; AVX512-NEXT: kshiftrw $14, %k0, %k0
	; AVX512-NEXT: kxorw %k1, %k0, %k1			; AVX512-NEXT: kmovd %edx, %k1
				; AVX512-NEXT: kshiftlw $15, %k1, %k1
				; AVX512-NEXT: kshiftrw $15, %k1, %k1
				; AVX512-NEXT: kshiftlw $2, %k0, %k2
				; AVX512-NEXT: korw %k2, %k1, %k1
				; AVX512-NEXT: korw %k1, %k0, %k1
	; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}			; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}
	; AVX512-NEXT: vmovdqa %xmm1, (%rdi)			; AVX512-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t = call {<2 x i64>, <2 x i1>} @llvm.smul.with.overflow.v2i64(<2 x i64> %a0, <2 x i64> %a1)			%t = call {<2 x i64>, <2 x i1>} @llvm.smul.with.overflow.v2i64(<2 x i64> %a0, <2 x i64> %a1)
	%val = extractvalue {<2 x i64>, <2 x i1>} %t, 0			%val = extractvalue {<2 x i64>, <2 x i1>} %t, 0
	%obit = extractvalue {<2 x i64>, <2 x i1>} %t, 1			%obit = extractvalue {<2 x i64>, <2 x i1>} %t, 1
	%res = sext <2 x i1> %obit to <2 x i32>			%res = sext <2 x i1> %obit to <2 x i32>
	▲ Show 20 Lines • Show All 437 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vmovmskps %xmm3, %eax			; AVX2-NEXT: vmovmskps %xmm3, %eax
	; AVX2-NEXT: movb %al, (%rdi)			; AVX2-NEXT: movb %al, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: smulo_v4i1:			; AVX512-LABEL: smulo_v4i1:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpslld $31, %xmm0, %xmm0			; AVX512-NEXT: pushq %rbx
	; AVX512-NEXT: vptestmd %xmm0, %xmm0, %k0			; AVX512-NEXT: vpslld $31, %xmm1, %xmm1
				; AVX512-NEXT: vptestmd %xmm1, %xmm1, %k0
	; AVX512-NEXT: kshiftrw $3, %k0, %k1			; AVX512-NEXT: kshiftrw $3, %k0, %k1
	; AVX512-NEXT: kmovd %k1, %r9d			; AVX512-NEXT: kmovd %k1, %r9d
	; AVX512-NEXT: andb $1, %r9b			; AVX512-NEXT: andb $1, %r9b
	; AVX512-NEXT: negb %r9b			; AVX512-NEXT: negb %r9b
	; AVX512-NEXT: vpslld $31, %xmm1, %xmm0			; AVX512-NEXT: vpslld $31, %xmm0, %xmm0
	; AVX512-NEXT: vptestmd %xmm0, %xmm0, %k1			; AVX512-NEXT: vptestmd %xmm0, %xmm0, %k1
	; AVX512-NEXT: kshiftrw $3, %k1, %k2			; AVX512-NEXT: kshiftrw $3, %k1, %k2
	; AVX512-NEXT: kmovd %k2, %r10d			; AVX512-NEXT: kmovd %k2, %r10d
	; AVX512-NEXT: andb $1, %r10b			; AVX512-NEXT: andb $1, %r10b
	; AVX512-NEXT: negb %r10b			; AVX512-NEXT: negb %r10b
	; AVX512-NEXT: kshiftrw $2, %k1, %k2			; AVX512-NEXT: kshiftrw $2, %k1, %k2
	; AVX512-NEXT: kmovd %k1, %ecx			; AVX512-NEXT: kmovd %k2, %r11d
	; AVX512-NEXT: andb $1, %cl			; AVX512-NEXT: andb $1, %r11b
	; AVX512-NEXT: negb %cl			; AVX512-NEXT: negb %r11b
	; AVX512-NEXT: kshiftrw $2, %k0, %k1			; AVX512-NEXT: kshiftrw $2, %k0, %k2
	; AVX512-NEXT: kmovd %k0, %esi			; AVX512-NEXT: kmovd %k2, %ebx
				; AVX512-NEXT: andb $1, %bl
				; AVX512-NEXT: negb %bl
				; AVX512-NEXT: kshiftrw $1, %k0, %k2
				; AVX512-NEXT: kmovd %k2, %esi
	; AVX512-NEXT: andb $1, %sil			; AVX512-NEXT: andb $1, %sil
	; AVX512-NEXT: negb %sil			; AVX512-NEXT: negb %sil
	; AVX512-NEXT: kmovd %k1, %eax			; AVX512-NEXT: kshiftrw $1, %k1, %k2
	; AVX512-NEXT: andb $1, %al
	; AVX512-NEXT: negb %al
	; AVX512-NEXT: kmovd %k2, %edx			; AVX512-NEXT: kmovd %k2, %edx
	; AVX512-NEXT: andb $1, %dl			; AVX512-NEXT: andb $1, %dl
	; AVX512-NEXT: negb %dl			; AVX512-NEXT: negb %dl
				; AVX512-NEXT: kmovd %k1, %eax
				; AVX512-NEXT: andb $1, %al
				; AVX512-NEXT: negb %al
				; AVX512-NEXT: kmovd %k0, %ecx
				; AVX512-NEXT: andb $1, %cl
				; AVX512-NEXT: negb %cl
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: imulb %dl			; AVX512-NEXT: imulb %cl
	; AVX512-NEXT: movl %eax, %r8d			; AVX512-NEXT: movl %eax, %r8d
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: movl %r8d, %edx			; AVX512-NEXT: movl %r8d, %ecx
	; AVX512-NEXT: andb $1, %dl			; AVX512-NEXT: andb $1, %cl
	; AVX512-NEXT: negb %dl			; AVX512-NEXT: negb %cl
	; AVX512-NEXT: cmpb %r8b, %dl			; AVX512-NEXT: cmpb %r8b, %cl
	; AVX512-NEXT: setne %dl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: orb %al, %dl			; AVX512-NEXT: orb %al, %cl
	; AVX512-NEXT: setne %al			; AVX512-NEXT: setne %al
	; AVX512-NEXT: kmovd %eax, %k1			; AVX512-NEXT: kmovd %eax, %k0
	; AVX512-NEXT: movl %esi, %eax			; AVX512-NEXT: kshiftlw $15, %k0, %k0
	; AVX512-NEXT: imulb %cl			; AVX512-NEXT: kshiftrw $15, %k0, %k1
				; AVX512-NEXT: kshiftlw $2, %k0, %k0
				; AVX512-NEXT: movl %edx, %eax
				; AVX512-NEXT: imulb %sil
				; AVX512-NEXT: movl %eax, %edx
				; AVX512-NEXT: seto %al
				; AVX512-NEXT: movl %edx, %ecx
				; AVX512-NEXT: andb $1, %cl
				; AVX512-NEXT: negb %cl
				; AVX512-NEXT: cmpb %dl, %cl
				; AVX512-NEXT: setne %cl
				; AVX512-NEXT: orb %al, %cl
				; AVX512-NEXT: setne %al
				; AVX512-NEXT: kmovd %eax, %k2
				; AVX512-NEXT: kshiftlw $1, %k2, %k2
				; AVX512-NEXT: korw %k2, %k0, %k2
				; AVX512-NEXT: korw %k2, %k1, %k1
				; AVX512-NEXT: kshiftlw $14, %k1, %k1
				; AVX512-NEXT: kshiftrw $14, %k1, %k1
				; AVX512-NEXT: kshiftlw $3, %k0, %k2
				; AVX512-NEXT: movl %r11d, %eax
				; AVX512-NEXT: imulb %bl
	; AVX512-NEXT: movl %eax, %esi			; AVX512-NEXT: movl %eax, %esi
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: movl %esi, %ecx			; AVX512-NEXT: movl %esi, %ecx
	; AVX512-NEXT: andb $1, %cl			; AVX512-NEXT: andb $1, %cl
	; AVX512-NEXT: negb %cl			; AVX512-NEXT: negb %cl
	; AVX512-NEXT: cmpb %sil, %cl			; AVX512-NEXT: cmpb %sil, %cl
	; AVX512-NEXT: setne %cl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: orb %al, %cl			; AVX512-NEXT: orb %al, %cl
	; AVX512-NEXT: setne %al			; AVX512-NEXT: setne %al
	; AVX512-NEXT: kmovd %eax, %k2			; AVX512-NEXT: kmovd %eax, %k3
	; AVX512-NEXT: kshiftlw $15, %k0, %k0			; AVX512-NEXT: kshiftlw $2, %k3, %k3
	; AVX512-NEXT: kshiftrw $14, %k0, %k0			; AVX512-NEXT: korw %k3, %k2, %k2
	; AVX512-NEXT: kxorw %k0, %k2, %k2			; AVX512-NEXT: korw %k2, %k1, %k1
	; AVX512-NEXT: kshiftrw $2, %k2, %k3
	; AVX512-NEXT: kxorw %k1, %k3, %k1
	; AVX512-NEXT: kshiftlw $2, %k1, %k1
	; AVX512-NEXT: kxorw %k1, %k2, %k1
	; AVX512-NEXT: kshiftlw $13, %k1, %k1			; AVX512-NEXT: kshiftlw $13, %k1, %k1
	; AVX512-NEXT: kshiftrw $13, %k1, %k1			; AVX512-NEXT: kshiftrw $13, %k1, %k1
	; AVX512-NEXT: movl %r9d, %eax			; AVX512-NEXT: movl %r10d, %eax
	; AVX512-NEXT: imulb %r10b			; AVX512-NEXT: imulb %r9b
	; AVX512-NEXT: # kill: def $al killed $al def $eax			; AVX512-NEXT: # kill: def $al killed $al def $eax
	; AVX512-NEXT: seto %cl			; AVX512-NEXT: seto %cl
	; AVX512-NEXT: movl %eax, %edx			; AVX512-NEXT: movl %eax, %ebx
	; AVX512-NEXT: andb $1, %dl			; AVX512-NEXT: andb $1, %bl
	; AVX512-NEXT: negb %dl			; AVX512-NEXT: negb %bl
	; AVX512-NEXT: cmpb %al, %dl			; AVX512-NEXT: cmpb %al, %bl
	; AVX512-NEXT: setne %dl			; AVX512-NEXT: setne %bl
	; AVX512-NEXT: orb %cl, %dl			; AVX512-NEXT: orb %cl, %bl
	; AVX512-NEXT: setne %cl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: kmovd %ecx, %k2			; AVX512-NEXT: kmovd %ecx, %k2
	; AVX512-NEXT: kshiftlw $3, %k2, %k2			; AVX512-NEXT: kshiftlw $3, %k2, %k2
	; AVX512-NEXT: korw %k2, %k1, %k1			; AVX512-NEXT: korw %k2, %k1, %k1
	; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}			; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}
	; AVX512-NEXT: kmovd %r8d, %k1			; AVX512-NEXT: kmovd %r8d, %k1
	; AVX512-NEXT: kmovd %esi, %k2
	; AVX512-NEXT: kxorw %k0, %k2, %k0
	; AVX512-NEXT: kshiftrw $2, %k0, %k2
	; AVX512-NEXT: kxorw %k1, %k2, %k1
	; AVX512-NEXT: kshiftlw $15, %k1, %k1			; AVX512-NEXT: kshiftlw $15, %k1, %k1
	; AVX512-NEXT: kshiftrw $13, %k1, %k1			; AVX512-NEXT: kshiftrw $15, %k1, %k1
	; AVX512-NEXT: kxorw %k1, %k0, %k0			; AVX512-NEXT: kmovd %edx, %k2
				; AVX512-NEXT: kshiftlw $15, %k2, %k2
				; AVX512-NEXT: kshiftrw $14, %k2, %k2
				; AVX512-NEXT: korw %k2, %k0, %k0
				; AVX512-NEXT: korw %k0, %k1, %k0
	; AVX512-NEXT: kshiftrw $3, %k0, %k1			; AVX512-NEXT: kshiftrw $3, %k0, %k1
	; AVX512-NEXT: kmovd %eax, %k2			; AVX512-NEXT: kshiftlw $3, %k1, %k1
	; AVX512-NEXT: kxorw %k2, %k1, %k1			; AVX512-NEXT: kshiftlw $14, %k0, %k0
				; AVX512-NEXT: kshiftrw $14, %k0, %k0
				; AVX512-NEXT: kmovd %esi, %k2
				; AVX512-NEXT: kshiftlw $15, %k2, %k2
				; AVX512-NEXT: kshiftrw $13, %k2, %k2
				; AVX512-NEXT: korw %k2, %k1, %k1
				; AVX512-NEXT: korw %k1, %k0, %k0
				; AVX512-NEXT: kshiftrw $4, %k0, %k1
				; AVX512-NEXT: kshiftlw $4, %k1, %k1
				; AVX512-NEXT: kshiftlw $13, %k0, %k0
				; AVX512-NEXT: kshiftrw $13, %k0, %k0
				; AVX512-NEXT: korw %k1, %k0, %k0
				; AVX512-NEXT: kmovd %eax, %k1
	; AVX512-NEXT: kshiftlw $15, %k1, %k1			; AVX512-NEXT: kshiftlw $15, %k1, %k1
	; AVX512-NEXT: kshiftrw $12, %k1, %k1			; AVX512-NEXT: kshiftrw $12, %k1, %k1
	; AVX512-NEXT: kxorw %k1, %k0, %k0			; AVX512-NEXT: korw %k0, %k1, %k0
	; AVX512-NEXT: kmovd %k0, %eax			; AVX512-NEXT: kmovd %k0, %eax
	; AVX512-NEXT: movb %al, (%rdi)			; AVX512-NEXT: movb %al, (%rdi)
				; AVX512-NEXT: popq %rbx
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t = call {<4 x i1>, <4 x i1>} @llvm.smul.with.overflow.v4i1(<4 x i1> %a0, <4 x i1> %a1)			%t = call {<4 x i1>, <4 x i1>} @llvm.smul.with.overflow.v4i1(<4 x i1> %a0, <4 x i1> %a1)
	%val = extractvalue {<4 x i1>, <4 x i1>} %t, 0			%val = extractvalue {<4 x i1>, <4 x i1>} %t, 0
	%obit = extractvalue {<4 x i1>, <4 x i1>} %t, 1			%obit = extractvalue {<4 x i1>, <4 x i1>} %t, 1
	%res = sext <4 x i1> %obit to <4 x i32>			%res = sext <4 x i1> %obit to <4 x i32>
	store <4 x i1> %val, <4 x i1>* %p2			store <4 x i1> %val, <4 x i1>* %p2
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}
	▲ Show 20 Lines • Show All 302 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vec_umulo.ll

	Show First 20 Lines • Show All 1,526 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vmovq %rsi, %xmm2			; AVX2-NEXT: vmovq %rsi, %xmm2
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm2[0],xmm0[0]
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; AVX2-NEXT: vmovdqa %xmm1, (%rdi)			; AVX2-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: umulo_v2i64:			; AVX512-LABEL: umulo_v2i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vmovq %xmm0, %rcx			; AVX512-NEXT: vpextrq $1, %xmm0, %rcx
	; AVX512-NEXT: vmovq %xmm1, %rsi			; AVX512-NEXT: vpextrq $1, %xmm1, %r8
	; AVX512-NEXT: vpextrq $1, %xmm0, %rax			; AVX512-NEXT: vmovq %xmm0, %rax
	; AVX512-NEXT: vpextrq $1, %xmm1, %rdx			; AVX512-NEXT: vmovq %xmm1, %rdx
	; AVX512-NEXT: mulq %rdx			; AVX512-NEXT: mulq %rdx
	; AVX512-NEXT: vmovq %rax, %xmm0			; AVX512-NEXT: movq %rax, %rsi
				; AVX512-NEXT: seto %r9b
	; AVX512-NEXT: movq %rcx, %rax			; AVX512-NEXT: movq %rcx, %rax
	; AVX512-NEXT: mulq %rsi			; AVX512-NEXT: mulq %r8
	; AVX512-NEXT: vmovq %rax, %xmm1			; AVX512-NEXT: vmovq %rax, %xmm0
				; AVX512-NEXT: vmovq %rsi, %xmm1
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: kmovd %eax, %k0			; AVX512-NEXT: kmovd %eax, %k0
	; AVX512-NEXT: kshiftlw $15, %k0, %k1			; AVX512-NEXT: kshiftlw $15, %k0, %k0
	; AVX512-NEXT: kshiftrw $14, %k1, %k1			; AVX512-NEXT: kshiftrw $14, %k0, %k0
	; AVX512-NEXT: kxorw %k1, %k0, %k1			; AVX512-NEXT: kmovd %r9d, %k1
				; AVX512-NEXT: kshiftlw $15, %k1, %k1
				; AVX512-NEXT: kshiftrw $15, %k1, %k1
				; AVX512-NEXT: kshiftlw $2, %k0, %k2
				; AVX512-NEXT: korw %k2, %k1, %k1
				; AVX512-NEXT: korw %k1, %k0, %k1
	; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}			; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}
	; AVX512-NEXT: vmovdqa %xmm1, (%rdi)			; AVX512-NEXT: vmovdqa %xmm1, (%rdi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t = call {<2 x i64>, <2 x i1>} @llvm.umul.with.overflow.v2i64(<2 x i64> %a0, <2 x i64> %a1)			%t = call {<2 x i64>, <2 x i1>} @llvm.umul.with.overflow.v2i64(<2 x i64> %a0, <2 x i64> %a1)
	%val = extractvalue {<2 x i64>, <2 x i1>} %t, 0			%val = extractvalue {<2 x i64>, <2 x i1>} %t, 0
	%obit = extractvalue {<2 x i64>, <2 x i1>} %t, 1			%obit = extractvalue {<2 x i64>, <2 x i1>} %t, 1
	%res = sext <2 x i1> %obit to <2 x i32>			%res = sext <2 x i1> %obit to <2 x i32>
	▲ Show 20 Lines • Show All 382 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpor %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpslld $31, %xmm1, %xmm1			; AVX2-NEXT: vpslld $31, %xmm1, %xmm1
	; AVX2-NEXT: vmovmskps %xmm1, %eax			; AVX2-NEXT: vmovmskps %xmm1, %eax
	; AVX2-NEXT: movb %al, (%rdi)			; AVX2-NEXT: movb %al, (%rdi)
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: umulo_v4i1:			; AVX512-LABEL: umulo_v4i1:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
				; AVX512-NEXT: pushq %rbx
	; AVX512-NEXT: vpslld $31, %xmm0, %xmm0			; AVX512-NEXT: vpslld $31, %xmm0, %xmm0
	; AVX512-NEXT: vptestmd %xmm0, %xmm0, %k0			; AVX512-NEXT: vptestmd %xmm0, %xmm0, %k0
	; AVX512-NEXT: kshiftrw $3, %k0, %k1			; AVX512-NEXT: kshiftrw $3, %k0, %k1
	; AVX512-NEXT: kmovd %k1, %r9d			; AVX512-NEXT: kmovd %k1, %r9d
	; AVX512-NEXT: andb $1, %r9b			; AVX512-NEXT: andb $1, %r9b
	; AVX512-NEXT: vpslld $31, %xmm1, %xmm0			; AVX512-NEXT: vpslld $31, %xmm1, %xmm0
	; AVX512-NEXT: vptestmd %xmm0, %xmm0, %k1			; AVX512-NEXT: vptestmd %xmm0, %xmm0, %k1
	; AVX512-NEXT: kshiftrw $3, %k1, %k2			; AVX512-NEXT: kshiftrw $3, %k1, %k2
	; AVX512-NEXT: kmovd %k2, %r10d			; AVX512-NEXT: kmovd %k2, %r10d
	; AVX512-NEXT: andb $1, %r10b			; AVX512-NEXT: andb $1, %r10b
	; AVX512-NEXT: kshiftrw $2, %k0, %k2			; AVX512-NEXT: kshiftrw $2, %k0, %k2
	; AVX512-NEXT: kmovd %k0, %esi			; AVX512-NEXT: kmovd %k2, %r11d
				; AVX512-NEXT: andb $1, %r11b
				; AVX512-NEXT: kshiftrw $2, %k1, %k2
				; AVX512-NEXT: kmovd %k2, %ebx
				; AVX512-NEXT: andb $1, %bl
				; AVX512-NEXT: kshiftrw $1, %k0, %k2
				; AVX512-NEXT: kmovd %k2, %edx
				; AVX512-NEXT: andb $1, %dl
				; AVX512-NEXT: kshiftrw $1, %k1, %k2
				; AVX512-NEXT: kmovd %k2, %esi
	; AVX512-NEXT: andb $1, %sil			; AVX512-NEXT: andb $1, %sil
	; AVX512-NEXT: kshiftrw $2, %k1, %k0			; AVX512-NEXT: kmovd %k0, %eax
				; AVX512-NEXT: andb $1, %al
	; AVX512-NEXT: kmovd %k1, %ecx			; AVX512-NEXT: kmovd %k1, %ecx
	; AVX512-NEXT: andb $1, %cl			; AVX512-NEXT: andb $1, %cl
	; AVX512-NEXT: kmovd %k2, %eax
	; AVX512-NEXT: andb $1, %al
	; AVX512-NEXT: kmovd %k0, %edx
	; AVX512-NEXT: andb $1, %dl
	; AVX512-NEXT: # kill: def $al killed $al killed $eax			; AVX512-NEXT: # kill: def $al killed $al killed $eax
	; AVX512-NEXT: mulb %dl			; AVX512-NEXT: mulb %cl
	; AVX512-NEXT: movl %eax, %r8d			; AVX512-NEXT: movl %eax, %r8d
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: testb $-2, %r8b			; AVX512-NEXT: testb $-2, %r8b
	; AVX512-NEXT: setne %dl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: orb %al, %dl			; AVX512-NEXT: orb %al, %cl
	; AVX512-NEXT: setne %al			; AVX512-NEXT: setne %al
	; AVX512-NEXT: kmovd %eax, %k1			; AVX512-NEXT: kmovd %eax, %k0
	; AVX512-NEXT: movl %esi, %eax			; AVX512-NEXT: kshiftlw $15, %k0, %k0
	; AVX512-NEXT: mulb %cl			; AVX512-NEXT: kshiftrw $15, %k0, %k1
				; AVX512-NEXT: kshiftlw $2, %k0, %k0
				; AVX512-NEXT: movl %edx, %eax
				; AVX512-NEXT: mulb %sil
				; AVX512-NEXT: movl %eax, %edx
				; AVX512-NEXT: seto %al
				; AVX512-NEXT: testb $-2, %dl
				; AVX512-NEXT: setne %cl
				; AVX512-NEXT: orb %al, %cl
				; AVX512-NEXT: setne %al
				; AVX512-NEXT: kmovd %eax, %k2
				; AVX512-NEXT: kshiftlw $1, %k2, %k2
				; AVX512-NEXT: korw %k2, %k0, %k2
				; AVX512-NEXT: korw %k2, %k1, %k1
				; AVX512-NEXT: kshiftlw $14, %k1, %k1
				; AVX512-NEXT: kshiftrw $14, %k1, %k1
				; AVX512-NEXT: kshiftlw $3, %k0, %k2
				; AVX512-NEXT: movl %r11d, %eax
				; AVX512-NEXT: mulb %bl
	; AVX512-NEXT: movl %eax, %esi			; AVX512-NEXT: movl %eax, %esi
	; AVX512-NEXT: seto %al			; AVX512-NEXT: seto %al
	; AVX512-NEXT: testb $-2, %sil			; AVX512-NEXT: testb $-2, %sil
	; AVX512-NEXT: setne %cl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: orb %al, %cl			; AVX512-NEXT: orb %al, %cl
	; AVX512-NEXT: setne %al			; AVX512-NEXT: setne %al
	; AVX512-NEXT: kmovd %eax, %k2			; AVX512-NEXT: kmovd %eax, %k3
	; AVX512-NEXT: kshiftlw $15, %k0, %k0			; AVX512-NEXT: kshiftlw $2, %k3, %k3
	; AVX512-NEXT: kshiftrw $14, %k0, %k0			; AVX512-NEXT: korw %k3, %k2, %k2
	; AVX512-NEXT: kxorw %k0, %k2, %k2			; AVX512-NEXT: korw %k2, %k1, %k1
	; AVX512-NEXT: kshiftrw $2, %k2, %k3
	; AVX512-NEXT: kxorw %k1, %k3, %k1
	; AVX512-NEXT: kshiftlw $2, %k1, %k1
	; AVX512-NEXT: kxorw %k1, %k2, %k1
	; AVX512-NEXT: kshiftlw $13, %k1, %k1			; AVX512-NEXT: kshiftlw $13, %k1, %k1
	; AVX512-NEXT: kshiftrw $13, %k1, %k1			; AVX512-NEXT: kshiftrw $13, %k1, %k1
	; AVX512-NEXT: movl %r9d, %eax			; AVX512-NEXT: movl %r9d, %eax
	; AVX512-NEXT: mulb %r10b			; AVX512-NEXT: mulb %r10b
	; AVX512-NEXT: # kill: def $al killed $al def $eax			; AVX512-NEXT: # kill: def $al killed $al def $eax
	; AVX512-NEXT: seto %cl			; AVX512-NEXT: seto %cl
	; AVX512-NEXT: testb $-2, %al			; AVX512-NEXT: testb $-2, %al
	; AVX512-NEXT: setne %dl			; AVX512-NEXT: setne %bl
	; AVX512-NEXT: orb %cl, %dl			; AVX512-NEXT: orb %cl, %bl
	; AVX512-NEXT: setne %cl			; AVX512-NEXT: setne %cl
	; AVX512-NEXT: kmovd %ecx, %k2			; AVX512-NEXT: kmovd %ecx, %k2
	; AVX512-NEXT: kshiftlw $3, %k2, %k2			; AVX512-NEXT: kshiftlw $3, %k2, %k2
	; AVX512-NEXT: korw %k2, %k1, %k1			; AVX512-NEXT: korw %k2, %k1, %k1
	; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0			; AVX512-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}			; AVX512-NEXT: vmovdqa32 %xmm0, %xmm0 {%k1} {z}
	; AVX512-NEXT: kmovd %r8d, %k1			; AVX512-NEXT: kmovd %r8d, %k1
	; AVX512-NEXT: kmovd %esi, %k2
	; AVX512-NEXT: kxorw %k0, %k2, %k0
	; AVX512-NEXT: kshiftrw $2, %k0, %k2
	; AVX512-NEXT: kxorw %k1, %k2, %k1
	; AVX512-NEXT: kshiftlw $15, %k1, %k1			; AVX512-NEXT: kshiftlw $15, %k1, %k1
	; AVX512-NEXT: kshiftrw $13, %k1, %k1			; AVX512-NEXT: kshiftrw $15, %k1, %k1
	; AVX512-NEXT: kxorw %k1, %k0, %k0			; AVX512-NEXT: kmovd %edx, %k2
				; AVX512-NEXT: kshiftlw $15, %k2, %k2
				; AVX512-NEXT: kshiftrw $14, %k2, %k2
				; AVX512-NEXT: korw %k2, %k0, %k0
				; AVX512-NEXT: korw %k0, %k1, %k0
	; AVX512-NEXT: kshiftrw $3, %k0, %k1			; AVX512-NEXT: kshiftrw $3, %k0, %k1
	; AVX512-NEXT: kmovd %eax, %k2			; AVX512-NEXT: kshiftlw $3, %k1, %k1
	; AVX512-NEXT: kxorw %k2, %k1, %k1			; AVX512-NEXT: kshiftlw $14, %k0, %k0
				; AVX512-NEXT: kshiftrw $14, %k0, %k0
				; AVX512-NEXT: kmovd %esi, %k2
				; AVX512-NEXT: kshiftlw $15, %k2, %k2
				; AVX512-NEXT: kshiftrw $13, %k2, %k2
				; AVX512-NEXT: korw %k2, %k1, %k1
				; AVX512-NEXT: korw %k1, %k0, %k0
				; AVX512-NEXT: kshiftrw $4, %k0, %k1
				; AVX512-NEXT: kshiftlw $4, %k1, %k1
				; AVX512-NEXT: kshiftlw $13, %k0, %k0
				; AVX512-NEXT: kshiftrw $13, %k0, %k0
				; AVX512-NEXT: korw %k1, %k0, %k0
				; AVX512-NEXT: kmovd %eax, %k1
	; AVX512-NEXT: kshiftlw $15, %k1, %k1			; AVX512-NEXT: kshiftlw $15, %k1, %k1
	; AVX512-NEXT: kshiftrw $12, %k1, %k1			; AVX512-NEXT: kshiftrw $12, %k1, %k1
	; AVX512-NEXT: kxorw %k1, %k0, %k0			; AVX512-NEXT: korw %k0, %k1, %k0
	; AVX512-NEXT: kmovd %k0, %eax			; AVX512-NEXT: kmovd %k0, %eax
	; AVX512-NEXT: movb %al, (%rdi)			; AVX512-NEXT: movb %al, (%rdi)
				; AVX512-NEXT: popq %rbx
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%t = call {<4 x i1>, <4 x i1>} @llvm.umul.with.overflow.v4i1(<4 x i1> %a0, <4 x i1> %a1)			%t = call {<4 x i1>, <4 x i1>} @llvm.umul.with.overflow.v4i1(<4 x i1> %a0, <4 x i1> %a1)
	%val = extractvalue {<4 x i1>, <4 x i1>} %t, 0			%val = extractvalue {<4 x i1>, <4 x i1>} %t, 0
	%obit = extractvalue {<4 x i1>, <4 x i1>} %t, 1			%obit = extractvalue {<4 x i1>, <4 x i1>} %t, 1
	%res = sext <4 x i1> %obit to <4 x i32>			%res = sext <4 x i1> %obit to <4 x i32>
	store <4 x i1> %val, <4 x i1>* %p2			store <4 x i1> %val, <4 x i1>* %p2
	ret <4 x i32> %res			ret <4 x i32> %res
	}			}
	▲ Show 20 Lines • Show All 468 Lines • Show Last 20 Lines