This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Vectorize CTTZ + CTTZ_ZERO_UNDEF
ClosedPublic

Authored by RKSimon on Sep 5 2015, 7:33 AM.

Download Raw Diff

Details

Reviewers

qcolombet
chandlerc
delena
andreadb

Commits

rGd0448ee59fd5: [X86][SSE] Vectorize CTTZ + CTTZ_ZERO_UNDEF
rL248091: [X86][SSE] Vectorize CTTZ + CTTZ_ZERO_UNDEF

Summary

Now that we have fast vector CTPOP implementations we can use this to speed up vector CTTZ using the pattern (cttz(x) = ctpop((x & -x) - 1))

Additionally, for AVX512CD that provides lzcnt instructions we can use the pattern (cttz_undef(x) = (width - 1) - ctlz(x & -x))

Originally I was intending to implement this generically in the VectorLegalizer but hit the issue that the 2i64 implementations were vectorized and saw a large perf regression. I could still do this and provide a 'empty' custom implementation on X86 to force scalarization - not sure if its good practice though? It would have the benefit that we could remove the very similar implementation in the ARM target as well (Logan any comments?).

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon updated this revision to Diff 34110.Sep 5 2015, 7:33 AM

RKSimon retitled this revision from to [X86][SSE] Vectorize CTTZ + CTTZ_ZERO_UNDEF.

RKSimon updated this object.

RKSimon added reviewers: chandlerc, qcolombet, delena, andreadb.

RKSimon set the repository for this revision to rL LLVM.

RKSimon added subscribers: llvm-commits, logan.

Herald added a subscriber: aemerson. · View Herald TranscriptSep 5 2015, 7:33 AM

igorb added a subscriber: igorb.Sep 5 2015, 11:52 PM

RKSimon mentioned this in D11931: AVX512 : vplzcnt and vpconflict implemantation.Sep 6 2015, 4:13 AM

Hi Simon,

Originally I was intending to implement this generically in the VectorLegalizer but hit the issue that the 2i64 implementations were vectorized and saw a large perf regression.

Pushing that into generic code may make sense, we would need to be careful with the cost model though. I.e., AND and SUB may not be legal on the target.

Anyhow, LGTM.

Thanks,
-Quentin

lib/Target/X86/X86ISelLowering.cpp
17075	Wouldn’t hurt to write the pattern we build here: x & -x

qcolombet accepted this revision.Sep 16 2015, 4:51 PM

qcolombet edited edge metadata.

This revision is now accepted and ready to land.Sep 16 2015, 4:51 PM

Closed by commit rL248091: [X86][SSE] Vectorize CTTZ + CTTZ_ZERO_UNDEF (authored by RKSimon). · Explain WhySep 19 2015, 6:24 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

X86/

X86ISelLowering.cpp

61 lines

test/

CodeGen/

X86/

vector-tzcnt-128.ll

1986 lines

vector-tzcnt-256.ll

1352 lines

vector-tzcnt-512.ll

921 lines

Diff 34110

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 842 Lines • ▼ Show 20 Lines	if (!Subtarget->useSoftFloat() && Subtarget->hasSSE2()) {
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4i32, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4i32, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4f32, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4f32, Custom);

setOperationAction(ISD::CTPOP, MVT::v16i8, Custom);		setOperationAction(ISD::CTPOP, MVT::v16i8, Custom);
setOperationAction(ISD::CTPOP, MVT::v8i16, Custom);		setOperationAction(ISD::CTPOP, MVT::v8i16, Custom);
setOperationAction(ISD::CTPOP, MVT::v4i32, Custom);		setOperationAction(ISD::CTPOP, MVT::v4i32, Custom);
setOperationAction(ISD::CTPOP, MVT::v2i64, Custom);		setOperationAction(ISD::CTPOP, MVT::v2i64, Custom);

		setOperationAction(ISD::CTTZ, MVT::v16i8, Custom);
		setOperationAction(ISD::CTTZ, MVT::v8i16, Custom);
		setOperationAction(ISD::CTTZ, MVT::v4i32, Custom);
		// ISD::CTTZ v2i64 - scalarization is faster.
		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v16i8, Custom);
		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v8i16, Custom);
		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v4i32, Custom);
		// ISD::CTTZ_ZERO_UNDEF v2i64 - scalarization is faster.

// Custom lower build_vector, vector_shuffle, and extract_vector_elt.		// Custom lower build_vector, vector_shuffle, and extract_vector_elt.
for (int i = MVT::v16i8; i != MVT::v2i64; ++i) {		for (int i = MVT::v16i8; i != MVT::v2i64; ++i) {
MVT VT = (MVT::SimpleValueType)i;		MVT VT = (MVT::SimpleValueType)i;
// Do not attempt to custom lower non-power-of-2 vectors		// Do not attempt to custom lower non-power-of-2 vectors
if (!isPowerOf2_32(VT.getVectorNumElements()))		if (!isPowerOf2_32(VT.getVectorNumElements()))
continue;		continue;
// Do not attempt to custom lower non-128-bit vectors		// Do not attempt to custom lower non-128-bit vectors
if (!VT.is128BitVector())		if (!VT.is128BitVector())
▲ Show 20 Lines • Show All 264 Lines • ▼ Show 20 Lines	if (!Subtarget->useSoftFloat() && Subtarget->hasFp256()) {
setOperationAction(ISD::TRUNCATE, MVT::v8i16, Custom);		setOperationAction(ISD::TRUNCATE, MVT::v8i16, Custom);
setOperationAction(ISD::TRUNCATE, MVT::v4i32, Custom);		setOperationAction(ISD::TRUNCATE, MVT::v4i32, Custom);

setOperationAction(ISD::CTPOP, MVT::v32i8, Custom);		setOperationAction(ISD::CTPOP, MVT::v32i8, Custom);
setOperationAction(ISD::CTPOP, MVT::v16i16, Custom);		setOperationAction(ISD::CTPOP, MVT::v16i16, Custom);
setOperationAction(ISD::CTPOP, MVT::v8i32, Custom);		setOperationAction(ISD::CTPOP, MVT::v8i32, Custom);
setOperationAction(ISD::CTPOP, MVT::v4i64, Custom);		setOperationAction(ISD::CTPOP, MVT::v4i64, Custom);

		setOperationAction(ISD::CTTZ, MVT::v32i8, Custom);
		setOperationAction(ISD::CTTZ, MVT::v16i16, Custom);
		setOperationAction(ISD::CTTZ, MVT::v8i32, Custom);
		setOperationAction(ISD::CTTZ, MVT::v4i64, Custom);
		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v32i8, Custom);
		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v16i16, Custom);
		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v8i32, Custom);
		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v4i64, Custom);

if (Subtarget->hasFMA() \|\| Subtarget->hasFMA4() \|\| Subtarget->hasAVX512()) {		if (Subtarget->hasFMA() \|\| Subtarget->hasFMA4() \|\| Subtarget->hasAVX512()) {
setOperationAction(ISD::FMA, MVT::v8f32, Legal);		setOperationAction(ISD::FMA, MVT::v8f32, Legal);
setOperationAction(ISD::FMA, MVT::v4f64, Legal);		setOperationAction(ISD::FMA, MVT::v4f64, Legal);
setOperationAction(ISD::FMA, MVT::v4f32, Legal);		setOperationAction(ISD::FMA, MVT::v4f32, Legal);
setOperationAction(ISD::FMA, MVT::v2f64, Legal);		setOperationAction(ISD::FMA, MVT::v2f64, Legal);
setOperationAction(ISD::FMA, MVT::f32, Legal);		setOperationAction(ISD::FMA, MVT::f32, Legal);
setOperationAction(ISD::FMA, MVT::f64, Legal);		setOperationAction(ISD::FMA, MVT::f64, Legal);
}		}
▲ Show 20 Lines • Show All 354 Lines • ▼ Show 20 Lines	if (!Subtarget->useSoftFloat() && Subtarget->hasAVX512()) {
setOperationAction(ISD::OR, MVT::v16i32, Legal);		setOperationAction(ISD::OR, MVT::v16i32, Legal);
setOperationAction(ISD::XOR, MVT::v16i32, Legal);		setOperationAction(ISD::XOR, MVT::v16i32, Legal);

if (Subtarget->hasCDI()) {		if (Subtarget->hasCDI()) {
setOperationAction(ISD::CTLZ, MVT::v8i64, Legal);		setOperationAction(ISD::CTLZ, MVT::v8i64, Legal);
setOperationAction(ISD::CTLZ, MVT::v16i32, Legal);		setOperationAction(ISD::CTLZ, MVT::v16i32, Legal);
setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v8i64, Legal);		setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v8i64, Legal);
setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v16i32, Legal);		setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v16i32, Legal);

		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v8i64, Custom);
		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v16i32, Custom);
}		}
if (Subtarget->hasVLX() && Subtarget->hasCDI()) {		if (Subtarget->hasVLX() && Subtarget->hasCDI()) {
setOperationAction(ISD::CTLZ, MVT::v4i64, Legal);		setOperationAction(ISD::CTLZ, MVT::v4i64, Legal);
setOperationAction(ISD::CTLZ, MVT::v8i32, Legal);		setOperationAction(ISD::CTLZ, MVT::v8i32, Legal);
setOperationAction(ISD::CTLZ, MVT::v2i64, Legal);		setOperationAction(ISD::CTLZ, MVT::v2i64, Legal);
setOperationAction(ISD::CTLZ, MVT::v4i32, Legal);		setOperationAction(ISD::CTLZ, MVT::v4i32, Legal);
setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v4i64, Legal);		setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v4i64, Legal);
setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v8i32, Legal);		setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v8i32, Legal);
setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v2i64, Legal);		setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v2i64, Legal);
setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v4i32, Legal);		setOperationAction(ISD::CTLZ_ZERO_UNDEF, MVT::v4i32, Legal);

		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v4i64, Custom);
		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v8i32, Custom);
		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v2i64, Custom);
		setOperationAction(ISD::CTTZ_ZERO_UNDEF, MVT::v4i32, Custom);
}		}
if (Subtarget->hasDQI()) {		if (Subtarget->hasDQI()) {
setOperationAction(ISD::MUL, MVT::v2i64, Legal);		setOperationAction(ISD::MUL, MVT::v2i64, Legal);
setOperationAction(ISD::MUL, MVT::v4i64, Legal);		setOperationAction(ISD::MUL, MVT::v4i64, Legal);
setOperationAction(ISD::MUL, MVT::v8i64, Legal);		setOperationAction(ISD::MUL, MVT::v8i64, Legal);
}		}
// Custom lower several nodes.		// Custom lower several nodes.
for (MVT VT : MVT::vector_valuetypes()) {		for (MVT VT : MVT::vector_valuetypes()) {
▲ Show 20 Lines • Show All 9,792 Lines • ▼ Show 20 Lines	if ((IdxVal == OpVT.getVectorNumElements() / 2) &&
Vec.getOpcode() == ISD::INSERT_SUBVECTOR &&		Vec.getOpcode() == ISD::INSERT_SUBVECTOR &&
OpVT.is256BitVector() && SubVecVT.is128BitVector()) {		OpVT.is256BitVector() && SubVecVT.is128BitVector()) {
auto *Idx2 = dyn_cast<ConstantSDNode>(Vec.getOperand(2));		auto *Idx2 = dyn_cast<ConstantSDNode>(Vec.getOperand(2));
if (Idx2 && Idx2->getZExtValue() == 0) {		if (Idx2 && Idx2->getZExtValue() == 0) {
SDValue SubVec2 = Vec.getOperand(1);		SDValue SubVec2 = Vec.getOperand(1);
// If needed, look through a bitcast to get to the load.		// If needed, look through a bitcast to get to the load.
if (SubVec2.getNode() && SubVec2.getOpcode() == ISD::BITCAST)		if (SubVec2.getNode() && SubVec2.getOpcode() == ISD::BITCAST)
SubVec2 = SubVec2.getOperand(0);		SubVec2 = SubVec2.getOperand(0);

if (auto *FirstLd = dyn_cast<LoadSDNode>(SubVec2)) {		if (auto *FirstLd = dyn_cast<LoadSDNode>(SubVec2)) {
bool Fast;		bool Fast;
unsigned Alignment = FirstLd->getAlignment();		unsigned Alignment = FirstLd->getAlignment();
unsigned AS = FirstLd->getAddressSpace();		unsigned AS = FirstLd->getAddressSpace();
const X86TargetLowering *TLI = Subtarget->getTargetLowering();		const X86TargetLowering *TLI = Subtarget->getTargetLowering();
if (TLI->allowsMemoryAccess(*DAG.getContext(), DAG.getDataLayout(),		if (TLI->allowsMemoryAccess(*DAG.getContext(), DAG.getDataLayout(),
OpVT, AS, Alignment, &Fast) && Fast) {		OpVT, AS, Alignment, &Fast) && Fast) {
SDValue Ops[] = { SubVec2, SubVec };		SDValue Ops[] = { SubVec2, SubVec };
▲ Show 20 Lines • Show All 5,704 Lines • ▼ Show 20 Lines	static SDValue LowerCTLZ_ZERO_UNDEF(SDValue Op, SelectionDAG &DAG) {

if (VT == MVT::i8)		if (VT == MVT::i8)
Op = DAG.getNode(ISD::TRUNCATE, dl, MVT::i8, Op);		Op = DAG.getNode(ISD::TRUNCATE, dl, MVT::i8, Op);
return Op;		return Op;
}		}

static SDValue LowerCTTZ(SDValue Op, SelectionDAG &DAG) {		static SDValue LowerCTTZ(SDValue Op, SelectionDAG &DAG) {
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
unsigned NumBits = VT.getSizeInBits();		unsigned NumBits = VT.getScalarSizeInBits();
SDLoc dl(Op);		SDLoc dl(Op);
Op = Op.getOperand(0);
		if (VT.isVector()) {
		const TargetLowering &TLI = DAG.getTargetLoweringInfo();

		SDValue N0 = Op.getOperand(0);
		SDValue Zero = DAG.getConstant(0, dl, VT);
		SDValue LSB = DAG.getNode(ISD::AND, dl, VT, N0,
		DAG.getNode(ISD::SUB, dl, VT, Zero, N0));
		qcolombetUnsubmitted Not Done Reply Inline Actions Wouldn’t hurt to write the pattern we build here: x & -x qcolombet: Wouldn’t hurt to write the pattern we build here: x & -x

		// cttz_undef(x) = (width - 1) - ctlz(lsb)
		if (Op.getOpcode() == ISD::CTTZ_ZERO_UNDEF &&
		TLI.isOperationLegal(ISD::CTLZ, VT)) {
		SDValue WidthMinusOne = DAG.getConstant(NumBits - 1, dl, VT);
		return DAG.getNode(ISD::SUB, dl, VT, WidthMinusOne,
		DAG.getNode(ISD::CTLZ, dl, VT, LSB));
		}

		// cttz(x) = ctpop(lsb - 1)
		SDValue One = DAG.getConstant(1, dl, VT);
		return DAG.getNode(ISD::CTPOP, dl, VT,
		DAG.getNode(ISD::SUB, dl, VT, LSB, One));
		}

		assert(Op.getOpcode() == ISD::CTTZ &&
		"Only scalar CTTZ requires custom lowering");

// Issue a bsf (scan bits forward) which also sets EFLAGS.		// Issue a bsf (scan bits forward) which also sets EFLAGS.
SDVTList VTs = DAG.getVTList(VT, MVT::i32);		SDVTList VTs = DAG.getVTList(VT, MVT::i32);
Op = DAG.getNode(X86ISD::BSF, dl, VTs, Op);		Op = DAG.getNode(X86ISD::BSF, dl, VTs, Op.getOperand(0));

// If src is zero (i.e. bsf sets ZF), returns NumBits.		// If src is zero (i.e. bsf sets ZF), returns NumBits.
SDValue Ops[] = {		SDValue Ops[] = {
Op,		Op,
DAG.getConstant(NumBits, dl, VT),		DAG.getConstant(NumBits, dl, VT),
DAG.getConstant(X86::COND_E, dl, MVT::i8),		DAG.getConstant(X86::COND_E, dl, MVT::i8),
Op.getValue(1)		Op.getValue(1)
};		};
▲ Show 20 Lines • Show All 1,922 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerOperation(SDValue Op, SelectionDAG &DAG) const {
case ISD::CATCHRET: return LowerCATCHRET(Op, DAG);		case ISD::CATCHRET: return LowerCATCHRET(Op, DAG);
case ISD::EH_SJLJ_SETJMP: return lowerEH_SJLJ_SETJMP(Op, DAG);		case ISD::EH_SJLJ_SETJMP: return lowerEH_SJLJ_SETJMP(Op, DAG);
case ISD::EH_SJLJ_LONGJMP: return lowerEH_SJLJ_LONGJMP(Op, DAG);		case ISD::EH_SJLJ_LONGJMP: return lowerEH_SJLJ_LONGJMP(Op, DAG);
case ISD::INIT_TRAMPOLINE: return LowerINIT_TRAMPOLINE(Op, DAG);		case ISD::INIT_TRAMPOLINE: return LowerINIT_TRAMPOLINE(Op, DAG);
case ISD::ADJUST_TRAMPOLINE: return LowerADJUST_TRAMPOLINE(Op, DAG);		case ISD::ADJUST_TRAMPOLINE: return LowerADJUST_TRAMPOLINE(Op, DAG);
case ISD::FLT_ROUNDS_: return LowerFLT_ROUNDS_(Op, DAG);		case ISD::FLT_ROUNDS_: return LowerFLT_ROUNDS_(Op, DAG);
case ISD::CTLZ: return LowerCTLZ(Op, DAG);		case ISD::CTLZ: return LowerCTLZ(Op, DAG);
case ISD::CTLZ_ZERO_UNDEF: return LowerCTLZ_ZERO_UNDEF(Op, DAG);		case ISD::CTLZ_ZERO_UNDEF: return LowerCTLZ_ZERO_UNDEF(Op, DAG);
case ISD::CTTZ: return LowerCTTZ(Op, DAG);		case ISD::CTTZ:
		case ISD::CTTZ_ZERO_UNDEF: return LowerCTTZ(Op, DAG);
case ISD::MUL: return LowerMUL(Op, Subtarget, DAG);		case ISD::MUL: return LowerMUL(Op, Subtarget, DAG);
case ISD::UMUL_LOHI:		case ISD::UMUL_LOHI:
case ISD::SMUL_LOHI: return LowerMUL_LOHI(Op, Subtarget, DAG);		case ISD::SMUL_LOHI: return LowerMUL_LOHI(Op, Subtarget, DAG);
case ISD::SRA:		case ISD::SRA:
case ISD::SRL:		case ISD::SRL:
case ISD::SHL: return LowerShift(Op, Subtarget, DAG);		case ISD::SHL: return LowerShift(Op, Subtarget, DAG);
case ISD::SADDO:		case ISD::SADDO:
case ISD::UADDO:		case ISD::UADDO:
▲ Show 20 Lines • Show All 7,699 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-tzcnt-128.ll

	Show First 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%out = call <2 x i64> @llvm.cttz.v2i64(<2 x i64> %in, i1 -1)			%out = call <2 x i64> @llvm.cttz.v2i64(<2 x i64> %in, i1 -1)
	ret <2 x i64> %out			ret <2 x i64> %out
	}			}

	define <4 x i32> @testv4i32(<4 x i32> %in) nounwind {			define <4 x i32> @testv4i32(<4 x i32> %in) nounwind {
	; SSE2-LABEL: testv4i32:			; SSE2-LABEL: testv4i32:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]			; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax			; SSE2-NEXT: pxor %xmm2, %xmm2
	; SSE2-NEXT: bsfl %eax, %eax			; SSE2-NEXT: psubd %xmm0, %xmm2
	; SSE2-NEXT: movl $32, %ecx			; SSE2-NEXT: pand %xmm0, %xmm2
	; SSE2-NEXT: cmovel %ecx, %eax			; SSE2-NEXT: psubd {{.*}}(%rip), %xmm2
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; SSE2-NEXT: psrld $1, %xmm0
	; SSE2-NEXT: movd %xmm2, %eax			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: bsfl %eax, %eax			; SSE2-NEXT: psubd %xmm0, %xmm2
	; SSE2-NEXT: cmovel %ecx, %eax			; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [858993459,858993459,858993459,858993459]
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: movdqa %xmm2, %xmm3
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE2-NEXT: pand %xmm0, %xmm3
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: psrld $2, %xmm2
	; SSE2-NEXT: bsfl %eax, %eax			; SSE2-NEXT: pand %xmm0, %xmm2
	; SSE2-NEXT: cmovel %ecx, %eax			; SSE2-NEXT: paddd %xmm3, %xmm2
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSE2-NEXT: psrld $4, %xmm0
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: paddd %xmm2, %xmm0
	; SSE2-NEXT: bsfl %eax, %eax			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: cmovel %ecx, %eax			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: psadbw %xmm1, %xmm2
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: psadbw %xmm1, %xmm0
				; SSE2-NEXT: packuswb %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE3-LABEL: testv4i32:			; SSE3-LABEL: testv4i32:
	; SSE3: # BB#0:			; SSE3: # BB#0:
	; SSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]			; SSE3-NEXT: pxor %xmm1, %xmm1
	; SSE3-NEXT: movd %xmm1, %eax			; SSE3-NEXT: pxor %xmm2, %xmm2
	; SSE3-NEXT: bsfl %eax, %eax			; SSE3-NEXT: psubd %xmm0, %xmm2
	; SSE3-NEXT: movl $32, %ecx			; SSE3-NEXT: pand %xmm0, %xmm2
	; SSE3-NEXT: cmovel %ecx, %eax			; SSE3-NEXT: psubd {{.*}}(%rip), %xmm2
	; SSE3-NEXT: movd %eax, %xmm1			; SSE3-NEXT: movdqa %xmm2, %xmm0
	; SSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; SSE3-NEXT: psrld $1, %xmm0
	; SSE3-NEXT: movd %xmm2, %eax			; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE3-NEXT: bsfl %eax, %eax			; SSE3-NEXT: psubd %xmm0, %xmm2
	; SSE3-NEXT: cmovel %ecx, %eax			; SSE3-NEXT: movdqa {{.*#+}} xmm0 = [858993459,858993459,858993459,858993459]
	; SSE3-NEXT: movd %eax, %xmm2			; SSE3-NEXT: movdqa %xmm2, %xmm3
	; SSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE3-NEXT: pand %xmm0, %xmm3
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: psrld $2, %xmm2
	; SSE3-NEXT: bsfl %eax, %eax			; SSE3-NEXT: pand %xmm0, %xmm2
	; SSE3-NEXT: cmovel %ecx, %eax			; SSE3-NEXT: paddd %xmm3, %xmm2
	; SSE3-NEXT: movd %eax, %xmm1			; SSE3-NEXT: movdqa %xmm2, %xmm0
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSE3-NEXT: psrld $4, %xmm0
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: paddd %xmm2, %xmm0
	; SSE3-NEXT: bsfl %eax, %eax			; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE3-NEXT: cmovel %ecx, %eax			; SSE3-NEXT: movdqa %xmm0, %xmm2
	; SSE3-NEXT: movd %eax, %xmm0			; SSE3-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE3-NEXT: psadbw %xmm1, %xmm2
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE3-NEXT: movdqa %xmm1, %xmm0			; SSE3-NEXT: psadbw %xmm1, %xmm0
				; SSE3-NEXT: packuswb %xmm2, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: testv4i32:			; SSSE3-LABEL: testv4i32:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]			; SSSE3-NEXT: pxor %xmm1, %xmm1
	; SSSE3-NEXT: movd %xmm1, %eax			; SSSE3-NEXT: pxor %xmm2, %xmm2
	; SSSE3-NEXT: bsfl %eax, %eax			; SSSE3-NEXT: psubd %xmm0, %xmm2
	; SSSE3-NEXT: movl $32, %ecx			; SSSE3-NEXT: pand %xmm0, %xmm2
	; SSSE3-NEXT: cmovel %ecx, %eax			; SSSE3-NEXT: psubd {{.*}}(%rip), %xmm2
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; SSSE3-NEXT: movdqa %xmm2, %xmm4
	; SSSE3-NEXT: movd %xmm2, %eax			; SSSE3-NEXT: pand %xmm3, %xmm4
	; SSSE3-NEXT: bsfl %eax, %eax			; SSSE3-NEXT: movdqa {{.*#+}} xmm0 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSSE3-NEXT: cmovel %ecx, %eax			; SSSE3-NEXT: movdqa %xmm0, %xmm5
	; SSSE3-NEXT: movd %eax, %xmm2			; SSSE3-NEXT: pshufb %xmm4, %xmm5
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSSE3-NEXT: psrlw $4, %xmm2
	; SSSE3-NEXT: movd %xmm0, %eax			; SSSE3-NEXT: pand %xmm3, %xmm2
	; SSSE3-NEXT: bsfl %eax, %eax			; SSSE3-NEXT: pshufb %xmm2, %xmm0
	; SSSE3-NEXT: cmovel %ecx, %eax			; SSSE3-NEXT: paddb %xmm5, %xmm0
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: movdqa %xmm0, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSSE3-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSSE3-NEXT: movd %xmm0, %eax			; SSSE3-NEXT: psadbw %xmm1, %xmm2
	; SSSE3-NEXT: bsfl %eax, %eax			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSSE3-NEXT: cmovel %ecx, %eax			; SSSE3-NEXT: psadbw %xmm1, %xmm0
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: packuswb %xmm2, %xmm0
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
	; SSSE3-NEXT: movdqa %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: testv4i32:			; SSE41-LABEL: testv4i32:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrd $1, %xmm0, %eax			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: bsfl %eax, %eax			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: movl $32, %ecx			; SSE41-NEXT: psubd %xmm0, %xmm2
	; SSE41-NEXT: cmovel %ecx, %eax			; SSE41-NEXT: pand %xmm0, %xmm2
	; SSE41-NEXT: movd %xmm0, %edx			; SSE41-NEXT: psubd {{.*}}(%rip), %xmm2
	; SSE41-NEXT: bsfl %edx, %edx			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSE41-NEXT: cmovel %ecx, %edx			; SSE41-NEXT: movdqa %xmm2, %xmm4
	; SSE41-NEXT: movd %edx, %xmm1			; SSE41-NEXT: pand %xmm3, %xmm4
	; SSE41-NEXT: pinsrd $1, %eax, %xmm1			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSE41-NEXT: pextrd $2, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm5
	; SSE41-NEXT: bsfl %eax, %eax			; SSE41-NEXT: pshufb %xmm4, %xmm5
	; SSE41-NEXT: cmovel %ecx, %eax			; SSE41-NEXT: psrlw $4, %xmm2
	; SSE41-NEXT: pinsrd $2, %eax, %xmm1			; SSE41-NEXT: pand %xmm3, %xmm2
	; SSE41-NEXT: pextrd $3, %xmm0, %eax			; SSE41-NEXT: pshufb %xmm2, %xmm0
	; SSE41-NEXT: bsfl %eax, %eax			; SSE41-NEXT: paddb %xmm5, %xmm0
	; SSE41-NEXT: cmovel %ecx, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: pinsrd $3, %eax, %xmm1			; SSE41-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: psadbw %xmm1, %xmm2
				; SSE41-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; SSE41-NEXT: psadbw %xmm1, %xmm0
				; SSE41-NEXT: packuswb %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: testv4i32:			; AVX1-LABEL: testv4i32:
	; AVX: # BB#0:			; AVX1: # BB#0:
	; AVX-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpsubd %xmm0, %xmm1, %xmm2
	; AVX-NEXT: movl $32, %ecx			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX-NEXT: cmovel %ecx, %eax			; AVX1-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vmovd %xmm0, %edx			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX-NEXT: bsfl %edx, %edx			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm3
	; AVX-NEXT: cmovel %ecx, %edx			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX-NEXT: vmovd %edx, %xmm1			; AVX1-NEXT: vpshufb %xmm3, %xmm4, %xmm3
	; AVX-NEXT: vpinsrd $1, %eax, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpshufb %xmm0, %xmm4, %xmm0
	; AVX-NEXT: cmovel %ecx, %eax			; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
	; AVX-NEXT: vpinsrd $2, %eax, %xmm1, %xmm1			; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm2 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX-NEXT: vpextrd $3, %xmm0, %eax			; AVX1-NEXT: vpsadbw %xmm2, %xmm1, %xmm2
	; AVX-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX-NEXT: cmovel %ecx, %eax			; AVX1-NEXT: vpsadbw %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vpinsrd $3, %eax, %xmm1, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: retq
				;
				; AVX2-LABEL: testv4i32:
				; AVX2: # BB#0:
				; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
				; AVX2-NEXT: vpsubd %xmm0, %xmm1, %xmm2
				; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm2
				; AVX2-NEXT: vpsubd %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
				; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm3
				; AVX2-NEXT: vmovdqa {{.*#+}} xmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
				; AVX2-NEXT: vpshufb %xmm3, %xmm4, %xmm3
				; AVX2-NEXT: vpsrlw $4, %xmm0, %xmm0
				; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: vpshufb %xmm0, %xmm4, %xmm0
				; AVX2-NEXT: vpaddb %xmm3, %xmm0, %xmm0
				; AVX2-NEXT: vpunpckhdq {{.*#+}} xmm2 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
				; AVX2-NEXT: vpsadbw %xmm2, %xmm1, %xmm2
				; AVX2-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; AVX2-NEXT: vpsadbw %xmm0, %xmm1, %xmm0
				; AVX2-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: retq
	%out = call <4 x i32> @llvm.cttz.v4i32(<4 x i32> %in, i1 0)			%out = call <4 x i32> @llvm.cttz.v4i32(<4 x i32> %in, i1 0)
	ret <4 x i32> %out			ret <4 x i32> %out
	}			}

	define <4 x i32> @testv4i32u(<4 x i32> %in) nounwind {			define <4 x i32> @testv4i32u(<4 x i32> %in) nounwind {
	; SSE2-LABEL: testv4i32u:			; SSE2-LABEL: testv4i32u:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]			; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: movd %xmm1, %eax			; SSE2-NEXT: pxor %xmm2, %xmm2
	; SSE2-NEXT: bsfl %eax, %eax			; SSE2-NEXT: psubd %xmm0, %xmm2
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: pand %xmm0, %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; SSE2-NEXT: psubd {{.*}}(%rip), %xmm2
	; SSE2-NEXT: movd %xmm2, %eax			; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE2-NEXT: bsfl %eax, %eax			; SSE2-NEXT: psrld $1, %xmm0
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE2-NEXT: psubd %xmm0, %xmm2
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [858993459,858993459,858993459,858993459]
	; SSE2-NEXT: bsfl %eax, %eax			; SSE2-NEXT: movdqa %xmm2, %xmm3
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: pand %xmm0, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSE2-NEXT: psrld $2, %xmm2
	; SSE2-NEXT: movd %xmm0, %eax			; SSE2-NEXT: pand %xmm0, %xmm2
	; SSE2-NEXT: bsfl %eax, %eax			; SSE2-NEXT: paddd %xmm3, %xmm2
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: psrld $4, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE2-NEXT: paddd %xmm2, %xmm0
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
				; SSE2-NEXT: movdqa %xmm0, %xmm2
				; SSE2-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
				; SSE2-NEXT: psadbw %xmm1, %xmm2
				; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; SSE2-NEXT: psadbw %xmm1, %xmm0
				; SSE2-NEXT: packuswb %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE3-LABEL: testv4i32u:			; SSE3-LABEL: testv4i32u:
	; SSE3: # BB#0:			; SSE3: # BB#0:
	; SSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]			; SSE3-NEXT: pxor %xmm1, %xmm1
	; SSE3-NEXT: movd %xmm1, %eax			; SSE3-NEXT: pxor %xmm2, %xmm2
	; SSE3-NEXT: bsfl %eax, %eax			; SSE3-NEXT: psubd %xmm0, %xmm2
	; SSE3-NEXT: movd %eax, %xmm1			; SSE3-NEXT: pand %xmm0, %xmm2
	; SSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; SSE3-NEXT: psubd {{.*}}(%rip), %xmm2
	; SSE3-NEXT: movd %xmm2, %eax			; SSE3-NEXT: movdqa %xmm2, %xmm0
	; SSE3-NEXT: bsfl %eax, %eax			; SSE3-NEXT: psrld $1, %xmm0
	; SSE3-NEXT: movd %eax, %xmm2			; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE3-NEXT: psubd %xmm0, %xmm2
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: movdqa {{.*#+}} xmm0 = [858993459,858993459,858993459,858993459]
	; SSE3-NEXT: bsfl %eax, %eax			; SSE3-NEXT: movdqa %xmm2, %xmm3
	; SSE3-NEXT: movd %eax, %xmm1			; SSE3-NEXT: pand %xmm0, %xmm3
	; SSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSE3-NEXT: psrld $2, %xmm2
	; SSE3-NEXT: movd %xmm0, %eax			; SSE3-NEXT: pand %xmm0, %xmm2
	; SSE3-NEXT: bsfl %eax, %eax			; SSE3-NEXT: paddd %xmm3, %xmm2
	; SSE3-NEXT: movd %eax, %xmm0			; SSE3-NEXT: movdqa %xmm2, %xmm0
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE3-NEXT: psrld $4, %xmm0
	; SSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSE3-NEXT: paddd %xmm2, %xmm0
	; SSE3-NEXT: movdqa %xmm1, %xmm0			; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
				; SSE3-NEXT: movdqa %xmm0, %xmm2
				; SSE3-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
				; SSE3-NEXT: psadbw %xmm1, %xmm2
				; SSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; SSE3-NEXT: psadbw %xmm1, %xmm0
				; SSE3-NEXT: packuswb %xmm2, %xmm0
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: testv4i32u:			; SSSE3-LABEL: testv4i32u:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]			; SSSE3-NEXT: pxor %xmm1, %xmm1
	; SSSE3-NEXT: movd %xmm1, %eax			; SSSE3-NEXT: pxor %xmm2, %xmm2
	; SSSE3-NEXT: bsfl %eax, %eax			; SSSE3-NEXT: psubd %xmm0, %xmm2
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: pand %xmm0, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,2,3]			; SSSE3-NEXT: psubd {{.*}}(%rip), %xmm2
	; SSSE3-NEXT: movd %xmm2, %eax			; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSSE3-NEXT: bsfl %eax, %eax			; SSSE3-NEXT: movdqa %xmm2, %xmm4
	; SSSE3-NEXT: movd %eax, %xmm2			; SSSE3-NEXT: pand %xmm3, %xmm4
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSSE3-NEXT: movdqa {{.*#+}} xmm0 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSSE3-NEXT: movd %xmm0, %eax			; SSSE3-NEXT: movdqa %xmm0, %xmm5
	; SSSE3-NEXT: bsfl %eax, %eax			; SSSE3-NEXT: pshufb %xmm4, %xmm5
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: psrlw $4, %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; SSSE3-NEXT: pand %xmm3, %xmm2
	; SSSE3-NEXT: movd %xmm0, %eax			; SSSE3-NEXT: pshufb %xmm2, %xmm0
	; SSSE3-NEXT: bsfl %eax, %eax			; SSSE3-NEXT: paddb %xmm5, %xmm0
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movdqa %xmm0, %xmm2
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSSE3-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]			; SSSE3-NEXT: psadbw %xmm1, %xmm2
	; SSSE3-NEXT: movdqa %xmm1, %xmm0			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; SSSE3-NEXT: psadbw %xmm1, %xmm0
				; SSSE3-NEXT: packuswb %xmm2, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: testv4i32u:			; SSE41-LABEL: testv4i32u:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrd $1, %xmm0, %eax			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: bsfl %eax, %eax			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: movd %xmm0, %ecx			; SSE41-NEXT: psubd %xmm0, %xmm2
	; SSE41-NEXT: bsfl %ecx, %ecx			; SSE41-NEXT: pand %xmm0, %xmm2
	; SSE41-NEXT: movd %ecx, %xmm1			; SSE41-NEXT: psubd {{.*}}(%rip), %xmm2
	; SSE41-NEXT: pinsrd $1, %eax, %xmm1			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSE41-NEXT: pextrd $2, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm2, %xmm4
	; SSE41-NEXT: bsfl %eax, %eax			; SSE41-NEXT: pand %xmm3, %xmm4
	; SSE41-NEXT: pinsrd $2, %eax, %xmm1			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSE41-NEXT: pextrd $3, %xmm0, %eax			; SSE41-NEXT: movdqa %xmm0, %xmm5
	; SSE41-NEXT: bsfl %eax, %eax			; SSE41-NEXT: pshufb %xmm4, %xmm5
	; SSE41-NEXT: pinsrd $3, %eax, %xmm1			; SSE41-NEXT: psrlw $4, %xmm2
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm2
				; SSE41-NEXT: pshufb %xmm2, %xmm0
				; SSE41-NEXT: paddb %xmm5, %xmm0
				; SSE41-NEXT: movdqa %xmm0, %xmm2
				; SSE41-NEXT: punpckhdq {{.*#+}} xmm2 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
				; SSE41-NEXT: psadbw %xmm1, %xmm2
				; SSE41-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; SSE41-NEXT: psadbw %xmm1, %xmm0
				; SSE41-NEXT: packuswb %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: testv4i32u:			; AVX1-LABEL: testv4i32u:
	; AVX: # BB#0:			; AVX1: # BB#0:
	; AVX-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpsubd %xmm0, %xmm1, %xmm2
	; AVX-NEXT: vmovd %xmm0, %ecx			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX-NEXT: bsfl %ecx, %ecx			; AVX1-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vmovd %ecx, %xmm1			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX-NEXT: vpinsrd $1, %eax, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm3
	; AVX-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpshufb %xmm3, %xmm4, %xmm3
	; AVX-NEXT: vpinsrd $2, %eax, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX-NEXT: vpextrd $3, %xmm0, %eax			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpshufb %xmm0, %xmm4, %xmm0
	; AVX-NEXT: vpinsrd $3, %eax, %xmm1, %xmm0			; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm2 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
				; AVX1-NEXT: vpsadbw %xmm2, %xmm1, %xmm2
				; AVX1-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; AVX1-NEXT: vpsadbw %xmm0, %xmm1, %xmm0
				; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
				; AVX1-NEXT: retq
				;
				; AVX2-LABEL: testv4i32u:
				; AVX2: # BB#0:
				; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
				; AVX2-NEXT: vpsubd %xmm0, %xmm1, %xmm2
				; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm2
				; AVX2-NEXT: vpsubd %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
				; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm3
				; AVX2-NEXT: vmovdqa {{.*#+}} xmm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
				; AVX2-NEXT: vpshufb %xmm3, %xmm4, %xmm3
				; AVX2-NEXT: vpsrlw $4, %xmm0, %xmm0
				; AVX2-NEXT: vpand %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: vpshufb %xmm0, %xmm4, %xmm0
				; AVX2-NEXT: vpaddb %xmm3, %xmm0, %xmm0
				; AVX2-NEXT: vpunpckhdq {{.*#+}} xmm2 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
				; AVX2-NEXT: vpsadbw %xmm2, %xmm1, %xmm2
				; AVX2-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; AVX2-NEXT: vpsadbw %xmm0, %xmm1, %xmm0
				; AVX2-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
				; AVX2-NEXT: retq
	%out = call <4 x i32> @llvm.cttz.v4i32(<4 x i32> %in, i1 -1)			%out = call <4 x i32> @llvm.cttz.v4i32(<4 x i32> %in, i1 -1)
	ret <4 x i32> %out			ret <4 x i32> %out
	}			}

	define <8 x i16> @testv8i16(<8 x i16> %in) nounwind {			define <8 x i16> @testv8i16(<8 x i16> %in) nounwind {
	; SSE2-LABEL: testv8i16:			; SSE2-LABEL: testv8i16:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pextrw $7, %xmm0, %eax			; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: bsfw %ax, %cx			; SSE2-NEXT: psubw %xmm0, %xmm1
	; SSE2-NEXT: movw $16, %ax			; SSE2-NEXT: pand %xmm0, %xmm1
	; SSE2-NEXT: cmovew %ax, %cx			; SSE2-NEXT: psubw {{.*}}(%rip), %xmm1
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: pextrw $3, %xmm0, %ecx			; SSE2-NEXT: psrlw $1, %xmm0
	; SSE2-NEXT: bsfw %cx, %cx			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: cmovew %ax, %cx			; SSE2-NEXT: psubw %xmm0, %xmm1
	; SSE2-NEXT: movd %ecx, %xmm2			; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [13107,13107,13107,13107,13107,13107,13107,13107]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: pextrw $5, %xmm0, %ecx			; SSE2-NEXT: pand %xmm0, %xmm2
	; SSE2-NEXT: bsfw %cx, %cx			; SSE2-NEXT: psrlw $2, %xmm1
	; SSE2-NEXT: cmovew %ax, %cx			; SSE2-NEXT: pand %xmm0, %xmm1
	; SSE2-NEXT: movd %ecx, %xmm3			; SSE2-NEXT: paddw %xmm2, %xmm1
	; SSE2-NEXT: pextrw $1, %xmm0, %ecx			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: bsfw %cx, %cx			; SSE2-NEXT: psrlw $4, %xmm2
	; SSE2-NEXT: cmovew %ax, %cx			; SSE2-NEXT: paddw %xmm1, %xmm2
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]			; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSE2-NEXT: psllw $8, %xmm0
	; SSE2-NEXT: pextrw $6, %xmm0, %ecx			; SSE2-NEXT: paddb %xmm2, %xmm0
	; SSE2-NEXT: bsfw %cx, %cx			; SSE2-NEXT: psrlw $8, %xmm0
	; SSE2-NEXT: cmovew %ax, %cx
	; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: pextrw $2, %xmm0, %ecx
	; SSE2-NEXT: bsfw %cx, %cx
	; SSE2-NEXT: cmovew %ax, %cx
	; SSE2-NEXT: movd %ecx, %xmm3
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; SSE2-NEXT: pextrw $4, %xmm0, %ecx
	; SSE2-NEXT: bsfw %cx, %cx
	; SSE2-NEXT: cmovew %ax, %cx
	; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: movd %xmm0, %ecx
	; SSE2-NEXT: bsfw %cx, %cx
	; SSE2-NEXT: cmovew %ax, %cx
	; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE3-LABEL: testv8i16:			; SSE3-LABEL: testv8i16:
	; SSE3: # BB#0:			; SSE3: # BB#0:
	; SSE3-NEXT: pextrw $7, %xmm0, %eax			; SSE3-NEXT: pxor %xmm1, %xmm1
	; SSE3-NEXT: bsfw %ax, %cx			; SSE3-NEXT: psubw %xmm0, %xmm1
	; SSE3-NEXT: movw $16, %ax			; SSE3-NEXT: pand %xmm0, %xmm1
	; SSE3-NEXT: cmovew %ax, %cx			; SSE3-NEXT: psubw {{.*}}(%rip), %xmm1
	; SSE3-NEXT: movd %ecx, %xmm1			; SSE3-NEXT: movdqa %xmm1, %xmm0
	; SSE3-NEXT: pextrw $3, %xmm0, %ecx			; SSE3-NEXT: psrlw $1, %xmm0
	; SSE3-NEXT: bsfw %cx, %cx			; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE3-NEXT: cmovew %ax, %cx			; SSE3-NEXT: psubw %xmm0, %xmm1
	; SSE3-NEXT: movd %ecx, %xmm2			; SSE3-NEXT: movdqa {{.*#+}} xmm0 = [13107,13107,13107,13107,13107,13107,13107,13107]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSE3-NEXT: movdqa %xmm1, %xmm2
	; SSE3-NEXT: pextrw $5, %xmm0, %ecx			; SSE3-NEXT: pand %xmm0, %xmm2
	; SSE3-NEXT: bsfw %cx, %cx			; SSE3-NEXT: psrlw $2, %xmm1
	; SSE3-NEXT: cmovew %ax, %cx			; SSE3-NEXT: pand %xmm0, %xmm1
	; SSE3-NEXT: movd %ecx, %xmm3			; SSE3-NEXT: paddw %xmm2, %xmm1
	; SSE3-NEXT: pextrw $1, %xmm0, %ecx			; SSE3-NEXT: movdqa %xmm1, %xmm2
	; SSE3-NEXT: bsfw %cx, %cx			; SSE3-NEXT: psrlw $4, %xmm2
	; SSE3-NEXT: cmovew %ax, %cx			; SSE3-NEXT: paddw %xmm1, %xmm2
	; SSE3-NEXT: movd %ecx, %xmm1			; SSE3-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]			; SSE3-NEXT: movdqa %xmm2, %xmm0
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]			; SSE3-NEXT: psllw $8, %xmm0
	; SSE3-NEXT: pextrw $6, %xmm0, %ecx			; SSE3-NEXT: paddb %xmm2, %xmm0
	; SSE3-NEXT: bsfw %cx, %cx			; SSE3-NEXT: psrlw $8, %xmm0
	; SSE3-NEXT: cmovew %ax, %cx
	; SSE3-NEXT: movd %ecx, %xmm2
	; SSE3-NEXT: pextrw $2, %xmm0, %ecx
	; SSE3-NEXT: bsfw %cx, %cx
	; SSE3-NEXT: cmovew %ax, %cx
	; SSE3-NEXT: movd %ecx, %xmm3
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; SSE3-NEXT: pextrw $4, %xmm0, %ecx
	; SSE3-NEXT: bsfw %cx, %cx
	; SSE3-NEXT: cmovew %ax, %cx
	; SSE3-NEXT: movd %ecx, %xmm2
	; SSE3-NEXT: movd %xmm0, %ecx
	; SSE3-NEXT: bsfw %cx, %cx
	; SSE3-NEXT: cmovew %ax, %cx
	; SSE3-NEXT: movd %ecx, %xmm0
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: testv8i16:			; SSSE3-LABEL: testv8i16:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: pextrw $7, %xmm0, %eax			; SSSE3-NEXT: pxor %xmm1, %xmm1
	; SSSE3-NEXT: bsfw %ax, %cx			; SSSE3-NEXT: psubw %xmm0, %xmm1
	; SSSE3-NEXT: movw $16, %ax			; SSSE3-NEXT: pand %xmm0, %xmm1
	; SSSE3-NEXT: cmovew %ax, %cx			; SSSE3-NEXT: psubw {{.*}}(%rip), %xmm1
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movdqa {{.*#+}} xmm0 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSSE3-NEXT: pextrw $3, %xmm0, %ecx			; SSSE3-NEXT: movdqa %xmm1, %xmm2
	; SSSE3-NEXT: bsfw %cx, %cx			; SSSE3-NEXT: pand %xmm0, %xmm2
	; SSSE3-NEXT: cmovew %ax, %cx			; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSSE3-NEXT: movd %ecx, %xmm2			; SSSE3-NEXT: movdqa %xmm3, %xmm4
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSSE3-NEXT: pshufb %xmm2, %xmm4
	; SSSE3-NEXT: pextrw $5, %xmm0, %ecx			; SSSE3-NEXT: psrlw $4, %xmm1
	; SSSE3-NEXT: bsfw %cx, %cx			; SSSE3-NEXT: pand %xmm0, %xmm1
	; SSSE3-NEXT: cmovew %ax, %cx			; SSSE3-NEXT: pshufb %xmm1, %xmm3
	; SSSE3-NEXT: movd %ecx, %xmm3			; SSSE3-NEXT: paddb %xmm4, %xmm3
	; SSSE3-NEXT: pextrw $1, %xmm0, %ecx			; SSSE3-NEXT: movdqa %xmm3, %xmm0
	; SSSE3-NEXT: bsfw %cx, %cx			; SSSE3-NEXT: psllw $8, %xmm0
	; SSSE3-NEXT: cmovew %ax, %cx			; SSSE3-NEXT: paddb %xmm3, %xmm0
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: psrlw $8, %xmm0
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]
	; SSSE3-NEXT: pextrw $6, %xmm0, %ecx
	; SSSE3-NEXT: bsfw %cx, %cx
	; SSSE3-NEXT: cmovew %ax, %cx
	; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: pextrw $2, %xmm0, %ecx
	; SSSE3-NEXT: bsfw %cx, %cx
	; SSSE3-NEXT: cmovew %ax, %cx
	; SSSE3-NEXT: movd %ecx, %xmm3
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
	; SSSE3-NEXT: pextrw $4, %xmm0, %ecx
	; SSSE3-NEXT: bsfw %cx, %cx
	; SSSE3-NEXT: cmovew %ax, %cx
	; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: movd %xmm0, %ecx
	; SSSE3-NEXT: bsfw %cx, %cx
	; SSSE3-NEXT: cmovew %ax, %cx
	; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: testv8i16:			; SSE41-LABEL: testv8i16:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrw $1, %xmm0, %eax			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: bsfw %ax, %cx			; SSE41-NEXT: psubw %xmm0, %xmm1
	; SSE41-NEXT: movw $16, %ax			; SSE41-NEXT: pand %xmm0, %xmm1
	; SSE41-NEXT: cmovew %ax, %cx			; SSE41-NEXT: psubw {{.*}}(%rip), %xmm1
	; SSE41-NEXT: movd %xmm0, %edx			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSE41-NEXT: bsfw %dx, %dx			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: cmovew %ax, %dx			; SSE41-NEXT: pand %xmm0, %xmm2
	; SSE41-NEXT: movd %edx, %xmm1			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSE41-NEXT: pinsrw $1, %ecx, %xmm1			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pextrw $2, %xmm0, %ecx			; SSE41-NEXT: pshufb %xmm2, %xmm4
	; SSE41-NEXT: bsfw %cx, %cx			; SSE41-NEXT: psrlw $4, %xmm1
	; SSE41-NEXT: cmovew %ax, %cx			; SSE41-NEXT: pand %xmm0, %xmm1
	; SSE41-NEXT: pinsrw $2, %ecx, %xmm1			; SSE41-NEXT: pshufb %xmm1, %xmm3
	; SSE41-NEXT: pextrw $3, %xmm0, %ecx			; SSE41-NEXT: paddb %xmm4, %xmm3
	; SSE41-NEXT: bsfw %cx, %cx			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: cmovew %ax, %cx			; SSE41-NEXT: psllw $8, %xmm0
	; SSE41-NEXT: pinsrw $3, %ecx, %xmm1			; SSE41-NEXT: paddb %xmm3, %xmm0
	; SSE41-NEXT: pextrw $4, %xmm0, %ecx			; SSE41-NEXT: psrlw $8, %xmm0
	; SSE41-NEXT: bsfw %cx, %cx
	; SSE41-NEXT: cmovew %ax, %cx
	; SSE41-NEXT: pinsrw $4, %ecx, %xmm1
	; SSE41-NEXT: pextrw $5, %xmm0, %ecx
	; SSE41-NEXT: bsfw %cx, %cx
	; SSE41-NEXT: cmovew %ax, %cx
	; SSE41-NEXT: pinsrw $5, %ecx, %xmm1
	; SSE41-NEXT: pextrw $6, %xmm0, %ecx
	; SSE41-NEXT: bsfw %cx, %cx
	; SSE41-NEXT: cmovew %ax, %cx
	; SSE41-NEXT: pinsrw $6, %ecx, %xmm1
	; SSE41-NEXT: pextrw $7, %xmm0, %ecx
	; SSE41-NEXT: bsfw %cx, %cx
	; SSE41-NEXT: cmovew %ax, %cx
	; SSE41-NEXT: pinsrw $7, %ecx, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: testv8i16:			; AVX-LABEL: testv8i16:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpextrw $1, %xmm0, %eax			; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: bsfw %ax, %cx			; AVX-NEXT: vpsubw %xmm0, %xmm1, %xmm1
	; AVX-NEXT: movw $16, %ax			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: cmovew %ax, %cx			; AVX-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vmovd %xmm0, %edx			; AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX-NEXT: bsfw %dx, %dx			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX-NEXT: cmovew %ax, %dx			; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX-NEXT: vmovd %edx, %xmm1			; AVX-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX-NEXT: vpinsrw $1, %ecx, %xmm1, %xmm1			; AVX-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX-NEXT: vpextrw $2, %xmm0, %ecx			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: bsfw %cx, %cx			; AVX-NEXT: vpshufb %xmm0, %xmm3, %xmm0
	; AVX-NEXT: cmovew %ax, %cx			; AVX-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpinsrw $2, %ecx, %xmm1, %xmm1			; AVX-NEXT: vpsllw $8, %xmm0, %xmm1
	; AVX-NEXT: vpextrw $3, %xmm0, %ecx			; AVX-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX-NEXT: bsfw %cx, %cx			; AVX-NEXT: vpsrlw $8, %xmm0, %xmm0
	; AVX-NEXT: cmovew %ax, %cx
	; AVX-NEXT: vpinsrw $3, %ecx, %xmm1, %xmm1
	; AVX-NEXT: vpextrw $4, %xmm0, %ecx
	; AVX-NEXT: bsfw %cx, %cx
	; AVX-NEXT: cmovew %ax, %cx
	; AVX-NEXT: vpinsrw $4, %ecx, %xmm1, %xmm1
	; AVX-NEXT: vpextrw $5, %xmm0, %ecx
	; AVX-NEXT: bsfw %cx, %cx
	; AVX-NEXT: cmovew %ax, %cx
	; AVX-NEXT: vpinsrw $5, %ecx, %xmm1, %xmm1
	; AVX-NEXT: vpextrw $6, %xmm0, %ecx
	; AVX-NEXT: bsfw %cx, %cx
	; AVX-NEXT: cmovew %ax, %cx
	; AVX-NEXT: vpinsrw $6, %ecx, %xmm1, %xmm1
	; AVX-NEXT: vpextrw $7, %xmm0, %ecx
	; AVX-NEXT: bsfw %cx, %cx
	; AVX-NEXT: cmovew %ax, %cx
	; AVX-NEXT: vpinsrw $7, %ecx, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%out = call <8 x i16> @llvm.cttz.v8i16(<8 x i16> %in, i1 0)			%out = call <8 x i16> @llvm.cttz.v8i16(<8 x i16> %in, i1 0)
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define <8 x i16> @testv8i16u(<8 x i16> %in) nounwind {			define <8 x i16> @testv8i16u(<8 x i16> %in) nounwind {
	; SSE2-LABEL: testv8i16u:			; SSE2-LABEL: testv8i16u:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pextrw $7, %xmm0, %eax			; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: bsfw %ax, %ax			; SSE2-NEXT: psubw %xmm0, %xmm1
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: pand %xmm0, %xmm1
	; SSE2-NEXT: pextrw $3, %xmm0, %eax			; SSE2-NEXT: psubw {{.*}}(%rip), %xmm1
	; SSE2-NEXT: bsfw %ax, %ax			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: psrlw $1, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: pextrw $5, %xmm0, %eax			; SSE2-NEXT: psubw %xmm0, %xmm1
	; SSE2-NEXT: bsfw %ax, %ax			; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [13107,13107,13107,13107,13107,13107,13107,13107]
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: pextrw $1, %xmm0, %eax			; SSE2-NEXT: pand %xmm0, %xmm2
	; SSE2-NEXT: bsfw %ax, %ax			; SSE2-NEXT: psrlw $2, %xmm1
	; SSE2-NEXT: movd %eax, %xmm3			; SSE2-NEXT: pand %xmm0, %xmm1
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]			; SSE2-NEXT: paddw %xmm2, %xmm1
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: pextrw $6, %xmm0, %eax			; SSE2-NEXT: psrlw $4, %xmm2
	; SSE2-NEXT: bsfw %ax, %ax			; SSE2-NEXT: paddw %xmm1, %xmm2
	; SSE2-NEXT: movd %eax, %xmm1			; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE2-NEXT: pextrw $2, %xmm0, %eax			; SSE2-NEXT: movdqa %xmm2, %xmm0
	; SSE2-NEXT: bsfw %ax, %ax			; SSE2-NEXT: psllw $8, %xmm0
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: paddb %xmm2, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSE2-NEXT: psrlw $8, %xmm0
	; SSE2-NEXT: pextrw $4, %xmm0, %eax
	; SSE2-NEXT: bsfw %ax, %ax
	; SSE2-NEXT: movd %eax, %xmm1
	; SSE2-NEXT: movd %xmm0, %eax
	; SSE2-NEXT: bsfw %ax, %ax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE3-LABEL: testv8i16u:			; SSE3-LABEL: testv8i16u:
	; SSE3: # BB#0:			; SSE3: # BB#0:
	; SSE3-NEXT: pextrw $7, %xmm0, %eax			; SSE3-NEXT: pxor %xmm1, %xmm1
	; SSE3-NEXT: bsfw %ax, %ax			; SSE3-NEXT: psubw %xmm0, %xmm1
	; SSE3-NEXT: movd %eax, %xmm1			; SSE3-NEXT: pand %xmm0, %xmm1
	; SSE3-NEXT: pextrw $3, %xmm0, %eax			; SSE3-NEXT: psubw {{.*}}(%rip), %xmm1
	; SSE3-NEXT: bsfw %ax, %ax			; SSE3-NEXT: movdqa %xmm1, %xmm0
	; SSE3-NEXT: movd %eax, %xmm2			; SSE3-NEXT: psrlw $1, %xmm0
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE3-NEXT: pextrw $5, %xmm0, %eax			; SSE3-NEXT: psubw %xmm0, %xmm1
	; SSE3-NEXT: bsfw %ax, %ax			; SSE3-NEXT: movdqa {{.*#+}} xmm0 = [13107,13107,13107,13107,13107,13107,13107,13107]
	; SSE3-NEXT: movd %eax, %xmm1			; SSE3-NEXT: movdqa %xmm1, %xmm2
	; SSE3-NEXT: pextrw $1, %xmm0, %eax			; SSE3-NEXT: pand %xmm0, %xmm2
	; SSE3-NEXT: bsfw %ax, %ax			; SSE3-NEXT: psrlw $2, %xmm1
	; SSE3-NEXT: movd %eax, %xmm3			; SSE3-NEXT: pand %xmm0, %xmm1
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]			; SSE3-NEXT: paddw %xmm2, %xmm1
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]			; SSE3-NEXT: movdqa %xmm1, %xmm2
	; SSE3-NEXT: pextrw $6, %xmm0, %eax			; SSE3-NEXT: psrlw $4, %xmm2
	; SSE3-NEXT: bsfw %ax, %ax			; SSE3-NEXT: paddw %xmm1, %xmm2
	; SSE3-NEXT: movd %eax, %xmm1			; SSE3-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE3-NEXT: pextrw $2, %xmm0, %eax			; SSE3-NEXT: movdqa %xmm2, %xmm0
	; SSE3-NEXT: bsfw %ax, %ax			; SSE3-NEXT: psllw $8, %xmm0
	; SSE3-NEXT: movd %eax, %xmm2			; SSE3-NEXT: paddb %xmm2, %xmm0
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSE3-NEXT: psrlw $8, %xmm0
	; SSE3-NEXT: pextrw $4, %xmm0, %eax
	; SSE3-NEXT: bsfw %ax, %ax
	; SSE3-NEXT: movd %eax, %xmm1
	; SSE3-NEXT: movd %xmm0, %eax
	; SSE3-NEXT: bsfw %ax, %ax
	; SSE3-NEXT: movd %eax, %xmm0
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: testv8i16u:			; SSSE3-LABEL: testv8i16u:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: pextrw $7, %xmm0, %eax			; SSSE3-NEXT: pxor %xmm1, %xmm1
	; SSSE3-NEXT: bsfw %ax, %ax			; SSSE3-NEXT: psubw %xmm0, %xmm1
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: pand %xmm0, %xmm1
	; SSSE3-NEXT: pextrw $3, %xmm0, %eax			; SSSE3-NEXT: psubw {{.*}}(%rip), %xmm1
	; SSSE3-NEXT: bsfw %ax, %ax			; SSSE3-NEXT: movdqa {{.*#+}} xmm0 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSSE3-NEXT: movd %eax, %xmm2			; SSSE3-NEXT: movdqa %xmm1, %xmm2
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSSE3-NEXT: pand %xmm0, %xmm2
	; SSSE3-NEXT: pextrw $5, %xmm0, %eax			; SSSE3-NEXT: movdqa {{.*#+}} xmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSSE3-NEXT: bsfw %ax, %ax			; SSSE3-NEXT: movdqa %xmm3, %xmm4
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: pshufb %xmm2, %xmm4
	; SSSE3-NEXT: pextrw $1, %xmm0, %eax			; SSSE3-NEXT: psrlw $4, %xmm1
	; SSSE3-NEXT: bsfw %ax, %ax			; SSSE3-NEXT: pand %xmm0, %xmm1
	; SSSE3-NEXT: movd %eax, %xmm3			; SSSE3-NEXT: pshufb %xmm1, %xmm3
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]			; SSSE3-NEXT: paddb %xmm4, %xmm3
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]			; SSSE3-NEXT: movdqa %xmm3, %xmm0
	; SSSE3-NEXT: pextrw $6, %xmm0, %eax			; SSSE3-NEXT: psllw $8, %xmm0
	; SSSE3-NEXT: bsfw %ax, %ax			; SSSE3-NEXT: paddb %xmm3, %xmm0
	; SSSE3-NEXT: movd %eax, %xmm1			; SSSE3-NEXT: psrlw $8, %xmm0
	; SSSE3-NEXT: pextrw $2, %xmm0, %eax
	; SSSE3-NEXT: bsfw %ax, %ax
	; SSSE3-NEXT: movd %eax, %xmm2
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSSE3-NEXT: pextrw $4, %xmm0, %eax
	; SSSE3-NEXT: bsfw %ax, %ax
	; SSSE3-NEXT: movd %eax, %xmm1
	; SSSE3-NEXT: movd %xmm0, %eax
	; SSSE3-NEXT: bsfw %ax, %ax
	; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: testv8i16u:			; SSE41-LABEL: testv8i16u:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrw $1, %xmm0, %eax			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: bsfw %ax, %ax			; SSE41-NEXT: psubw %xmm0, %xmm1
	; SSE41-NEXT: movd %xmm0, %ecx			; SSE41-NEXT: pand %xmm0, %xmm1
	; SSE41-NEXT: bsfw %cx, %cx			; SSE41-NEXT: psubw {{.*}}(%rip), %xmm1
	; SSE41-NEXT: movd %ecx, %xmm1			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSE41-NEXT: pinsrw $1, %eax, %xmm1			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: pextrw $2, %xmm0, %eax			; SSE41-NEXT: pand %xmm0, %xmm2
	; SSE41-NEXT: bsfw %ax, %ax			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSE41-NEXT: pinsrw $2, %eax, %xmm1			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pextrw $3, %xmm0, %eax			; SSE41-NEXT: pshufb %xmm2, %xmm4
	; SSE41-NEXT: bsfw %ax, %ax			; SSE41-NEXT: psrlw $4, %xmm1
	; SSE41-NEXT: pinsrw $3, %eax, %xmm1			; SSE41-NEXT: pand %xmm0, %xmm1
	; SSE41-NEXT: pextrw $4, %xmm0, %eax			; SSE41-NEXT: pshufb %xmm1, %xmm3
	; SSE41-NEXT: bsfw %ax, %ax			; SSE41-NEXT: paddb %xmm4, %xmm3
	; SSE41-NEXT: pinsrw $4, %eax, %xmm1			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pextrw $5, %xmm0, %eax			; SSE41-NEXT: psllw $8, %xmm0
	; SSE41-NEXT: bsfw %ax, %ax			; SSE41-NEXT: paddb %xmm3, %xmm0
	; SSE41-NEXT: pinsrw $5, %eax, %xmm1			; SSE41-NEXT: psrlw $8, %xmm0
	; SSE41-NEXT: pextrw $6, %xmm0, %eax
	; SSE41-NEXT: bsfw %ax, %ax
	; SSE41-NEXT: pinsrw $6, %eax, %xmm1
	; SSE41-NEXT: pextrw $7, %xmm0, %eax
	; SSE41-NEXT: bsfw %ax, %ax
	; SSE41-NEXT: pinsrw $7, %eax, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: testv8i16u:			; AVX-LABEL: testv8i16u:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpextrw $1, %xmm0, %eax			; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: bsfw %ax, %ax			; AVX-NEXT: vpsubw %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vmovd %xmm0, %ecx			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: bsfw %cx, %cx			; AVX-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vmovd %ecx, %xmm1			; AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX-NEXT: vpinsrw $1, %eax, %xmm1, %xmm1			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX-NEXT: vpextrw $2, %xmm0, %eax			; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX-NEXT: bsfw %ax, %ax			; AVX-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX-NEXT: vpinsrw $2, %eax, %xmm1, %xmm1			; AVX-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX-NEXT: vpextrw $3, %xmm0, %eax			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: bsfw %ax, %ax			; AVX-NEXT: vpshufb %xmm0, %xmm3, %xmm0
	; AVX-NEXT: vpinsrw $3, %eax, %xmm1, %xmm1			; AVX-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpextrw $4, %xmm0, %eax			; AVX-NEXT: vpsllw $8, %xmm0, %xmm1
	; AVX-NEXT: bsfw %ax, %ax			; AVX-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX-NEXT: vpinsrw $4, %eax, %xmm1, %xmm1			; AVX-NEXT: vpsrlw $8, %xmm0, %xmm0
	; AVX-NEXT: vpextrw $5, %xmm0, %eax
	; AVX-NEXT: bsfw %ax, %ax
	; AVX-NEXT: vpinsrw $5, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrw $6, %xmm0, %eax
	; AVX-NEXT: bsfw %ax, %ax
	; AVX-NEXT: vpinsrw $6, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrw $7, %xmm0, %eax
	; AVX-NEXT: bsfw %ax, %ax
	; AVX-NEXT: vpinsrw $7, %eax, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%out = call <8 x i16> @llvm.cttz.v8i16(<8 x i16> %in, i1 -1)			%out = call <8 x i16> @llvm.cttz.v8i16(<8 x i16> %in, i1 -1)
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define <16 x i8> @testv16i8(<16 x i8> %in) nounwind {			define <16 x i8> @testv16i8(<16 x i8> %in) nounwind {
	; SSE2-LABEL: testv16i8:			; SSE2-LABEL: testv16i8:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pushq %rbp			; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: pushq %r14			; SSE2-NEXT: psubb %xmm0, %xmm1
	; SSE2-NEXT: pushq %rbx			; SSE2-NEXT: pand %xmm0, %xmm1
	; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: psubb {{.*}}(%rip), %xmm1
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: bsfl %eax, %edx			; SSE2-NEXT: psrlw $1, %xmm0
	; SSE2-NEXT: movl $32, %eax			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: cmovel %eax, %edx			; SSE2-NEXT: psubb %xmm0, %xmm1
	; SSE2-NEXT: cmpl $32, %edx			; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
	; SSE2-NEXT: movl $8, %ecx			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: cmovel %ecx, %edx			; SSE2-NEXT: pand %xmm0, %xmm2
	; SSE2-NEXT: movd %edx, %xmm0			; SSE2-NEXT: psrlw $2, %xmm1
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r14d			; SSE2-NEXT: pand %xmm0, %xmm1
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx			; SSE2-NEXT: paddb %xmm2, %xmm1
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi			; SSE2-NEXT: psrlw $4, %xmm0
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r11d			; SSE2-NEXT: paddb %xmm1, %xmm0
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r8d
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE2-NEXT: bsfl %esi, %esi
	; SSE2-NEXT: cmovel %eax, %esi
	; SSE2-NEXT: cmpl $32, %esi
	; SSE2-NEXT: cmovel %ecx, %esi
	; SSE2-NEXT: movd %esi, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: bsfl %edi, %esi
	; SSE2-NEXT: cmovel %eax, %esi
	; SSE2-NEXT: cmpl $32, %esi
	; SSE2-NEXT: cmovel %ecx, %esi
	; SSE2-NEXT: movd %esi, %xmm2
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r10d
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebp
	; SSE2-NEXT: bsfl %ebp, %ebp
	; SSE2-NEXT: cmovel %eax, %ebp
	; SSE2-NEXT: cmpl $32, %ebp
	; SSE2-NEXT: cmovel %ecx, %ebp
	; SSE2-NEXT: movd %ebp, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE2-NEXT: bsfl %ebx, %ebx
	; SSE2-NEXT: cmovel %eax, %ebx
	; SSE2-NEXT: cmpl $32, %ebx
	; SSE2-NEXT: cmovel %ecx, %ebx
	; SSE2-NEXT: movd %ebx, %xmm1
	; SSE2-NEXT: bsfl %esi, %esi
	; SSE2-NEXT: cmovel %eax, %esi
	; SSE2-NEXT: cmpl $32, %esi
	; SSE2-NEXT: cmovel %ecx, %esi
	; SSE2-NEXT: movd %esi, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE2-NEXT: bsfl %edx, %edx
	; SSE2-NEXT: cmovel %eax, %edx
	; SSE2-NEXT: cmpl $32, %edx
	; SSE2-NEXT: cmovel %ecx, %edx
	; SSE2-NEXT: movd %edx, %xmm3
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE2-NEXT: bsfl %esi, %esi
	; SSE2-NEXT: cmovel %eax, %esi
	; SSE2-NEXT: cmpl $32, %esi
	; SSE2-NEXT: cmovel %ecx, %esi
	; SSE2-NEXT: movd %esi, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: bsfl %r14d, %esi
	; SSE2-NEXT: cmovel %eax, %esi
	; SSE2-NEXT: cmpl $32, %esi
	; SSE2-NEXT: cmovel %ecx, %esi
	; SSE2-NEXT: movd %esi, %xmm0
	; SSE2-NEXT: bsfl %edi, %esi
	; SSE2-NEXT: cmovel %eax, %esi
	; SSE2-NEXT: cmpl $32, %esi
	; SSE2-NEXT: cmovel %ecx, %esi
	; SSE2-NEXT: movd %esi, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE2-NEXT: bsfl %r11d, %esi
	; SSE2-NEXT: cmovel %eax, %esi
	; SSE2-NEXT: cmpl $32, %esi
	; SSE2-NEXT: cmovel %ecx, %esi
	; SSE2-NEXT: movd %esi, %xmm0
	; SSE2-NEXT: bsfl %edx, %edx
	; SSE2-NEXT: cmovel %eax, %edx
	; SSE2-NEXT: cmpl $32, %edx
	; SSE2-NEXT: cmovel %ecx, %edx
	; SSE2-NEXT: movd %edx, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
	; SSE2-NEXT: bsfl %r9d, %edx
	; SSE2-NEXT: cmovel %eax, %edx
	; SSE2-NEXT: cmpl $32, %edx
	; SSE2-NEXT: cmovel %ecx, %edx
	; SSE2-NEXT: movd %edx, %xmm0
	; SSE2-NEXT: bsfl %r10d, %edx
	; SSE2-NEXT: cmovel %eax, %edx
	; SSE2-NEXT: cmpl $32, %edx
	; SSE2-NEXT: cmovel %ecx, %edx
	; SSE2-NEXT: movd %edx, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE2-NEXT: bsfl %r8d, %edx
	; SSE2-NEXT: cmovel %eax, %edx
	; SSE2-NEXT: cmpl $32, %edx
	; SSE2-NEXT: cmovel %ecx, %edx
	; SSE2-NEXT: movd %edx, %xmm4
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE2-NEXT: bsfl %edx, %edx
	; SSE2-NEXT: cmovel %eax, %edx
	; SSE2-NEXT: cmpl $32, %edx
	; SSE2-NEXT: cmovel %ecx, %edx
	; SSE2-NEXT: movd %edx, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE2-NEXT: popq %rbx
	; SSE2-NEXT: popq %r14
	; SSE2-NEXT: popq %rbp
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE3-LABEL: testv16i8:			; SSE3-LABEL: testv16i8:
	; SSE3: # BB#0:			; SSE3: # BB#0:
	; SSE3-NEXT: pushq %rbp			; SSE3-NEXT: pxor %xmm1, %xmm1
	; SSE3-NEXT: pushq %r14			; SSE3-NEXT: psubb %xmm0, %xmm1
	; SSE3-NEXT: pushq %rbx			; SSE3-NEXT: pand %xmm0, %xmm1
	; SSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE3-NEXT: psubb {{.*}}(%rip), %xmm1
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE3-NEXT: movdqa %xmm1, %xmm0
	; SSE3-NEXT: bsfl %eax, %edx			; SSE3-NEXT: psrlw $1, %xmm0
	; SSE3-NEXT: movl $32, %eax			; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE3-NEXT: cmovel %eax, %edx			; SSE3-NEXT: psubb %xmm0, %xmm1
	; SSE3-NEXT: cmpl $32, %edx			; SSE3-NEXT: movdqa {{.*#+}} xmm0 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
	; SSE3-NEXT: movl $8, %ecx			; SSE3-NEXT: movdqa %xmm1, %xmm2
	; SSE3-NEXT: cmovel %ecx, %edx			; SSE3-NEXT: pand %xmm0, %xmm2
	; SSE3-NEXT: movd %edx, %xmm0			; SSE3-NEXT: psrlw $2, %xmm1
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r14d			; SSE3-NEXT: pand %xmm0, %xmm1
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx			; SSE3-NEXT: paddb %xmm2, %xmm1
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d			; SSE3-NEXT: movdqa %xmm1, %xmm0
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi			; SSE3-NEXT: psrlw $4, %xmm0
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r11d			; SSE3-NEXT: paddb %xmm1, %xmm0
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx			; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r8d
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE3-NEXT: bsfl %esi, %esi
	; SSE3-NEXT: cmovel %eax, %esi
	; SSE3-NEXT: cmpl $32, %esi
	; SSE3-NEXT: cmovel %ecx, %esi
	; SSE3-NEXT: movd %esi, %xmm1
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE3-NEXT: bsfl %edi, %esi
	; SSE3-NEXT: cmovel %eax, %esi
	; SSE3-NEXT: cmpl $32, %esi
	; SSE3-NEXT: cmovel %ecx, %esi
	; SSE3-NEXT: movd %esi, %xmm2
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r10d
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebp
	; SSE3-NEXT: bsfl %ebp, %ebp
	; SSE3-NEXT: cmovel %eax, %ebp
	; SSE3-NEXT: cmpl $32, %ebp
	; SSE3-NEXT: cmovel %ecx, %ebp
	; SSE3-NEXT: movd %ebp, %xmm0
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE3-NEXT: bsfl %ebx, %ebx
	; SSE3-NEXT: cmovel %eax, %ebx
	; SSE3-NEXT: cmpl $32, %ebx
	; SSE3-NEXT: cmovel %ecx, %ebx
	; SSE3-NEXT: movd %ebx, %xmm1
	; SSE3-NEXT: bsfl %esi, %esi
	; SSE3-NEXT: cmovel %eax, %esi
	; SSE3-NEXT: cmpl $32, %esi
	; SSE3-NEXT: cmovel %ecx, %esi
	; SSE3-NEXT: movd %esi, %xmm2
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE3-NEXT: bsfl %edx, %edx
	; SSE3-NEXT: cmovel %eax, %edx
	; SSE3-NEXT: cmpl $32, %edx
	; SSE3-NEXT: cmovel %ecx, %edx
	; SSE3-NEXT: movd %edx, %xmm3
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE3-NEXT: bsfl %esi, %esi
	; SSE3-NEXT: cmovel %eax, %esi
	; SSE3-NEXT: cmpl $32, %esi
	; SSE3-NEXT: cmovel %ecx, %esi
	; SSE3-NEXT: movd %esi, %xmm1
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE3-NEXT: bsfl %r14d, %esi
	; SSE3-NEXT: cmovel %eax, %esi
	; SSE3-NEXT: cmpl $32, %esi
	; SSE3-NEXT: cmovel %ecx, %esi
	; SSE3-NEXT: movd %esi, %xmm0
	; SSE3-NEXT: bsfl %edi, %esi
	; SSE3-NEXT: cmovel %eax, %esi
	; SSE3-NEXT: cmpl $32, %esi
	; SSE3-NEXT: cmovel %ecx, %esi
	; SSE3-NEXT: movd %esi, %xmm3
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE3-NEXT: bsfl %r11d, %esi
	; SSE3-NEXT: cmovel %eax, %esi
	; SSE3-NEXT: cmpl $32, %esi
	; SSE3-NEXT: cmovel %ecx, %esi
	; SSE3-NEXT: movd %esi, %xmm0
	; SSE3-NEXT: bsfl %edx, %edx
	; SSE3-NEXT: cmovel %eax, %edx
	; SSE3-NEXT: cmpl $32, %edx
	; SSE3-NEXT: cmovel %ecx, %edx
	; SSE3-NEXT: movd %edx, %xmm2
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
	; SSE3-NEXT: bsfl %r9d, %edx
	; SSE3-NEXT: cmovel %eax, %edx
	; SSE3-NEXT: cmpl $32, %edx
	; SSE3-NEXT: cmovel %ecx, %edx
	; SSE3-NEXT: movd %edx, %xmm0
	; SSE3-NEXT: bsfl %r10d, %edx
	; SSE3-NEXT: cmovel %eax, %edx
	; SSE3-NEXT: cmpl $32, %edx
	; SSE3-NEXT: cmovel %ecx, %edx
	; SSE3-NEXT: movd %edx, %xmm3
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE3-NEXT: bsfl %r8d, %edx
	; SSE3-NEXT: cmovel %eax, %edx
	; SSE3-NEXT: cmpl $32, %edx
	; SSE3-NEXT: cmovel %ecx, %edx
	; SSE3-NEXT: movd %edx, %xmm4
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE3-NEXT: bsfl %edx, %edx
	; SSE3-NEXT: cmovel %eax, %edx
	; SSE3-NEXT: cmpl $32, %edx
	; SSE3-NEXT: cmovel %ecx, %edx
	; SSE3-NEXT: movd %edx, %xmm0
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE3-NEXT: popq %rbx
	; SSE3-NEXT: popq %r14
	; SSE3-NEXT: popq %rbp
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: testv16i8:			; SSSE3-LABEL: testv16i8:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: pushq %rbp			; SSSE3-NEXT: pxor %xmm1, %xmm1
	; SSSE3-NEXT: pushq %r14			; SSSE3-NEXT: psubb %xmm0, %xmm1
	; SSSE3-NEXT: pushq %rbx			; SSSE3-NEXT: pand %xmm0, %xmm1
	; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: psubb {{.*}}(%rip), %xmm1
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSSE3-NEXT: bsfl %eax, %edx			; SSSE3-NEXT: movdqa %xmm1, %xmm3
	; SSSE3-NEXT: movl $32, %eax			; SSSE3-NEXT: pand %xmm2, %xmm3
	; SSSE3-NEXT: cmovel %eax, %edx			; SSSE3-NEXT: movdqa {{.*#+}} xmm0 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSSE3-NEXT: cmpl $32, %edx			; SSSE3-NEXT: movdqa %xmm0, %xmm4
	; SSSE3-NEXT: movl $8, %ecx			; SSSE3-NEXT: pshufb %xmm3, %xmm4
	; SSSE3-NEXT: cmovel %ecx, %edx			; SSSE3-NEXT: psrlw $4, %xmm1
	; SSSE3-NEXT: movd %edx, %xmm0			; SSSE3-NEXT: pand %xmm2, %xmm1
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r14d			; SSSE3-NEXT: pshufb %xmm1, %xmm0
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx			; SSSE3-NEXT: paddb %xmm4, %xmm0
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r11d
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r8d
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSSE3-NEXT: bsfl %esi, %esi
	; SSSE3-NEXT: cmovel %eax, %esi
	; SSSE3-NEXT: cmpl $32, %esi
	; SSSE3-NEXT: cmovel %ecx, %esi
	; SSSE3-NEXT: movd %esi, %xmm1
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSSE3-NEXT: bsfl %edi, %esi
	; SSSE3-NEXT: cmovel %eax, %esi
	; SSSE3-NEXT: cmpl $32, %esi
	; SSSE3-NEXT: cmovel %ecx, %esi
	; SSSE3-NEXT: movd %esi, %xmm2
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r10d
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebp
	; SSSE3-NEXT: bsfl %ebp, %ebp
	; SSSE3-NEXT: cmovel %eax, %ebp
	; SSSE3-NEXT: cmpl $32, %ebp
	; SSSE3-NEXT: cmovel %ecx, %ebp
	; SSSE3-NEXT: movd %ebp, %xmm0
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSSE3-NEXT: bsfl %ebx, %ebx
	; SSSE3-NEXT: cmovel %eax, %ebx
	; SSSE3-NEXT: cmpl $32, %ebx
	; SSSE3-NEXT: cmovel %ecx, %ebx
	; SSSE3-NEXT: movd %ebx, %xmm1
	; SSSE3-NEXT: bsfl %esi, %esi
	; SSSE3-NEXT: cmovel %eax, %esi
	; SSSE3-NEXT: cmpl $32, %esi
	; SSSE3-NEXT: cmovel %ecx, %esi
	; SSSE3-NEXT: movd %esi, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSSE3-NEXT: bsfl %edx, %edx
	; SSSE3-NEXT: cmovel %eax, %edx
	; SSSE3-NEXT: cmpl $32, %edx
	; SSSE3-NEXT: cmovel %ecx, %edx
	; SSSE3-NEXT: movd %edx, %xmm3
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSSE3-NEXT: bsfl %esi, %esi
	; SSSE3-NEXT: cmovel %eax, %esi
	; SSSE3-NEXT: cmpl $32, %esi
	; SSSE3-NEXT: cmovel %ecx, %esi
	; SSSE3-NEXT: movd %esi, %xmm1
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSSE3-NEXT: bsfl %r14d, %esi
	; SSSE3-NEXT: cmovel %eax, %esi
	; SSSE3-NEXT: cmpl $32, %esi
	; SSSE3-NEXT: cmovel %ecx, %esi
	; SSSE3-NEXT: movd %esi, %xmm0
	; SSSE3-NEXT: bsfl %edi, %esi
	; SSSE3-NEXT: cmovel %eax, %esi
	; SSSE3-NEXT: cmpl $32, %esi
	; SSSE3-NEXT: cmovel %ecx, %esi
	; SSSE3-NEXT: movd %esi, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSSE3-NEXT: bsfl %r11d, %esi
	; SSSE3-NEXT: cmovel %eax, %esi
	; SSSE3-NEXT: cmpl $32, %esi
	; SSSE3-NEXT: cmovel %ecx, %esi
	; SSSE3-NEXT: movd %esi, %xmm0
	; SSSE3-NEXT: bsfl %edx, %edx
	; SSSE3-NEXT: cmovel %eax, %edx
	; SSSE3-NEXT: cmpl $32, %edx
	; SSSE3-NEXT: cmovel %ecx, %edx
	; SSSE3-NEXT: movd %edx, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3],xmm2[4],xmm3[4],xmm2[5],xmm3[5],xmm2[6],xmm3[6],xmm2[7],xmm3[7]
	; SSSE3-NEXT: bsfl %r9d, %edx
	; SSSE3-NEXT: cmovel %eax, %edx
	; SSSE3-NEXT: cmpl $32, %edx
	; SSSE3-NEXT: cmovel %ecx, %edx
	; SSSE3-NEXT: movd %edx, %xmm0
	; SSSE3-NEXT: bsfl %r10d, %edx
	; SSSE3-NEXT: cmovel %eax, %edx
	; SSSE3-NEXT: cmpl $32, %edx
	; SSSE3-NEXT: cmovel %ecx, %edx
	; SSSE3-NEXT: movd %edx, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSSE3-NEXT: bsfl %r8d, %edx
	; SSSE3-NEXT: cmovel %eax, %edx
	; SSSE3-NEXT: cmpl $32, %edx
	; SSSE3-NEXT: cmovel %ecx, %edx
	; SSSE3-NEXT: movd %edx, %xmm4
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSSE3-NEXT: bsfl %edx, %edx
	; SSSE3-NEXT: cmovel %eax, %edx
	; SSSE3-NEXT: cmpl $32, %edx
	; SSSE3-NEXT: cmovel %ecx, %edx
	; SSSE3-NEXT: movd %edx, %xmm0
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSSE3-NEXT: popq %rbx
	; SSSE3-NEXT: popq %r14
	; SSSE3-NEXT: popq %rbp
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: testv16i8:			; SSE41-LABEL: testv16i8:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrb $1, %xmm0, %eax			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: bsfl %eax, %edx			; SSE41-NEXT: psubb %xmm0, %xmm1
	; SSE41-NEXT: movl $32, %eax			; SSE41-NEXT: pand %xmm0, %xmm1
	; SSE41-NEXT: cmovel %eax, %edx			; SSE41-NEXT: psubb {{.*}}(%rip), %xmm1
	; SSE41-NEXT: cmpl $32, %edx			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSE41-NEXT: movl $8, %ecx			; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: cmovel %ecx, %edx			; SSE41-NEXT: pand %xmm2, %xmm3
	; SSE41-NEXT: pextrb $0, %xmm0, %esi			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSE41-NEXT: bsfl %esi, %esi			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: cmovel %eax, %esi			; SSE41-NEXT: pshufb %xmm3, %xmm4
	; SSE41-NEXT: cmpl $32, %esi			; SSE41-NEXT: psrlw $4, %xmm1
	; SSE41-NEXT: cmovel %ecx, %esi			; SSE41-NEXT: pand %xmm2, %xmm1
	; SSE41-NEXT: movd %esi, %xmm1			; SSE41-NEXT: pshufb %xmm1, %xmm0
	; SSE41-NEXT: pinsrb $1, %edx, %xmm1			; SSE41-NEXT: paddb %xmm4, %xmm0
	; SSE41-NEXT: pextrb $2, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $2, %edx, %xmm1
	; SSE41-NEXT: pextrb $3, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $3, %edx, %xmm1
	; SSE41-NEXT: pextrb $4, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $4, %edx, %xmm1
	; SSE41-NEXT: pextrb $5, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $5, %edx, %xmm1
	; SSE41-NEXT: pextrb $6, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $6, %edx, %xmm1
	; SSE41-NEXT: pextrb $7, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $7, %edx, %xmm1
	; SSE41-NEXT: pextrb $8, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $8, %edx, %xmm1
	; SSE41-NEXT: pextrb $9, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $9, %edx, %xmm1
	; SSE41-NEXT: pextrb $10, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $10, %edx, %xmm1
	; SSE41-NEXT: pextrb $11, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $11, %edx, %xmm1
	; SSE41-NEXT: pextrb $12, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $12, %edx, %xmm1
	; SSE41-NEXT: pextrb $13, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $13, %edx, %xmm1
	; SSE41-NEXT: pextrb $14, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $14, %edx, %xmm1
	; SSE41-NEXT: pextrb $15, %xmm0, %edx
	; SSE41-NEXT: bsfl %edx, %edx
	; SSE41-NEXT: cmovel %eax, %edx
	; SSE41-NEXT: cmpl $32, %edx
	; SSE41-NEXT: cmovel %ecx, %edx
	; SSE41-NEXT: pinsrb $15, %edx, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: testv16i8:			; AVX-LABEL: testv16i8:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpextrb $1, %xmm0, %eax			; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: bsfl %eax, %edx			; AVX-NEXT: vpsubb %xmm0, %xmm1, %xmm1
	; AVX-NEXT: movl $32, %eax			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: cmovel %eax, %edx			; AVX-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: cmpl $32, %edx			; AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX-NEXT: movl $8, %ecx			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX-NEXT: cmovel %ecx, %edx			; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX-NEXT: vpextrb $0, %xmm0, %esi			; AVX-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX-NEXT: bsfl %esi, %esi			; AVX-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX-NEXT: cmovel %eax, %esi			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: cmpl $32, %esi			; AVX-NEXT: vpshufb %xmm0, %xmm3, %xmm0
	; AVX-NEXT: cmovel %ecx, %esi			; AVX-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vmovd %esi, %xmm1
	; AVX-NEXT: vpinsrb $1, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $2, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $2, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $3, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $3, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $4, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $4, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $5, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $5, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $6, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $6, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $7, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $7, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $8, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $8, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $9, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $9, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $10, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $10, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $11, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $11, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $12, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $12, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $13, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $13, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $14, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $14, %edx, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $15, %xmm0, %edx
	; AVX-NEXT: bsfl %edx, %edx
	; AVX-NEXT: cmovel %eax, %edx
	; AVX-NEXT: cmpl $32, %edx
	; AVX-NEXT: cmovel %ecx, %edx
	; AVX-NEXT: vpinsrb $15, %edx, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%out = call <16 x i8> @llvm.cttz.v16i8(<16 x i8> %in, i1 0)			%out = call <16 x i8> @llvm.cttz.v16i8(<16 x i8> %in, i1 0)
	ret <16 x i8> %out			ret <16 x i8> %out
	}			}

	define <16 x i8> @testv16i8u(<16 x i8> %in) nounwind {			define <16 x i8> @testv16i8u(<16 x i8> %in) nounwind {
	; SSE2-LABEL: testv16i8u:			; SSE2-LABEL: testv16i8u:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pushq %rbx			; SSE2-NEXT: pxor %xmm1, %xmm1
	; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: psubb %xmm0, %xmm1
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: pand %xmm0, %xmm1
	; SSE2-NEXT: bsfl %eax, %eax			; SSE2-NEXT: psubb {{.*}}(%rip), %xmm1
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r11d			; SSE2-NEXT: psrlw $1, %xmm0
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d			; SSE2-NEXT: psubb %xmm0, %xmm1
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi			; SSE2-NEXT: movdqa {{.*#+}} xmm0 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r10d			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx			; SSE2-NEXT: pand %xmm0, %xmm2
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r8d			; SSE2-NEXT: psrlw $2, %xmm1
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx			; SSE2-NEXT: pand %xmm0, %xmm1
	; SSE2-NEXT: bsfl %edx, %edx			; SSE2-NEXT: paddb %xmm2, %xmm1
	; SSE2-NEXT: movd %edx, %xmm1			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: psrlw $4, %xmm0
	; SSE2-NEXT: bsfl %edi, %edx			; SSE2-NEXT: paddb %xmm1, %xmm0
	; SSE2-NEXT: movd %edx, %xmm0			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx
	; SSE2-NEXT: bsfl %ebx, %ebx
	; SSE2-NEXT: movd %ebx, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE2-NEXT: bsfl %eax, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: bsfl %esi, %eax
	; SSE2-NEXT: movd %eax, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE2-NEXT: bsfl %ecx, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx
	; SSE2-NEXT: bsfl %ecx, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSE2-NEXT: bsfl %r11d, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: bsfl %edx, %ecx
	; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE2-NEXT: bsfl %r10d, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: bsfl %eax, %eax
	; SSE2-NEXT: movd %eax, %xmm3
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
	; SSE2-NEXT: bsfl %r9d, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: bsfl %edi, %eax
	; SSE2-NEXT: movd %eax, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE2-NEXT: bsfl %r8d, %eax
	; SSE2-NEXT: movd %eax, %xmm4
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: bsfl %eax, %eax
	; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE2-NEXT: popq %rbx
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE3-LABEL: testv16i8u:			; SSE3-LABEL: testv16i8u:
	; SSE3: # BB#0:			; SSE3: # BB#0:
	; SSE3-NEXT: pushq %rbx			; SSE3-NEXT: pxor %xmm1, %xmm1
	; SSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE3-NEXT: psubb %xmm0, %xmm1
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE3-NEXT: pand %xmm0, %xmm1
	; SSE3-NEXT: bsfl %eax, %eax			; SSE3-NEXT: psubb {{.*}}(%rip), %xmm1
	; SSE3-NEXT: movd %eax, %xmm0			; SSE3-NEXT: movdqa %xmm1, %xmm0
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r11d			; SSE3-NEXT: psrlw $1, %xmm0
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d			; SSE3-NEXT: psubb %xmm0, %xmm1
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi			; SSE3-NEXT: movdqa {{.*#+}} xmm0 = [51,51,51,51,51,51,51,51,51,51,51,51,51,51,51,51]
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r10d			; SSE3-NEXT: movdqa %xmm1, %xmm2
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx			; SSE3-NEXT: pand %xmm0, %xmm2
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r8d			; SSE3-NEXT: psrlw $2, %xmm1
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx			; SSE3-NEXT: pand %xmm0, %xmm1
	; SSE3-NEXT: bsfl %edx, %edx			; SSE3-NEXT: paddb %xmm2, %xmm1
	; SSE3-NEXT: movd %edx, %xmm1			; SSE3-NEXT: movdqa %xmm1, %xmm0
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE3-NEXT: psrlw $4, %xmm0
	; SSE3-NEXT: bsfl %edi, %edx			; SSE3-NEXT: paddb %xmm1, %xmm0
	; SSE3-NEXT: movd %edx, %xmm0			; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx
	; SSE3-NEXT: bsfl %ebx, %ebx
	; SSE3-NEXT: movd %ebx, %xmm2
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE3-NEXT: bsfl %eax, %eax
	; SSE3-NEXT: movd %eax, %xmm0
	; SSE3-NEXT: bsfl %esi, %eax
	; SSE3-NEXT: movd %eax, %xmm3
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE3-NEXT: bsfl %ecx, %eax
	; SSE3-NEXT: movd %eax, %xmm0
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx
	; SSE3-NEXT: bsfl %ecx, %ecx
	; SSE3-NEXT: movd %ecx, %xmm1
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSE3-NEXT: bsfl %r11d, %ecx
	; SSE3-NEXT: movd %ecx, %xmm0
	; SSE3-NEXT: bsfl %edx, %ecx
	; SSE3-NEXT: movd %ecx, %xmm2
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE3-NEXT: bsfl %r10d, %ecx
	; SSE3-NEXT: movd %ecx, %xmm0
	; SSE3-NEXT: bsfl %eax, %eax
	; SSE3-NEXT: movd %eax, %xmm3
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
	; SSE3-NEXT: bsfl %r9d, %eax
	; SSE3-NEXT: movd %eax, %xmm0
	; SSE3-NEXT: bsfl %edi, %eax
	; SSE3-NEXT: movd %eax, %xmm2
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE3-NEXT: bsfl %r8d, %eax
	; SSE3-NEXT: movd %eax, %xmm4
	; SSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE3-NEXT: bsfl %eax, %eax
	; SSE3-NEXT: movd %eax, %xmm0
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE3-NEXT: popq %rbx
	; SSE3-NEXT: retq			; SSE3-NEXT: retq
	;			;
	; SSSE3-LABEL: testv16i8u:			; SSSE3-LABEL: testv16i8u:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: pushq %rbx			; SSSE3-NEXT: pxor %xmm1, %xmm1
	; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: psubb %xmm0, %xmm1
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: pand %xmm0, %xmm1
	; SSSE3-NEXT: bsfl %eax, %eax			; SSSE3-NEXT: psubb {{.*}}(%rip), %xmm1
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r11d			; SSSE3-NEXT: movdqa %xmm1, %xmm3
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSSE3-NEXT: pand %xmm2, %xmm3
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d			; SSSE3-NEXT: movdqa {{.*#+}} xmm0 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi			; SSSE3-NEXT: movdqa %xmm0, %xmm4
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r10d			; SSSE3-NEXT: pshufb %xmm3, %xmm4
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx			; SSSE3-NEXT: psrlw $4, %xmm1
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %r8d			; SSSE3-NEXT: pand %xmm2, %xmm1
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx			; SSSE3-NEXT: pshufb %xmm1, %xmm0
	; SSSE3-NEXT: bsfl %edx, %edx			; SSSE3-NEXT: paddb %xmm4, %xmm0
	; SSSE3-NEXT: movd %edx, %xmm1
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSSE3-NEXT: bsfl %edi, %edx
	; SSSE3-NEXT: movd %edx, %xmm0
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx
	; SSSE3-NEXT: bsfl %ebx, %ebx
	; SSSE3-NEXT: movd %ebx, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSSE3-NEXT: bsfl %eax, %eax
	; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: bsfl %esi, %eax
	; SSSE3-NEXT: movd %eax, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSSE3-NEXT: bsfl %ecx, %eax
	; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx
	; SSSE3-NEXT: bsfl %ecx, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSSE3-NEXT: bsfl %r11d, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: bsfl %edx, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSSE3-NEXT: bsfl %r10d, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: bsfl %eax, %eax
	; SSSE3-NEXT: movd %eax, %xmm3
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
	; SSSE3-NEXT: bsfl %r9d, %eax
	; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: bsfl %edi, %eax
	; SSSE3-NEXT: movd %eax, %xmm2
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSSE3-NEXT: bsfl %r8d, %eax
	; SSSE3-NEXT: movd %eax, %xmm4
	; SSSE3-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSSE3-NEXT: bsfl %eax, %eax
	; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSSE3-NEXT: popq %rbx
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: testv16i8u:			; SSE41-LABEL: testv16i8u:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: pextrb $1, %xmm0, %eax			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: bsfl %eax, %eax			; SSE41-NEXT: psubb %xmm0, %xmm1
	; SSE41-NEXT: pextrb $0, %xmm0, %ecx			; SSE41-NEXT: pand %xmm0, %xmm1
	; SSE41-NEXT: bsfl %ecx, %ecx			; SSE41-NEXT: psubb {{.*}}(%rip), %xmm1
	; SSE41-NEXT: movd %ecx, %xmm1			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSE41-NEXT: pinsrb $1, %eax, %xmm1			; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: pextrb $2, %xmm0, %eax			; SSE41-NEXT: pand %xmm2, %xmm3
	; SSE41-NEXT: bsfl %eax, %eax			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; SSE41-NEXT: pinsrb $2, %eax, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pextrb $3, %xmm0, %eax			; SSE41-NEXT: pshufb %xmm3, %xmm4
	; SSE41-NEXT: bsfl %eax, %eax			; SSE41-NEXT: psrlw $4, %xmm1
	; SSE41-NEXT: pinsrb $3, %eax, %xmm1			; SSE41-NEXT: pand %xmm2, %xmm1
	; SSE41-NEXT: pextrb $4, %xmm0, %eax			; SSE41-NEXT: pshufb %xmm1, %xmm0
	; SSE41-NEXT: bsfl %eax, %eax			; SSE41-NEXT: paddb %xmm4, %xmm0
	; SSE41-NEXT: pinsrb $4, %eax, %xmm1
	; SSE41-NEXT: pextrb $5, %xmm0, %eax
	; SSE41-NEXT: bsfl %eax, %eax
	; SSE41-NEXT: pinsrb $5, %eax, %xmm1
	; SSE41-NEXT: pextrb $6, %xmm0, %eax
	; SSE41-NEXT: bsfl %eax, %eax
	; SSE41-NEXT: pinsrb $6, %eax, %xmm1
	; SSE41-NEXT: pextrb $7, %xmm0, %eax
	; SSE41-NEXT: bsfl %eax, %eax
	; SSE41-NEXT: pinsrb $7, %eax, %xmm1
	; SSE41-NEXT: pextrb $8, %xmm0, %eax
	; SSE41-NEXT: bsfl %eax, %eax
	; SSE41-NEXT: pinsrb $8, %eax, %xmm1
	; SSE41-NEXT: pextrb $9, %xmm0, %eax
	; SSE41-NEXT: bsfl %eax, %eax
	; SSE41-NEXT: pinsrb $9, %eax, %xmm1
	; SSE41-NEXT: pextrb $10, %xmm0, %eax
	; SSE41-NEXT: bsfl %eax, %eax
	; SSE41-NEXT: pinsrb $10, %eax, %xmm1
	; SSE41-NEXT: pextrb $11, %xmm0, %eax
	; SSE41-NEXT: bsfl %eax, %eax
	; SSE41-NEXT: pinsrb $11, %eax, %xmm1
	; SSE41-NEXT: pextrb $12, %xmm0, %eax
	; SSE41-NEXT: bsfl %eax, %eax
	; SSE41-NEXT: pinsrb $12, %eax, %xmm1
	; SSE41-NEXT: pextrb $13, %xmm0, %eax
	; SSE41-NEXT: bsfl %eax, %eax
	; SSE41-NEXT: pinsrb $13, %eax, %xmm1
	; SSE41-NEXT: pextrb $14, %xmm0, %eax
	; SSE41-NEXT: bsfl %eax, %eax
	; SSE41-NEXT: pinsrb $14, %eax, %xmm1
	; SSE41-NEXT: pextrb $15, %xmm0, %eax
	; SSE41-NEXT: bsfl %eax, %eax
	; SSE41-NEXT: pinsrb $15, %eax, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: testv16i8u:			; AVX-LABEL: testv16i8u:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpextrb $1, %xmm0, %eax			; AVX-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX-NEXT: bsfl %eax, %eax			; AVX-NEXT: vpsubb %xmm0, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $0, %xmm0, %ecx			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: bsfl %ecx, %ecx			; AVX-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vmovd %ecx, %xmm1			; AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX-NEXT: vpinsrb $1, %eax, %xmm1, %xmm1			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm2
	; AVX-NEXT: vpextrb $2, %xmm0, %eax			; AVX-NEXT: vmovdqa {{.*#+}} xmm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX-NEXT: bsfl %eax, %eax			; AVX-NEXT: vpshufb %xmm2, %xmm3, %xmm2
	; AVX-NEXT: vpinsrb $2, %eax, %xmm1, %xmm1			; AVX-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX-NEXT: vpextrb $3, %xmm0, %eax			; AVX-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX-NEXT: bsfl %eax, %eax			; AVX-NEXT: vpshufb %xmm0, %xmm3, %xmm0
	; AVX-NEXT: vpinsrb $3, %eax, %xmm1, %xmm1			; AVX-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpextrb $4, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $4, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $5, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $5, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $6, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $6, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $7, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $7, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $8, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $8, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $9, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $9, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $10, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $10, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $11, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $11, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $12, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $12, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $13, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $13, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $14, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $14, %eax, %xmm1, %xmm1
	; AVX-NEXT: vpextrb $15, %xmm0, %eax
	; AVX-NEXT: bsfl %eax, %eax
	; AVX-NEXT: vpinsrb $15, %eax, %xmm1, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%out = call <16 x i8> @llvm.cttz.v16i8(<16 x i8> %in, i1 -1)			%out = call <16 x i8> @llvm.cttz.v16i8(<16 x i8> %in, i1 -1)
	ret <16 x i8> %out			ret <16 x i8> %out
	}			}

	define <2 x i64> @foldv2i64() nounwind {			define <2 x i64> @foldv2i64() nounwind {
	; SSE-LABEL: foldv2i64:			; SSE-LABEL: foldv2i64:
	; SSE: # BB#0:			; SSE: # BB#0:
	▲ Show 20 Lines • Show All 117 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-tzcnt-256.ll

	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2

	define <4 x i64> @testv4i64(<4 x i64> %in) nounwind {			define <4 x i64> @testv4i64(<4 x i64> %in) nounwind {
	; AVX1-LABEL: testv4i64:			; AVX1-LABEL: testv4i64:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrq $1, %xmm1, %rax			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: bsfq %rax, %rax			; AVX1-NEXT: vpsubq %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: movl $64, %ecx			; AVX1-NEXT: vpsubq %xmm0, %xmm2, %xmm3
	; AVX1-NEXT: cmoveq %rcx, %rax			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm3, %ymm1
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vmovq %xmm1, %rax			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: bsfq %rax, %rax			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1]
	; AVX1-NEXT: cmoveq %rcx, %rax			; AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vmovq %rax, %xmm1			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm5
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX1-NEXT: bsfq %rax, %rax			; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: cmoveq %rcx, %rax			; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1
	; AVX1-NEXT: bsfq %rax, %rax			; AVX1-NEXT: vpaddb %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: cmoveq %rcx, %rax			; AVX1-NEXT: vpsadbw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vmovq %rax, %xmm0			; AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3
				; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3
				; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
				; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
				; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
				; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
				; AVX1-NEXT: vpsadbw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv4i64:			; AVX2-LABEL: testv4i64:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
	; AVX2-NEXT: vpextrq $1, %xmm1, %rax			; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm2
	; AVX2-NEXT: bsfq %rax, %rax			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: movl $64, %ecx			; AVX2-NEXT: vpbroadcastq {{.*}}(%rip), %ymm2
	; AVX2-NEXT: cmoveq %rcx, %rax			; AVX2-NEXT: vpsubq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX2-NEXT: vmovq %xmm1, %rax			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm3
	; AVX2-NEXT: bsfq %rax, %rax			; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX2-NEXT: cmoveq %rcx, %rax			; AVX2-NEXT: vpshufb %ymm3, %ymm4, %ymm3
	; AVX2-NEXT: vmovq %rax, %xmm1			; AVX2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpshufb %ymm0, %ymm4, %ymm0
	; AVX2-NEXT: bsfq %rax, %rax			; AVX2-NEXT: vpaddb %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: cmoveq %rcx, %rax			; AVX2-NEXT: vpsadbw %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: bsfq %rax, %rax
	; AVX2-NEXT: cmoveq %rcx, %rax
	; AVX2-NEXT: vmovq %rax, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%out = call <4 x i64> @llvm.cttz.v4i64(<4 x i64> %in, i1 0)			%out = call <4 x i64> @llvm.cttz.v4i64(<4 x i64> %in, i1 0)
	ret <4 x i64> %out			ret <4 x i64> %out
	}			}

	define <4 x i64> @testv4i64u(<4 x i64> %in) nounwind {			define <4 x i64> @testv4i64u(<4 x i64> %in) nounwind {
	; AVX1-LABEL: testv4i64u:			; AVX1-LABEL: testv4i64u:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrq $1, %xmm1, %rax			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: bsfq %rax, %rax			; AVX1-NEXT: vpsubq %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vpsubq %xmm0, %xmm2, %xmm3
	; AVX1-NEXT: vmovq %xmm1, %rax			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm3, %ymm1
	; AVX1-NEXT: bsfq %rax, %rax			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vmovq %rax, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1]
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: bsfq %rax, %rax			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm5
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX1-NEXT: bsfq %rax, %rax			; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vmovq %rax, %xmm0			; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
				; AVX1-NEXT: vpshufb %xmm1, %xmm6, %xmm1
				; AVX1-NEXT: vpaddb %xmm5, %xmm1, %xmm1
				; AVX1-NEXT: vpsadbw %xmm1, %xmm2, %xmm1
				; AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0
				; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3
				; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3
				; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
				; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
				; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
				; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
				; AVX1-NEXT: vpsadbw %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv4i64u:			; AVX2-LABEL: testv4i64u:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
	; AVX2-NEXT: vpextrq $1, %xmm1, %rax			; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm2
	; AVX2-NEXT: bsfq %rax, %rax			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vpbroadcastq {{.*}}(%rip), %ymm2
	; AVX2-NEXT: vmovq %xmm1, %rax			; AVX2-NEXT: vpsubq %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: bsfq %rax, %rax			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX2-NEXT: vmovq %rax, %xmm1			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm3
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpshufb %ymm3, %ymm4, %ymm3
	; AVX2-NEXT: bsfq %rax, %rax			; AVX2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vpshufb %ymm0, %ymm4, %ymm0
	; AVX2-NEXT: bsfq %rax, %rax			; AVX2-NEXT: vpaddb %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vmovq %rax, %xmm0			; AVX2-NEXT: vpsadbw %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%out = call <4 x i64> @llvm.cttz.v4i64(<4 x i64> %in, i1 -1)			%out = call <4 x i64> @llvm.cttz.v4i64(<4 x i64> %in, i1 -1)
	ret <4 x i64> %out			ret <4 x i64> %out
	}			}

	define <8 x i32> @testv8i32(<8 x i32> %in) nounwind {			define <8 x i32> @testv8i32(<8 x i32> %in) nounwind {
	; AVX1-LABEL: testv8i32:			; AVX1-LABEL: testv8i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpextrd $1, %xmm1, %eax			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: bsfl %eax, %ecx			; AVX1-NEXT: vpsubd %xmm2, %xmm1, %xmm2
	; AVX1-NEXT: movl $32, %eax			; AVX1-NEXT: vpsubd %xmm0, %xmm1, %xmm3
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; AVX1-NEXT: vmovd %xmm1, %edx			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: bsfl %edx, %edx			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: cmovel %eax, %edx			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1,1,1]
	; AVX1-NEXT: vmovd %edx, %xmm2			; AVX1-NEXT: vpsubd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpinsrd $1, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX1-NEXT: vpextrd $2, %xmm1, %ecx			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm5
	; AVX1-NEXT: bsfl %ecx, %ecx			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vpinsrd $2, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $4, %xmm2, %xmm2
	; AVX1-NEXT: vpextrd $3, %xmm1, %ecx			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: bsfl %ecx, %ecx			; AVX1-NEXT: vpshufb %xmm2, %xmm6, %xmm2
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: vpaddb %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpinsrd $3, %ecx, %xmm2, %xmm1			; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm5 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; AVX1-NEXT: vpextrd $1, %xmm0, %ecx			; AVX1-NEXT: vpsadbw %xmm5, %xmm1, %xmm5
	; AVX1-NEXT: bsfl %ecx, %ecx			; AVX1-NEXT: vpunpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: vpsadbw %xmm2, %xmm1, %xmm2
	; AVX1-NEXT: vmovd %xmm0, %edx			; AVX1-NEXT: vpackuswb %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: bsfl %edx, %edx			; AVX1-NEXT: vpsubd %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: cmovel %eax, %edx			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3
	; AVX1-NEXT: vmovd %edx, %xmm2			; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3
	; AVX1-NEXT: vpinsrd $1, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX1-NEXT: vpextrd $2, %xmm0, %ecx			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: bsfl %ecx, %ecx			; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrd $2, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; AVX1-NEXT: vpextrd $3, %xmm0, %ecx			; AVX1-NEXT: vpsadbw %xmm3, %xmm1, %xmm3
	; AVX1-NEXT: bsfl %ecx, %ecx			; AVX1-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: vpsadbw %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpinsrd $3, %ecx, %xmm2, %xmm0			; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv8i32:			; AVX2-LABEL: testv8i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
	; AVX2-NEXT: vpextrd $1, %xmm1, %eax			; AVX2-NEXT: vpsubd %ymm0, %ymm1, %ymm2
	; AVX2-NEXT: bsfl %eax, %ecx			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: movl $32, %eax			; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm2
	; AVX2-NEXT: cmovel %eax, %ecx			; AVX2-NEXT: vpsubd %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm1, %edx			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX2-NEXT: bsfl %edx, %edx			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm3
	; AVX2-NEXT: cmovel %eax, %edx			; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX2-NEXT: vmovd %edx, %xmm2			; AVX2-NEXT: vpshufb %ymm3, %ymm4, %ymm3
	; AVX2-NEXT: vpinsrd $1, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX2-NEXT: vpextrd $2, %xmm1, %ecx			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: bsfl %ecx, %ecx			; AVX2-NEXT: vpshufb %ymm0, %ymm4, %ymm0
	; AVX2-NEXT: cmovel %eax, %ecx			; AVX2-NEXT: vpaddb %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpinsrd $2, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpunpckhdq {{.*#+}} ymm2 = ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[6],ymm1[6],ymm0[7],ymm1[7]
	; AVX2-NEXT: vpextrd $3, %xmm1, %ecx			; AVX2-NEXT: vpsadbw %ymm2, %ymm1, %ymm2
	; AVX2-NEXT: bsfl %ecx, %ecx			; AVX2-NEXT: vpunpckldq {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[4],ymm1[4],ymm0[5],ymm1[5]
	; AVX2-NEXT: cmovel %eax, %ecx			; AVX2-NEXT: vpsadbw %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpinsrd $3, %ecx, %xmm2, %xmm1			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpextrd $1, %xmm0, %ecx
	; AVX2-NEXT: bsfl %ecx, %ecx
	; AVX2-NEXT: cmovel %eax, %ecx
	; AVX2-NEXT: vmovd %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: vmovd %edx, %xmm2
	; AVX2-NEXT: vpinsrd $1, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $2, %xmm0, %ecx
	; AVX2-NEXT: bsfl %ecx, %ecx
	; AVX2-NEXT: cmovel %eax, %ecx
	; AVX2-NEXT: vpinsrd $2, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $3, %xmm0, %ecx
	; AVX2-NEXT: bsfl %ecx, %ecx
	; AVX2-NEXT: cmovel %eax, %ecx
	; AVX2-NEXT: vpinsrd $3, %ecx, %xmm2, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%out = call <8 x i32> @llvm.cttz.v8i32(<8 x i32> %in, i1 0)			%out = call <8 x i32> @llvm.cttz.v8i32(<8 x i32> %in, i1 0)
	ret <8 x i32> %out			ret <8 x i32> %out
	}			}

	define <8 x i32> @testv8i32u(<8 x i32> %in) nounwind {			define <8 x i32> @testv8i32u(<8 x i32> %in) nounwind {
	; AVX1-LABEL: testv8i32u:			; AVX1-LABEL: testv8i32u:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpextrd $1, %xmm1, %eax			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpsubd %xmm2, %xmm1, %xmm2
	; AVX1-NEXT: vmovd %xmm1, %ecx			; AVX1-NEXT: vpsubd %xmm0, %xmm1, %xmm3
	; AVX1-NEXT: bsfl %ecx, %ecx			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; AVX1-NEXT: vmovd %ecx, %xmm2			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpextrd $2, %xmm1, %eax			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1,1,1]
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpsubd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX1-NEXT: vpextrd $3, %xmm1, %eax			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm5
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm1			; AVX1-NEXT: vpshufb %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpsrlw $4, %xmm2, %xmm2
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vmovd %xmm0, %ecx			; AVX1-NEXT: vpshufb %xmm2, %xmm6, %xmm2
	; AVX1-NEXT: bsfl %ecx, %ecx			; AVX1-NEXT: vpaddb %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vmovd %ecx, %xmm2			; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm5 = xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpsadbw %xmm5, %xmm1, %xmm5
	; AVX1-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vpunpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpsadbw %xmm2, %xmm1, %xmm2
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpackuswb %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpextrd $3, %xmm0, %eax			; AVX1-NEXT: vpsubd %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm3
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0			; AVX1-NEXT: vpshufb %xmm3, %xmm6, %xmm3
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
				; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
				; AVX1-NEXT: vpshufb %xmm0, %xmm6, %xmm0
				; AVX1-NEXT: vpaddb %xmm3, %xmm0, %xmm0
				; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm3 = xmm0[2],xmm1[2],xmm0[3],xmm1[3]
				; AVX1-NEXT: vpsadbw %xmm3, %xmm1, %xmm3
				; AVX1-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
				; AVX1-NEXT: vpsadbw %xmm0, %xmm1, %xmm0
				; AVX1-NEXT: vpackuswb %xmm3, %xmm0, %xmm0
				; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv8i32u:			; AVX2-LABEL: testv8i32u:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
	; AVX2-NEXT: vpextrd $1, %xmm1, %eax			; AVX2-NEXT: vpsubd %ymm0, %ymm1, %ymm2
	; AVX2-NEXT: bsfl %eax, %eax			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm1, %ecx			; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %ymm2
	; AVX2-NEXT: bsfl %ecx, %ecx			; AVX2-NEXT: vpsubd %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %ecx, %xmm2			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX2-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm3
	; AVX2-NEXT: vpextrd $2, %xmm1, %eax			; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX2-NEXT: bsfl %eax, %eax			; AVX2-NEXT: vpshufb %ymm3, %ymm4, %ymm3
	; AVX2-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX2-NEXT: vpextrd $3, %xmm1, %eax			; AVX2-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: bsfl %eax, %eax			; AVX2-NEXT: vpshufb %ymm0, %ymm4, %ymm0
	; AVX2-NEXT: vpinsrd $3, %eax, %xmm2, %xmm1			; AVX2-NEXT: vpaddb %ymm3, %ymm0, %ymm0
	; AVX2-NEXT: vpextrd $1, %xmm0, %eax			; AVX2-NEXT: vpunpckhdq {{.*#+}} ymm2 = ymm0[2],ymm1[2],ymm0[3],ymm1[3],ymm0[6],ymm1[6],ymm0[7],ymm1[7]
	; AVX2-NEXT: bsfl %eax, %eax			; AVX2-NEXT: vpsadbw %ymm2, %ymm1, %ymm2
	; AVX2-NEXT: vmovd %xmm0, %ecx			; AVX2-NEXT: vpunpckldq {{.*#+}} ymm0 = ymm0[0],ymm1[0],ymm0[1],ymm1[1],ymm0[4],ymm1[4],ymm0[5],ymm1[5]
	; AVX2-NEXT: bsfl %ecx, %ecx			; AVX2-NEXT: vpsadbw %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vmovd %ecx, %xmm2			; AVX2-NEXT: vpackuswb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $2, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $3, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%out = call <8 x i32> @llvm.cttz.v8i32(<8 x i32> %in, i1 -1)			%out = call <8 x i32> @llvm.cttz.v8i32(<8 x i32> %in, i1 -1)
	ret <8 x i32> %out			ret <8 x i32> %out
	}			}

	define <16 x i16> @testv16i16(<16 x i16> %in) nounwind {			define <16 x i16> @testv16i16(<16 x i16> %in) nounwind {
	; AVX1-LABEL: testv16i16:			; AVX1-LABEL: testv16i16:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrw $1, %xmm1, %eax			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: bsfw %ax, %cx			; AVX1-NEXT: vpsubw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: movw $16, %ax			; AVX1-NEXT: vpsubw %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
	; AVX1-NEXT: vmovd %xmm1, %edx			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: bsfw %dx, %dx			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [1,1,1,1,1,1,1,1]
	; AVX1-NEXT: cmovew %ax, %dx			; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: vmovd %edx, %xmm2			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX1-NEXT: vpinsrw $1, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm4
	; AVX1-NEXT: vpextrw $2, %xmm1, %ecx			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX1-NEXT: bsfw %cx, %cx			; AVX1-NEXT: vpshufb %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: vpsrlw $4, %xmm2, %xmm2
	; AVX1-NEXT: vpinsrw $2, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $3, %xmm1, %ecx			; AVX1-NEXT: vpshufb %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: bsfw %cx, %cx			; AVX1-NEXT: vpaddb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: vpsllw $8, %xmm2, %xmm4
	; AVX1-NEXT: vpinsrw $3, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpaddb %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpextrw $4, %xmm1, %ecx			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: bsfw %cx, %cx			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrw $4, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm1
	; AVX1-NEXT: vpextrw $5, %xmm1, %ecx			; AVX1-NEXT: vpshufb %xmm1, %xmm5, %xmm1
	; AVX1-NEXT: bsfw %cx, %cx			; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm0, %xmm5, %xmm0
	; AVX1-NEXT: vpextrw $6, %xmm1, %ecx			; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: bsfw %cx, %cx			; AVX1-NEXT: vpsllw $8, %xmm0, %xmm1
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm0
	; AVX1-NEXT: vpextrw $7, %xmm1, %ecx			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
	; AVX1-NEXT: bsfw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: vpinsrw $7, %ecx, %xmm2, %xmm1
	; AVX1-NEXT: vpextrw $1, %xmm0, %ecx
	; AVX1-NEXT: bsfw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: vmovd %xmm0, %edx
	; AVX1-NEXT: bsfw %dx, %dx
	; AVX1-NEXT: cmovew %ax, %dx
	; AVX1-NEXT: vmovd %edx, %xmm2
	; AVX1-NEXT: vpinsrw $1, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $2, %xmm0, %ecx
	; AVX1-NEXT: bsfw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: vpinsrw $2, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $3, %xmm0, %ecx
	; AVX1-NEXT: bsfw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: vpinsrw $3, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $4, %xmm0, %ecx
	; AVX1-NEXT: bsfw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: vpinsrw $4, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $5, %xmm0, %ecx
	; AVX1-NEXT: bsfw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $6, %xmm0, %ecx
	; AVX1-NEXT: bsfw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $7, %xmm0, %ecx
	; AVX1-NEXT: bsfw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: vpinsrw $7, %ecx, %xmm2, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv16i16:			; AVX2-LABEL: testv16i16:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
	; AVX2-NEXT: vpextrw $1, %xmm1, %eax			; AVX2-NEXT: vpsubw %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: bsfw %ax, %cx			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: movw $16, %ax			; AVX2-NEXT: vpsubw {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX2-NEXT: vmovd %xmm1, %edx			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: bsfw %dx, %dx			; AVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX2-NEXT: cmovew %ax, %dx			; AVX2-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vmovd %edx, %xmm2			; AVX2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX2-NEXT: vpinsrw $1, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpextrw $2, %xmm1, %ecx			; AVX2-NEXT: vpshufb %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: bsfw %cx, %cx			; AVX2-NEXT: vpaddb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: vpsllw $8, %ymm0, %ymm1
	; AVX2-NEXT: vpinsrw $2, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpaddb %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: vpextrw $3, %xmm1, %ecx			; AVX2-NEXT: vpsrlw $8, %ymm0, %ymm0
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vpinsrw $3, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $4, %xmm1, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vpinsrw $4, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $5, %xmm1, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $6, %xmm1, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $7, %xmm1, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vpinsrw $7, %ecx, %xmm2, %xmm1
	; AVX2-NEXT: vpextrw $1, %xmm0, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vmovd %xmm0, %edx
	; AVX2-NEXT: bsfw %dx, %dx
	; AVX2-NEXT: cmovew %ax, %dx
	; AVX2-NEXT: vmovd %edx, %xmm2
	; AVX2-NEXT: vpinsrw $1, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $2, %xmm0, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vpinsrw $2, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $3, %xmm0, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vpinsrw $3, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $4, %xmm0, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vpinsrw $4, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $5, %xmm0, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $6, %xmm0, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $7, %xmm0, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: vpinsrw $7, %ecx, %xmm2, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%out = call <16 x i16> @llvm.cttz.v16i16(<16 x i16> %in, i1 0)			%out = call <16 x i16> @llvm.cttz.v16i16(<16 x i16> %in, i1 0)
	ret <16 x i16> %out			ret <16 x i16> %out
	}			}

	define <16 x i16> @testv16i16u(<16 x i16> %in) nounwind {			define <16 x i16> @testv16i16u(<16 x i16> %in) nounwind {
	; AVX1-LABEL: testv16i16u:			; AVX1-LABEL: testv16i16u:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrw $1, %xmm1, %eax			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: bsfw %ax, %ax			; AVX1-NEXT: vpsubw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vmovd %xmm1, %ecx			; AVX1-NEXT: vpsubw %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: bsfw %cx, %cx			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
	; AVX1-NEXT: vmovd %ecx, %xmm2			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpinsrw $1, %eax, %xmm2, %xmm2			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [1,1,1,1,1,1,1,1]
	; AVX1-NEXT: vpextrw $2, %xmm1, %eax			; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm2
	; AVX1-NEXT: bsfw %ax, %ax			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX1-NEXT: vpinsrw $2, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm4
	; AVX1-NEXT: vpextrw $3, %xmm1, %eax			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX1-NEXT: bsfw %ax, %ax			; AVX1-NEXT: vpshufb %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpinsrw $3, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $4, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $4, %xmm1, %eax			; AVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: bsfw %ax, %ax			; AVX1-NEXT: vpshufb %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpaddb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $5, %xmm1, %eax			; AVX1-NEXT: vpsllw $8, %xmm2, %xmm4
	; AVX1-NEXT: bsfw %ax, %ax			; AVX1-NEXT: vpaddb %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpinsrw $5, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $6, %xmm1, %eax			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: bsfw %ax, %ax			; AVX1-NEXT: vpsubw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrw $6, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm1
	; AVX1-NEXT: vpextrw $7, %xmm1, %eax			; AVX1-NEXT: vpshufb %xmm1, %xmm5, %xmm1
	; AVX1-NEXT: bsfw %ax, %ax			; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrw $7, %eax, %xmm2, %xmm1			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpextrw $1, %xmm0, %eax			; AVX1-NEXT: vpshufb %xmm0, %xmm5, %xmm0
	; AVX1-NEXT: bsfw %ax, %ax			; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vmovd %xmm0, %ecx			; AVX1-NEXT: vpsllw $8, %xmm0, %xmm1
	; AVX1-NEXT: bsfw %cx, %cx			; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vmovd %ecx, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrw $1, %eax, %xmm2, %xmm2			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
	; AVX1-NEXT: vpextrw $2, %xmm0, %eax
	; AVX1-NEXT: bsfw %ax, %ax
	; AVX1-NEXT: vpinsrw $2, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $3, %xmm0, %eax
	; AVX1-NEXT: bsfw %ax, %ax
	; AVX1-NEXT: vpinsrw $3, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $4, %xmm0, %eax
	; AVX1-NEXT: bsfw %ax, %ax
	; AVX1-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $5, %xmm0, %eax
	; AVX1-NEXT: bsfw %ax, %ax
	; AVX1-NEXT: vpinsrw $5, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $6, %xmm0, %eax
	; AVX1-NEXT: bsfw %ax, %ax
	; AVX1-NEXT: vpinsrw $6, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $7, %xmm0, %eax
	; AVX1-NEXT: bsfw %ax, %ax
	; AVX1-NEXT: vpinsrw $7, %eax, %xmm2, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv16i16u:			; AVX2-LABEL: testv16i16u:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
	; AVX2-NEXT: vpextrw $1, %xmm1, %eax			; AVX2-NEXT: vpsubw %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: bsfw %ax, %ax			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vmovd %xmm1, %ecx			; AVX2-NEXT: vpsubw {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: bsfw %cx, %cx			; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX2-NEXT: vmovd %ecx, %xmm2			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpinsrw $1, %eax, %xmm2, %xmm2			; AVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX2-NEXT: vpextrw $2, %xmm1, %eax			; AVX2-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: bsfw %ax, %ax			; AVX2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX2-NEXT: vpinsrw $2, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpextrw $3, %xmm1, %eax			; AVX2-NEXT: vpshufb %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: bsfw %ax, %ax			; AVX2-NEXT: vpaddb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpinsrw $3, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpsllw $8, %ymm0, %ymm1
	; AVX2-NEXT: vpextrw $4, %xmm1, %eax			; AVX2-NEXT: vpaddb %ymm0, %ymm1, %ymm0
	; AVX2-NEXT: bsfw %ax, %ax			; AVX2-NEXT: vpsrlw $8, %ymm0, %ymm0
	; AVX2-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $5, %xmm1, %eax
	; AVX2-NEXT: bsfw %ax, %ax
	; AVX2-NEXT: vpinsrw $5, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $6, %xmm1, %eax
	; AVX2-NEXT: bsfw %ax, %ax
	; AVX2-NEXT: vpinsrw $6, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $7, %xmm1, %eax
	; AVX2-NEXT: bsfw %ax, %ax
	; AVX2-NEXT: vpinsrw $7, %eax, %xmm2, %xmm1
	; AVX2-NEXT: vpextrw $1, %xmm0, %eax
	; AVX2-NEXT: bsfw %ax, %ax
	; AVX2-NEXT: vmovd %xmm0, %ecx
	; AVX2-NEXT: bsfw %cx, %cx
	; AVX2-NEXT: vmovd %ecx, %xmm2
	; AVX2-NEXT: vpinsrw $1, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $2, %xmm0, %eax
	; AVX2-NEXT: bsfw %ax, %ax
	; AVX2-NEXT: vpinsrw $2, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $3, %xmm0, %eax
	; AVX2-NEXT: bsfw %ax, %ax
	; AVX2-NEXT: vpinsrw $3, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $4, %xmm0, %eax
	; AVX2-NEXT: bsfw %ax, %ax
	; AVX2-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $5, %xmm0, %eax
	; AVX2-NEXT: bsfw %ax, %ax
	; AVX2-NEXT: vpinsrw $5, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $6, %xmm0, %eax
	; AVX2-NEXT: bsfw %ax, %ax
	; AVX2-NEXT: vpinsrw $6, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $7, %xmm0, %eax
	; AVX2-NEXT: bsfw %ax, %ax
	; AVX2-NEXT: vpinsrw $7, %eax, %xmm2, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%out = call <16 x i16> @llvm.cttz.v16i16(<16 x i16> %in, i1 -1)			%out = call <16 x i16> @llvm.cttz.v16i16(<16 x i16> %in, i1 -1)
	ret <16 x i16> %out			ret <16 x i16> %out
	}			}

	define <32 x i8> @testv32i8(<32 x i8> %in) nounwind {			define <32 x i8> @testv32i8(<32 x i8> %in) nounwind {
	; AVX1-LABEL: testv32i8:			; AVX1-LABEL: testv32i8:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrb $1, %xmm1, %eax			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: bsfl %eax, %edx			; AVX1-NEXT: vpsubb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: movl $32, %eax			; AVX1-NEXT: vpsubb %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: cmovel %eax, %edx			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
	; AVX1-NEXT: cmpl $32, %edx			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: movl $8, %ecx			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: cmovel %ecx, %edx			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX1-NEXT: vpextrb $0, %xmm1, %esi			; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: bsfl %esi, %esi			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX1-NEXT: cmovel %eax, %esi			; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm4
	; AVX1-NEXT: cmpl $32, %esi			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX1-NEXT: cmovel %ecx, %esi			; AVX1-NEXT: vpshufb %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vmovd %esi, %xmm2			; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
	; AVX1-NEXT: vpinsrb $1, %edx, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpextrb $2, %xmm1, %edx			; AVX1-NEXT: vpshufb %xmm1, %xmm5, %xmm1
	; AVX1-NEXT: bsfl %edx, %edx			; AVX1-NEXT: vpaddb %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: cmovel %eax, %edx			; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: cmpl $32, %edx			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm2
	; AVX1-NEXT: cmovel %ecx, %edx			; AVX1-NEXT: vpshufb %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: vpinsrb $2, %edx, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $3, %xmm1, %edx			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: bsfl %edx, %edx			; AVX1-NEXT: vpshufb %xmm0, %xmm5, %xmm0
	; AVX1-NEXT: cmovel %eax, %edx			; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $3, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $4, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $4, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $5, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $5, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $6, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $6, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $7, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $7, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $8, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $8, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $9, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $9, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $10, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $10, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $11, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $11, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $12, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $12, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $13, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $13, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $14, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $14, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $15, %xmm1, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $15, %edx, %xmm2, %xmm1
	; AVX1-NEXT: vpextrb $1, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpextrb $0, %xmm0, %esi
	; AVX1-NEXT: bsfl %esi, %esi
	; AVX1-NEXT: cmovel %eax, %esi
	; AVX1-NEXT: cmpl $32, %esi
	; AVX1-NEXT: cmovel %ecx, %esi
	; AVX1-NEXT: vmovd %esi, %xmm2
	; AVX1-NEXT: vpinsrb $1, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $2, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $2, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $3, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $3, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $4, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $4, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $5, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $5, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $6, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $6, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $7, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $7, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $8, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $8, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $9, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $9, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $10, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $10, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $11, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $11, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $12, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $12, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $13, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $13, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $14, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $14, %edx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $15, %xmm0, %edx
	; AVX1-NEXT: bsfl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: cmpl $32, %edx
	; AVX1-NEXT: cmovel %ecx, %edx
	; AVX1-NEXT: vpinsrb $15, %edx, %xmm2, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv32i8:			; AVX2-LABEL: testv32i8:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
	; AVX2-NEXT: vpextrb $1, %xmm1, %eax			; AVX2-NEXT: vpsubb %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: bsfl %eax, %edx			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: movl $32, %eax			; AVX2-NEXT: vpsubb {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: cmovel %eax, %edx			; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX2-NEXT: cmpl $32, %edx			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: movl $8, %ecx			; AVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX2-NEXT: cmovel %ecx, %edx			; AVX2-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: vpextrb $0, %xmm1, %esi			; AVX2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX2-NEXT: bsfl %esi, %esi			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: cmovel %eax, %esi			; AVX2-NEXT: vpshufb %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: cmpl $32, %esi			; AVX2-NEXT: vpaddb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: cmovel %ecx, %esi
	; AVX2-NEXT: vmovd %esi, %xmm2
	; AVX2-NEXT: vpinsrb $1, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $2, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $2, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $3, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $3, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $4, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $4, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $5, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $5, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $6, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $6, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $7, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $7, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $8, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $8, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $9, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $9, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $10, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $10, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $11, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $11, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $12, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $12, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $13, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $13, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $14, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $14, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $15, %xmm1, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $15, %edx, %xmm2, %xmm1
	; AVX2-NEXT: vpextrb $1, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpextrb $0, %xmm0, %esi
	; AVX2-NEXT: bsfl %esi, %esi
	; AVX2-NEXT: cmovel %eax, %esi
	; AVX2-NEXT: cmpl $32, %esi
	; AVX2-NEXT: cmovel %ecx, %esi
	; AVX2-NEXT: vmovd %esi, %xmm2
	; AVX2-NEXT: vpinsrb $1, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $2, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $2, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $3, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $3, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $4, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $4, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $5, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $5, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $6, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $6, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $7, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $7, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $8, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $8, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $9, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $9, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $10, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $10, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $11, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $11, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $12, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $12, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $13, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $13, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $14, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $14, %edx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $15, %xmm0, %edx
	; AVX2-NEXT: bsfl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: cmpl $32, %edx
	; AVX2-NEXT: cmovel %ecx, %edx
	; AVX2-NEXT: vpinsrb $15, %edx, %xmm2, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%out = call <32 x i8> @llvm.cttz.v32i8(<32 x i8> %in, i1 0)			%out = call <32 x i8> @llvm.cttz.v32i8(<32 x i8> %in, i1 0)
	ret <32 x i8> %out			ret <32 x i8> %out
	}			}

	define <32 x i8> @testv32i8u(<32 x i8> %in) nounwind {			define <32 x i8> @testv32i8u(<32 x i8> %in) nounwind {
	; AVX1-LABEL: testv32i8u:			; AVX1-LABEL: testv32i8u:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrb $1, %xmm1, %eax			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpsubb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpextrb $0, %xmm1, %ecx			; AVX1-NEXT: vpsubb %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: bsfl %ecx, %ecx			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
	; AVX1-NEXT: vmovd %ecx, %xmm2			; AVX1-NEXT: vandps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: vpinsrb $1, %eax, %xmm2, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrb $2, %xmm1, %eax			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpinsrb $2, %eax, %xmm2, %xmm2			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX1-NEXT: vpextrb $3, %xmm1, %eax			; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm4
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX1-NEXT: vpinsrb $3, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm4, %xmm5, %xmm4
	; AVX1-NEXT: vpextrb $4, %xmm1, %eax			; AVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpinsrb $4, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpshufb %xmm1, %xmm5, %xmm1
	; AVX1-NEXT: vpextrb $5, %xmm1, %eax			; AVX1-NEXT: vpaddb %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrb $5, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm2
	; AVX1-NEXT: vpextrb $6, %xmm1, %eax			; AVX1-NEXT: vpshufb %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrb $6, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpextrb $7, %xmm1, %eax			; AVX1-NEXT: vpshufb %xmm0, %xmm5, %xmm0
	; AVX1-NEXT: bsfl %eax, %eax			; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrb $7, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $8, %xmm1, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $8, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $9, %xmm1, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $9, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $10, %xmm1, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $10, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $11, %xmm1, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $11, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $12, %xmm1, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $12, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $13, %xmm1, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $13, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $14, %xmm1, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $14, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $15, %xmm1, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $15, %eax, %xmm2, %xmm1
	; AVX1-NEXT: vpextrb $1, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpextrb $0, %xmm0, %ecx
	; AVX1-NEXT: bsfl %ecx, %ecx
	; AVX1-NEXT: vmovd %ecx, %xmm2
	; AVX1-NEXT: vpinsrb $1, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $2, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $2, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $3, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $3, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $4, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $4, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $5, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $5, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $6, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $6, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $7, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $7, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $8, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $8, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $9, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $9, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $10, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $10, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $11, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $11, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $12, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $12, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $13, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $13, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $14, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $14, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrb $15, %xmm0, %eax
	; AVX1-NEXT: bsfl %eax, %eax
	; AVX1-NEXT: vpinsrb $15, %eax, %xmm2, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv32i8u:			; AVX2-LABEL: testv32i8u:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vpxor %ymm1, %ymm1, %ymm1
	; AVX2-NEXT: vpextrb $1, %xmm1, %eax			; AVX2-NEXT: vpsubb %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: bsfl %eax, %eax			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpextrb $0, %xmm1, %ecx			; AVX2-NEXT: vpsubb {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: bsfl %ecx, %ecx			; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; AVX2-NEXT: vmovd %ecx, %xmm2			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm2
	; AVX2-NEXT: vpinsrb $1, %eax, %xmm2, %xmm2			; AVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; AVX2-NEXT: vpextrb $2, %xmm1, %eax			; AVX2-NEXT: vpshufb %ymm2, %ymm3, %ymm2
	; AVX2-NEXT: bsfl %eax, %eax			; AVX2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX2-NEXT: vpinsrb $2, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpextrb $3, %xmm1, %eax			; AVX2-NEXT: vpshufb %ymm0, %ymm3, %ymm0
	; AVX2-NEXT: bsfl %eax, %eax			; AVX2-NEXT: vpaddb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpinsrb $3, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $4, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $4, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $5, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $5, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $6, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $6, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $7, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $7, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $8, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $8, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $9, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $9, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $10, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $10, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $11, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $11, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $12, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $12, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $13, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $13, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $14, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $14, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $15, %xmm1, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $15, %eax, %xmm2, %xmm1
	; AVX2-NEXT: vpextrb $1, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpextrb $0, %xmm0, %ecx
	; AVX2-NEXT: bsfl %ecx, %ecx
	; AVX2-NEXT: vmovd %ecx, %xmm2
	; AVX2-NEXT: vpinsrb $1, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $2, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $2, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $3, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $3, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $4, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $4, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $5, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $5, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $6, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $6, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $7, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $7, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $8, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $8, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $9, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $9, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $10, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $10, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $11, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $11, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $12, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $12, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $13, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $13, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $14, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $14, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrb $15, %xmm0, %eax
	; AVX2-NEXT: bsfl %eax, %eax
	; AVX2-NEXT: vpinsrb $15, %eax, %xmm2, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%out = call <32 x i8> @llvm.cttz.v32i8(<32 x i8> %in, i1 -1)			%out = call <32 x i8> @llvm.cttz.v32i8(<32 x i8> %in, i1 -1)
	ret <32 x i8> %out			ret <32 x i8> %out
	}			}

	define <4 x i64> @foldv4i64() nounwind {			define <4 x i64> @foldv4i64() nounwind {
	; ALL-LABEL: foldv4i64:			; ALL-LABEL: foldv4i64:
	; ALL: # BB#0:			; ALL: # BB#0:
	▲ Show 20 Lines • Show All 73 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-tzcnt-512.ll

	Show All 39 Lines
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%out = call <8 x i64> @llvm.cttz.v8i64(<8 x i64> %in, i1 0)			%out = call <8 x i64> @llvm.cttz.v8i64(<8 x i64> %in, i1 0)
	ret <8 x i64> %out			ret <8 x i64> %out
	}			}

	define <8 x i64> @testv8i64u(<8 x i64> %in) nounwind {			define <8 x i64> @testv8i64u(<8 x i64> %in) nounwind {
	; ALL-LABEL: testv8i64u:			; ALL-LABEL: testv8i64u:
	; ALL: ## BB#0:			; ALL: ## BB#0:
	; ALL-NEXT: vextracti32x4 $3, %zmm0, %xmm1			; ALL-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; ALL-NEXT: vpextrq $1, %xmm1, %rax			; ALL-NEXT: vpsubq %zmm0, %zmm1, %zmm1
	; ALL-NEXT: tzcntq %rax, %rax			; ALL-NEXT: vpandq %zmm1, %zmm0, %zmm0
	; ALL-NEXT: vmovq %rax, %xmm2			; ALL-NEXT: vplzcntq %zmm0, %zmm0
	; ALL-NEXT: vmovq %xmm1, %rax			; ALL-NEXT: vpbroadcastq {{.*}}(%rip), %zmm1
	; ALL-NEXT: tzcntq %rax, %rax			; ALL-NEXT: vpsubq %zmm0, %zmm1, %zmm0
	; ALL-NEXT: vmovq %rax, %xmm1
	; ALL-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; ALL-NEXT: vextracti32x4 $2, %zmm0, %xmm2
	; ALL-NEXT: vpextrq $1, %xmm2, %rax
	; ALL-NEXT: tzcntq %rax, %rax
	; ALL-NEXT: vmovq %rax, %xmm3
	; ALL-NEXT: vmovq %xmm2, %rax
	; ALL-NEXT: tzcntq %rax, %rax
	; ALL-NEXT: vmovq %rax, %xmm2
	; ALL-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
	; ALL-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1
	; ALL-NEXT: vextracti32x4 $1, %zmm0, %xmm2
	; ALL-NEXT: vpextrq $1, %xmm2, %rax
	; ALL-NEXT: tzcntq %rax, %rax
	; ALL-NEXT: vmovq %rax, %xmm3
	; ALL-NEXT: vmovq %xmm2, %rax
	; ALL-NEXT: tzcntq %rax, %rax
	; ALL-NEXT: vmovq %rax, %xmm2
	; ALL-NEXT: vpunpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm3[0]
	; ALL-NEXT: vpextrq $1, %xmm0, %rax
	; ALL-NEXT: tzcntq %rax, %rax
	; ALL-NEXT: vmovq %rax, %xmm3
	; ALL-NEXT: vmovq %xmm0, %rax
	; ALL-NEXT: tzcntq %rax, %rax
	; ALL-NEXT: vmovq %rax, %xmm0
	; ALL-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
	; ALL-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; ALL-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%out = call <8 x i64> @llvm.cttz.v8i64(<8 x i64> %in, i1 -1)			%out = call <8 x i64> @llvm.cttz.v8i64(<8 x i64> %in, i1 -1)
	ret <8 x i64> %out			ret <8 x i64> %out
	}			}

	define <16 x i32> @testv16i32(<16 x i32> %in) nounwind {			define <16 x i32> @testv16i32(<16 x i32> %in) nounwind {
	; ALL-LABEL: testv16i32:			; ALL-LABEL: testv16i32:
	; ALL: ## BB#0:			; ALL: ## BB#0:
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%out = call <16 x i32> @llvm.cttz.v16i32(<16 x i32> %in, i1 0)			%out = call <16 x i32> @llvm.cttz.v16i32(<16 x i32> %in, i1 0)
	ret <16 x i32> %out			ret <16 x i32> %out
	}			}

	define <16 x i32> @testv16i32u(<16 x i32> %in) nounwind {			define <16 x i32> @testv16i32u(<16 x i32> %in) nounwind {
	; ALL-LABEL: testv16i32u:			; ALL-LABEL: testv16i32u:
	; ALL: ## BB#0:			; ALL: ## BB#0:
	; ALL-NEXT: vextracti32x4 $3, %zmm0, %xmm1			; ALL-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; ALL-NEXT: vpextrd $1, %xmm1, %eax			; ALL-NEXT: vpsubd %zmm0, %zmm1, %zmm1
	; ALL-NEXT: tzcntl %eax, %eax			; ALL-NEXT: vpandd %zmm1, %zmm0, %zmm0
	; ALL-NEXT: vmovd %xmm1, %ecx			; ALL-NEXT: vplzcntd %zmm0, %zmm0
	; ALL-NEXT: tzcntl %ecx, %ecx			; ALL-NEXT: vpbroadcastd {{.*}}(%rip), %zmm1
	; ALL-NEXT: vmovd %ecx, %xmm2			; ALL-NEXT: vpsubd %zmm0, %zmm1, %zmm0
	; ALL-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2
	; ALL-NEXT: vpextrd $2, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2
	; ALL-NEXT: vpextrd $3, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrd $3, %eax, %xmm2, %xmm1
	; ALL-NEXT: vextracti32x4 $2, %zmm0, %xmm2
	; ALL-NEXT: vpextrd $1, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vmovd %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrd $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrd $2, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrd $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrd $3, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrd $3, %eax, %xmm3, %xmm2
	; ALL-NEXT: vinserti128 $1, %xmm1, %ymm2, %ymm1
	; ALL-NEXT: vextracti32x4 $1, %zmm0, %xmm2
	; ALL-NEXT: vpextrd $1, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vmovd %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrd $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrd $2, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrd $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrd $3, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrd $3, %eax, %xmm3, %xmm2
	; ALL-NEXT: vpextrd $1, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vmovd %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrd $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrd $2, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrd $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrd $3, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrd $3, %eax, %xmm3, %xmm0
	; ALL-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; ALL-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%out = call <16 x i32> @llvm.cttz.v16i32(<16 x i32> %in, i1 -1)			%out = call <16 x i32> @llvm.cttz.v16i32(<16 x i32> %in, i1 -1)
	ret <16 x i32> %out			ret <16 x i32> %out
	}			}

	define <32 x i16> @testv32i16(<32 x i16> %in) nounwind {			define <32 x i16> @testv32i16(<32 x i16> %in) nounwind {
	; ALL-LABEL: testv32i16:			; ALL-LABEL: testv32i16:
	; ALL: ## BB#0:			; ALL: ## BB#0:
	; ALL-NEXT: vextracti128 $1, %ymm0, %xmm2			; ALL-NEXT: vpxor %ymm2, %ymm2, %ymm2
	; ALL-NEXT: vpextrw $1, %xmm2, %eax			; ALL-NEXT: vpsubw %ymm0, %ymm2, %ymm3
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; ALL-NEXT: vmovd %xmm2, %ecx			; ALL-NEXT: vmovdqa {{.*#+}} ymm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; ALL-NEXT: tzcntw %cx, %cx			; ALL-NEXT: vpsubw %ymm3, %ymm0, %ymm0
	; ALL-NEXT: vmovd %ecx, %xmm3			; ALL-NEXT: vmovdqa {{.*#+}} ymm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; ALL-NEXT: vpinsrw $1, %eax, %xmm3, %xmm3			; ALL-NEXT: vpand %ymm4, %ymm0, %ymm5
	; ALL-NEXT: vpextrw $2, %xmm2, %eax			; ALL-NEXT: vmovdqa {{.*#+}} ymm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpshufb %ymm5, %ymm6, %ymm5
	; ALL-NEXT: vpinsrw $2, %eax, %xmm3, %xmm3			; ALL-NEXT: vpsrlw $4, %ymm0, %ymm0
	; ALL-NEXT: vpextrw $3, %xmm2, %eax			; ALL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpshufb %ymm0, %ymm6, %ymm0
	; ALL-NEXT: vpinsrw $3, %eax, %xmm3, %xmm3			; ALL-NEXT: vpaddb %ymm5, %ymm0, %ymm0
	; ALL-NEXT: vpextrw $4, %xmm2, %eax			; ALL-NEXT: vpsllw $8, %ymm0, %ymm5
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpaddb %ymm0, %ymm5, %ymm0
	; ALL-NEXT: vpinsrw $4, %eax, %xmm3, %xmm3			; ALL-NEXT: vpsrlw $8, %ymm0, %ymm0
	; ALL-NEXT: vpextrw $5, %xmm2, %eax			; ALL-NEXT: vpsubw %ymm1, %ymm2, %ymm2
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpand %ymm2, %ymm1, %ymm1
	; ALL-NEXT: vpinsrw $5, %eax, %xmm3, %xmm3			; ALL-NEXT: vpsubw %ymm3, %ymm1, %ymm1
	; ALL-NEXT: vpextrw $6, %xmm2, %eax			; ALL-NEXT: vpand %ymm4, %ymm1, %ymm2
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpshufb %ymm2, %ymm6, %ymm2
	; ALL-NEXT: vpinsrw $6, %eax, %xmm3, %xmm3			; ALL-NEXT: vpsrlw $4, %ymm1, %ymm1
	; ALL-NEXT: vpextrw $7, %xmm2, %eax			; ALL-NEXT: vpand %ymm4, %ymm1, %ymm1
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpshufb %ymm1, %ymm6, %ymm1
	; ALL-NEXT: vpinsrw $7, %eax, %xmm3, %xmm2			; ALL-NEXT: vpaddb %ymm2, %ymm1, %ymm1
	; ALL-NEXT: vpextrw $1, %xmm0, %eax			; ALL-NEXT: vpsllw $8, %ymm1, %ymm2
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	; ALL-NEXT: vmovd %xmm0, %ecx			; ALL-NEXT: vpsrlw $8, %ymm1, %ymm1
	; ALL-NEXT: tzcntw %cx, %cx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrw $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $2, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $3, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $3, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $4, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $4, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $5, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $5, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $6, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $6, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $7, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $7, %eax, %xmm3, %xmm0
	; ALL-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; ALL-NEXT: vextracti128 $1, %ymm1, %xmm2
	; ALL-NEXT: vpextrw $1, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vmovd %xmm2, %ecx
	; ALL-NEXT: tzcntw %cx, %cx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrw $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $2, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $3, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $3, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $4, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $4, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $5, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $5, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $6, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $6, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $7, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $7, %eax, %xmm3, %xmm2
	; ALL-NEXT: vpextrw $1, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vmovd %xmm1, %ecx
	; ALL-NEXT: tzcntw %cx, %cx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrw $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $2, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $3, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $3, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $4, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $4, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $5, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $5, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $6, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $6, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $7, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $7, %eax, %xmm3, %xmm1
	; ALL-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%out = call <32 x i16> @llvm.cttz.v32i16(<32 x i16> %in, i1 0)			%out = call <32 x i16> @llvm.cttz.v32i16(<32 x i16> %in, i1 0)
	ret <32 x i16> %out			ret <32 x i16> %out
	}			}

	define <32 x i16> @testv32i16u(<32 x i16> %in) nounwind {			define <32 x i16> @testv32i16u(<32 x i16> %in) nounwind {
	; ALL-LABEL: testv32i16u:			; ALL-LABEL: testv32i16u:
	; ALL: ## BB#0:			; ALL: ## BB#0:
	; ALL-NEXT: vextracti128 $1, %ymm0, %xmm2			; ALL-NEXT: vpxor %ymm2, %ymm2, %ymm2
	; ALL-NEXT: vpextrw $1, %xmm2, %eax			; ALL-NEXT: vpsubw %ymm0, %ymm2, %ymm3
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; ALL-NEXT: vmovd %xmm2, %ecx			; ALL-NEXT: vmovdqa {{.*#+}} ymm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; ALL-NEXT: tzcntw %cx, %cx			; ALL-NEXT: vpsubw %ymm3, %ymm0, %ymm0
	; ALL-NEXT: vmovd %ecx, %xmm3			; ALL-NEXT: vmovdqa {{.*#+}} ymm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; ALL-NEXT: vpinsrw $1, %eax, %xmm3, %xmm3			; ALL-NEXT: vpand %ymm4, %ymm0, %ymm5
	; ALL-NEXT: vpextrw $2, %xmm2, %eax			; ALL-NEXT: vmovdqa {{.*#+}} ymm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpshufb %ymm5, %ymm6, %ymm5
	; ALL-NEXT: vpinsrw $2, %eax, %xmm3, %xmm3			; ALL-NEXT: vpsrlw $4, %ymm0, %ymm0
	; ALL-NEXT: vpextrw $3, %xmm2, %eax			; ALL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpshufb %ymm0, %ymm6, %ymm0
	; ALL-NEXT: vpinsrw $3, %eax, %xmm3, %xmm3			; ALL-NEXT: vpaddb %ymm5, %ymm0, %ymm0
	; ALL-NEXT: vpextrw $4, %xmm2, %eax			; ALL-NEXT: vpsllw $8, %ymm0, %ymm5
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpaddb %ymm0, %ymm5, %ymm0
	; ALL-NEXT: vpinsrw $4, %eax, %xmm3, %xmm3			; ALL-NEXT: vpsrlw $8, %ymm0, %ymm0
	; ALL-NEXT: vpextrw $5, %xmm2, %eax			; ALL-NEXT: vpsubw %ymm1, %ymm2, %ymm2
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpand %ymm2, %ymm1, %ymm1
	; ALL-NEXT: vpinsrw $5, %eax, %xmm3, %xmm3			; ALL-NEXT: vpsubw %ymm3, %ymm1, %ymm1
	; ALL-NEXT: vpextrw $6, %xmm2, %eax			; ALL-NEXT: vpand %ymm4, %ymm1, %ymm2
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpshufb %ymm2, %ymm6, %ymm2
	; ALL-NEXT: vpinsrw $6, %eax, %xmm3, %xmm3			; ALL-NEXT: vpsrlw $4, %ymm1, %ymm1
	; ALL-NEXT: vpextrw $7, %xmm2, %eax			; ALL-NEXT: vpand %ymm4, %ymm1, %ymm1
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpshufb %ymm1, %ymm6, %ymm1
	; ALL-NEXT: vpinsrw $7, %eax, %xmm3, %xmm2			; ALL-NEXT: vpaddb %ymm2, %ymm1, %ymm1
	; ALL-NEXT: vpextrw $1, %xmm0, %eax			; ALL-NEXT: vpsllw $8, %ymm1, %ymm2
	; ALL-NEXT: tzcntw %ax, %ax			; ALL-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	; ALL-NEXT: vmovd %xmm0, %ecx			; ALL-NEXT: vpsrlw $8, %ymm1, %ymm1
	; ALL-NEXT: tzcntw %cx, %cx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrw $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $2, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $3, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $3, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $4, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $4, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $5, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $5, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $6, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $6, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $7, %xmm0, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $7, %eax, %xmm3, %xmm0
	; ALL-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; ALL-NEXT: vextracti128 $1, %ymm1, %xmm2
	; ALL-NEXT: vpextrw $1, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vmovd %xmm2, %ecx
	; ALL-NEXT: tzcntw %cx, %cx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrw $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $2, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $3, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $3, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $4, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $4, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $5, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $5, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $6, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $6, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $7, %xmm2, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $7, %eax, %xmm3, %xmm2
	; ALL-NEXT: vpextrw $1, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vmovd %xmm1, %ecx
	; ALL-NEXT: tzcntw %cx, %cx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrw $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $2, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $3, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $3, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $4, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $4, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $5, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $5, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $6, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $6, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrw $7, %xmm1, %eax
	; ALL-NEXT: tzcntw %ax, %ax
	; ALL-NEXT: vpinsrw $7, %eax, %xmm3, %xmm1
	; ALL-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%out = call <32 x i16> @llvm.cttz.v32i16(<32 x i16> %in, i1 -1)			%out = call <32 x i16> @llvm.cttz.v32i16(<32 x i16> %in, i1 -1)
	ret <32 x i16> %out			ret <32 x i16> %out
	}			}

	define <64 x i8> @testv64i8(<64 x i8> %in) nounwind {			define <64 x i8> @testv64i8(<64 x i8> %in) nounwind {
	; ALL-LABEL: testv64i8:			; ALL-LABEL: testv64i8:
	; ALL: ## BB#0:			; ALL: ## BB#0:
	; ALL-NEXT: vextracti128 $1, %ymm0, %xmm2			; ALL-NEXT: vpxor %ymm2, %ymm2, %ymm2
	; ALL-NEXT: vpextrb $1, %xmm2, %eax			; ALL-NEXT: vpsubb %ymm0, %ymm2, %ymm3
	; ALL-NEXT: tzcntl %eax, %ecx			; ALL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; ALL-NEXT: cmpl $32, %ecx			; ALL-NEXT: vmovdqa {{.*#+}} ymm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; ALL-NEXT: movl $8, %eax			; ALL-NEXT: vpsubb %ymm3, %ymm0, %ymm0
	; ALL-NEXT: cmovel %eax, %ecx			; ALL-NEXT: vmovdqa {{.*#+}} ymm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; ALL-NEXT: vpextrb $0, %xmm2, %edx			; ALL-NEXT: vpand %ymm4, %ymm0, %ymm5
	; ALL-NEXT: tzcntl %edx, %edx			; ALL-NEXT: vmovdqa {{.*#+}} ymm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; ALL-NEXT: cmpl $32, %edx			; ALL-NEXT: vpshufb %ymm5, %ymm6, %ymm5
	; ALL-NEXT: cmovel %eax, %edx			; ALL-NEXT: vpsrlw $4, %ymm0, %ymm0
	; ALL-NEXT: vmovd %edx, %xmm3			; ALL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; ALL-NEXT: vpinsrb $1, %ecx, %xmm3, %xmm3			; ALL-NEXT: vpshufb %ymm0, %ymm6, %ymm0
	; ALL-NEXT: vpextrb $2, %xmm2, %ecx			; ALL-NEXT: vpaddb %ymm5, %ymm0, %ymm0
	; ALL-NEXT: tzcntl %ecx, %ecx			; ALL-NEXT: vpsubb %ymm1, %ymm2, %ymm2
	; ALL-NEXT: cmpl $32, %ecx			; ALL-NEXT: vpand %ymm2, %ymm1, %ymm1
	; ALL-NEXT: cmovel %eax, %ecx			; ALL-NEXT: vpsubb %ymm3, %ymm1, %ymm1
	; ALL-NEXT: vpinsrb $2, %ecx, %xmm3, %xmm3			; ALL-NEXT: vpand %ymm4, %ymm1, %ymm2
	; ALL-NEXT: vpextrb $3, %xmm2, %ecx			; ALL-NEXT: vpshufb %ymm2, %ymm6, %ymm2
	; ALL-NEXT: tzcntl %ecx, %ecx			; ALL-NEXT: vpsrlw $4, %ymm1, %ymm1
	; ALL-NEXT: cmpl $32, %ecx			; ALL-NEXT: vpand %ymm4, %ymm1, %ymm1
	; ALL-NEXT: cmovel %eax, %ecx			; ALL-NEXT: vpshufb %ymm1, %ymm6, %ymm1
	; ALL-NEXT: vpinsrb $3, %ecx, %xmm3, %xmm3			; ALL-NEXT: vpaddb %ymm2, %ymm1, %ymm1
	; ALL-NEXT: vpextrb $4, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $4, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $5, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $5, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $6, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $6, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $7, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $7, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $8, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $8, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $9, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $9, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $10, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $10, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $11, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $11, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $12, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $12, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $13, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $13, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $14, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $14, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $15, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $15, %ecx, %xmm3, %xmm2
	; ALL-NEXT: vpextrb $1, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpextrb $0, %xmm0, %edx
	; ALL-NEXT: tzcntl %edx, %edx
	; ALL-NEXT: cmpl $32, %edx
	; ALL-NEXT: cmovel %eax, %edx
	; ALL-NEXT: vmovd %edx, %xmm3
	; ALL-NEXT: vpinsrb $1, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $2, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $2, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $3, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $3, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $4, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $4, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $5, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $5, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $6, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $6, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $7, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $7, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $8, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $8, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $9, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $9, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $10, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $10, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $11, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $11, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $12, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $12, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $13, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $13, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $14, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $14, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $15, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $15, %ecx, %xmm3, %xmm0
	; ALL-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; ALL-NEXT: vextracti128 $1, %ymm1, %xmm2
	; ALL-NEXT: vpextrb $1, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpextrb $0, %xmm2, %edx
	; ALL-NEXT: tzcntl %edx, %edx
	; ALL-NEXT: cmpl $32, %edx
	; ALL-NEXT: cmovel %eax, %edx
	; ALL-NEXT: vmovd %edx, %xmm3
	; ALL-NEXT: vpinsrb $1, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $2, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $2, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $3, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $3, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $4, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $4, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $5, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $5, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $6, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $6, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $7, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $7, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $8, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $8, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $9, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $9, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $10, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $10, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $11, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $11, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $12, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $12, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $13, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $13, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $14, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $14, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $15, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $15, %ecx, %xmm3, %xmm2
	; ALL-NEXT: vpextrb $1, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpextrb $0, %xmm1, %edx
	; ALL-NEXT: tzcntl %edx, %edx
	; ALL-NEXT: cmpl $32, %edx
	; ALL-NEXT: cmovel %eax, %edx
	; ALL-NEXT: vmovd %edx, %xmm3
	; ALL-NEXT: vpinsrb $1, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $2, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $2, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $3, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $3, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $4, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $4, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $5, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $5, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $6, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $6, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $7, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $7, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $8, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $8, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $9, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $9, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $10, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $10, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $11, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $11, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $12, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $12, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $13, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $13, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $14, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $14, %ecx, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $15, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: cmpl $32, %ecx
	; ALL-NEXT: cmovel %eax, %ecx
	; ALL-NEXT: vpinsrb $15, %ecx, %xmm3, %xmm1
	; ALL-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%out = call <64 x i8> @llvm.cttz.v64i8(<64 x i8> %in, i1 0)			%out = call <64 x i8> @llvm.cttz.v64i8(<64 x i8> %in, i1 0)
	ret <64 x i8> %out			ret <64 x i8> %out
	}			}

	define <64 x i8> @testv64i8u(<64 x i8> %in) nounwind {			define <64 x i8> @testv64i8u(<64 x i8> %in) nounwind {
	; ALL-LABEL: testv64i8u:			; ALL-LABEL: testv64i8u:
	; ALL: ## BB#0:			; ALL: ## BB#0:
	; ALL-NEXT: vextracti128 $1, %ymm0, %xmm2			; ALL-NEXT: vpxor %ymm2, %ymm2, %ymm2
	; ALL-NEXT: vpextrb $1, %xmm2, %eax			; ALL-NEXT: vpsubb %ymm0, %ymm2, %ymm3
	; ALL-NEXT: tzcntl %eax, %eax			; ALL-NEXT: vpand %ymm3, %ymm0, %ymm0
	; ALL-NEXT: vpextrb $0, %xmm2, %ecx			; ALL-NEXT: vmovdqa {{.*#+}} ymm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; ALL-NEXT: tzcntl %ecx, %ecx			; ALL-NEXT: vpsubb %ymm3, %ymm0, %ymm0
	; ALL-NEXT: vmovd %ecx, %xmm3			; ALL-NEXT: vmovdqa {{.*#+}} ymm4 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; ALL-NEXT: vpinsrb $1, %eax, %xmm3, %xmm3			; ALL-NEXT: vpand %ymm4, %ymm0, %ymm5
	; ALL-NEXT: vpextrb $2, %xmm2, %eax			; ALL-NEXT: vmovdqa {{.*#+}} ymm6 = [0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4,0,1,1,2,1,2,2,3,1,2,2,3,2,3,3,4]
	; ALL-NEXT: tzcntl %eax, %eax			; ALL-NEXT: vpshufb %ymm5, %ymm6, %ymm5
	; ALL-NEXT: vpinsrb $2, %eax, %xmm3, %xmm3			; ALL-NEXT: vpsrlw $4, %ymm0, %ymm0
	; ALL-NEXT: vpextrb $3, %xmm2, %eax			; ALL-NEXT: vpand %ymm4, %ymm0, %ymm0
	; ALL-NEXT: tzcntl %eax, %eax			; ALL-NEXT: vpshufb %ymm0, %ymm6, %ymm0
	; ALL-NEXT: vpinsrb $3, %eax, %xmm3, %xmm3			; ALL-NEXT: vpaddb %ymm5, %ymm0, %ymm0
	; ALL-NEXT: vpextrb $4, %xmm2, %eax			; ALL-NEXT: vpsubb %ymm1, %ymm2, %ymm2
	; ALL-NEXT: tzcntl %eax, %eax			; ALL-NEXT: vpand %ymm2, %ymm1, %ymm1
	; ALL-NEXT: vpinsrb $4, %eax, %xmm3, %xmm3			; ALL-NEXT: vpsubb %ymm3, %ymm1, %ymm1
	; ALL-NEXT: vpextrb $5, %xmm2, %eax			; ALL-NEXT: vpand %ymm4, %ymm1, %ymm2
	; ALL-NEXT: tzcntl %eax, %eax			; ALL-NEXT: vpshufb %ymm2, %ymm6, %ymm2
	; ALL-NEXT: vpinsrb $5, %eax, %xmm3, %xmm3			; ALL-NEXT: vpsrlw $4, %ymm1, %ymm1
	; ALL-NEXT: vpextrb $6, %xmm2, %eax			; ALL-NEXT: vpand %ymm4, %ymm1, %ymm1
	; ALL-NEXT: tzcntl %eax, %eax			; ALL-NEXT: vpshufb %ymm1, %ymm6, %ymm1
	; ALL-NEXT: vpinsrb $6, %eax, %xmm3, %xmm3			; ALL-NEXT: vpaddb %ymm2, %ymm1, %ymm1
	; ALL-NEXT: vpextrb $7, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $7, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $8, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $8, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $9, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $9, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $10, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $10, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $11, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $11, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $12, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $12, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $13, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $13, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $14, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $14, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $15, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $15, %eax, %xmm3, %xmm2
	; ALL-NEXT: vpextrb $1, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpextrb $0, %xmm0, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrb $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $2, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $3, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $3, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $4, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $4, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $5, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $5, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $6, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $6, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $7, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $7, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $8, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $8, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $9, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $9, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $10, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $10, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $11, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $11, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $12, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $12, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $13, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $13, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $14, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $14, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $15, %xmm0, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $15, %eax, %xmm3, %xmm0
	; ALL-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; ALL-NEXT: vextracti128 $1, %ymm1, %xmm2
	; ALL-NEXT: vpextrb $1, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpextrb $0, %xmm2, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrb $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $2, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $3, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $3, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $4, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $4, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $5, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $5, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $6, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $6, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $7, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $7, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $8, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $8, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $9, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $9, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $10, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $10, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $11, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $11, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $12, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $12, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $13, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $13, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $14, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $14, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $15, %xmm2, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $15, %eax, %xmm3, %xmm2
	; ALL-NEXT: vpextrb $1, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpextrb $0, %xmm1, %ecx
	; ALL-NEXT: tzcntl %ecx, %ecx
	; ALL-NEXT: vmovd %ecx, %xmm3
	; ALL-NEXT: vpinsrb $1, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $2, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $2, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $3, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $3, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $4, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $4, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $5, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $5, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $6, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $6, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $7, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $7, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $8, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $8, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $9, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $9, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $10, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $10, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $11, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $11, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $12, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $12, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $13, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $13, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $14, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $14, %eax, %xmm3, %xmm3
	; ALL-NEXT: vpextrb $15, %xmm1, %eax
	; ALL-NEXT: tzcntl %eax, %eax
	; ALL-NEXT: vpinsrb $15, %eax, %xmm3, %xmm1
	; ALL-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%out = call <64 x i8> @llvm.cttz.v64i8(<64 x i8> %in, i1 -1)			%out = call <64 x i8> @llvm.cttz.v64i8(<64 x i8> %in, i1 -1)
	ret <64 x i8> %out			ret <64 x i8> %out
	}			}

	declare <8 x i64> @llvm.cttz.v8i64(<8 x i64>, i1)			declare <8 x i64> @llvm.cttz.v8i64(<8 x i64>, i1)
	declare <16 x i32> @llvm.cttz.v16i32(<16 x i32>, i1)			declare <16 x i32> @llvm.cttz.v16i32(<16 x i32>, i1)
	declare <32 x i16> @llvm.cttz.v32i16(<32 x i16>, i1)			declare <32 x i16> @llvm.cttz.v32i16(<32 x i16>, i1)
	declare <64 x i8> @llvm.cttz.v64i8(<64 x i8>, i1)			declare <64 x i8> @llvm.cttz.v64i8(<64 x i8>, i1)