This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Vectorize a bit (AND/XOR/OR) op if a BUILD_VECTOR has the same op for all their scalar elements.
ClosedPublic

Authored by RKSimon on Mar 26 2016, 12:15 PM.

Download Raw Diff

Details

Reviewers

spatel
chandlerc
delena
andreadb

Commits

rGd3df400fa9d2: [X86][SSE] Vectorize a bit (AND/XOR/OR) op if a BUILD_VECTOR has the same op…
rL264666: [X86][SSE] Vectorize a bit (AND/XOR/OR) op if a BUILD_VECTOR has the same op…

Summary

If all a BUILD_VECTOR's source elements are the same bit (AND/XOR/OR) operation type and each has one constant operand, lower to a pair of BUILD_VECTOR and just apply the bit operation to the vectors.

The constant operands will form a constant vector meaning that we still only have a single BUILD_VECTOR to lower and we will have replaced all the scalarized operations with a single SSE equivalent.

Its probably not in our interest to start make a general purpose vectorizer from this, but I'm seeing enough of these scalar bit operations from the later legalization/scalarization stages to support them at least.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon updated this revision to Diff 51719.Mar 26 2016, 12:15 PM

RKSimon retitled this revision from to [X86][SSE] Vectorize a bit (AND/XOR/OR) op if a BUILD_VECTOR has the same op for all their scalar elements..

RKSimon updated this object.

RKSimon added reviewers: chandlerc, delena, andreadb, spatel.

RKSimon set the repository for this revision to rL LLVM.

RKSimon added a subscriber: llvm-commits.

Thanks for explaining why this is a good idea. I really don't want us doing more at this layer than is necessary to clean up after other legalization transforms, but your explanation clarifies that this is specifically the intent. Also, the test case updates certainly make it very clear that this situation comes up all the time.

Couple of high level points:

Why just AND, OR, and XOR? Maybe also support shifts? (fine to leave a TODO for now)
We need to leave documentation of the rationale in comments as well. I marked where it seems to fit below.

lib/Target/X86/X86ISelLowering.cpp
6628–6630	This seems like a good place to add comments documenting why its important to do this at this level.
6660–6665	I think using the lambda helper here is a bit overkill. It forces us to do a lot of work that we don't really need to do IMO. I would get the first element opcode, check that it is one of AND, OR, or XOR, check that it is legal on the target. Then do the lowering with that opcode. Shouldn't need a lambda at all, and can use either a switch or 3 tests against ==. I actually think even the switch is likely overkill for just 3 opcodes.

Updated based on Chandler's feedback.

Regarding adding support for shifts - I have looked at this (and for add/sub too), but the problem I was seeing was that typicallly one of the elements (#0 most often) didn't share the opcode (i.e. zero shift / offset). I'd be willing to do this for a single 'mis-match' but am worried that it will set a precedent for further relaxations to try and force a vectorization.

Looks good with a minor adjustment below.

lib/Target/X86/X86ISelLowering.cpp
6654–6670	I would 'break' from the 3 cases you accept, and add a default that bails out. That will allow you to early-exit and reduce indentation for the entire block here.

This revision is now accepted and ready to land.Mar 28 2016, 1:09 PM

Closed by commit rL264666: [X86][SSE] Vectorize a bit (AND/XOR/OR) op if a BUILD_VECTOR has the same op… (authored by RKSimon). · Explain WhyMar 28 2016, 2:39 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

X86/

	X86ISelLowering.cpp
	X86ISelLowering.cpp (revision 264535)

50 lines

test/

CodeGen/

X86/

	pr15267.ll
	pr15267.ll (revision 264535)

16 lines

	vector-lzcnt-256.ll
	vector-lzcnt-256.ll (revision 264535)

260 lines

	vector-pcmp.ll
	vector-pcmp.ll (revision 264535)

19 lines

	vector-sext.ll
	vector-sext.ll (revision 264535)

38 lines

Diff 51737

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,619 Lines • ▼ Show 20 Lines	if ((VT == MVT::v8f32 \|\| VT == MVT::v4f64 \|\| VT == MVT::v8i32 \|\|
bool isUndefHI = NumUndefsHI == Half;		bool isUndefHI = NumUndefsHI == Half;
return ExpandHorizontalBinOp(InVec0, InVec1, DL, DAG, X86Opcode, true,		return ExpandHorizontalBinOp(InVec0, InVec1, DL, DAG, X86Opcode, true,
isUndefLO, isUndefHI);		isUndefLO, isUndefHI);
}		}

return SDValue();		return SDValue();
}		}

		/// If a BUILD_VECTOR's source elements all apply the same bit operation and
		/// one of their operands is constant, lower to a pair of BUILD_VECTOR and
		/// just apply the bit to the vectors.
		chandlercUnsubmitted Not Done Reply Inline Actions This seems like a good place to add comments documenting why its important to do this at this level. chandlerc: This seems like a good place to add comments documenting why its important to do this at this…
		/// NOTE: Its not in our interest to start make a general purpose vectorizer
		/// from this, but enough scalar bit operations are created from the later
		/// legalization + scalarization stages to need basic support.
		static SDValue lowerBuildVectorToBitOp(SDValue Op, SelectionDAG &DAG) {
		SDLoc DL(Op);
		MVT VT = Op.getSimpleValueType();
		unsigned NumElems = VT.getVectorNumElements();
		const TargetLowering &TLI = DAG.getTargetLoweringInfo();

		// Check that all elements have the same opcode.
		// TODO: Should we allow UNDEFS and if so how many?
		unsigned Opcode = Op.getOperand(0).getOpcode();
		for (unsigned i = 1; i < NumElems; ++i)
		if (Opcode != Op.getOperand(i).getOpcode())
		return SDValue();

		// TODO: We may be able to add support for other Ops (ADD/SUB + shifts).
		switch (Opcode) {
		case ISD::AND:
		case ISD::XOR:
		case ISD::OR: {
		if (!TLI.isOperationLegalOrPromote(Opcode, VT))
		return SDValue();

		SmallVector<SDValue, 4> LHSElts, RHSElts;
		for (SDValue Elt : Op->ops()) {
		SDValue LHS = Elt.getOperand(0);
		SDValue RHS = Elt.getOperand(1);

		// We expect the canonicalized RHS operand to be the constant.
		if (!isa<ConstantSDNode>(RHS))
		return SDValue();
		LHSElts.push_back(LHS);
		RHSElts.push_back(RHS);
		}
		chandlercUnsubmitted Not Done Reply Inline Actions I think using the lambda helper here is a bit overkill. It forces us to do a lot of work that we don't really need to do IMO. I would get the first element opcode, check that it is one of AND, OR, or XOR, check that it is legal on the target. Then do the lowering with that opcode. Shouldn't need a lambda at all, and can use either a switch or 3 tests against ==. I actually think even the switch is likely overkill for just 3 opcodes. chandlerc: I think using the lambda helper here is a bit overkill. It forces us to do a lot of work that…

		SDValue LHS = DAG.getNode(ISD::BUILD_VECTOR, DL, VT, LHSElts);
		SDValue RHS = DAG.getNode(ISD::BUILD_VECTOR, DL, VT, RHSElts);
		return DAG.getNode(Opcode, DL, VT, LHS, RHS);
		}
		chandlercUnsubmitted Not Done Reply Inline Actions I would 'break' from the 3 cases you accept, and add a default that bails out. That will allow you to early-exit and reduce indentation for the entire block here. chandlerc: I would 'break' from the 3 cases you accept, and add a default that bails out. That will allow…
		}

		return SDValue();
		}

/// Create a vector constant without a load. SSE/AVX provide the bare minimum		/// Create a vector constant without a load. SSE/AVX provide the bare minimum
/// functionality to do this, so it's all zeros, all ones, or some derivation		/// functionality to do this, so it's all zeros, all ones, or some derivation
/// that is cheap to calculate.		/// that is cheap to calculate.
static SDValue materializeVectorConstant(SDValue Op, SelectionDAG &DAG,		static SDValue materializeVectorConstant(SDValue Op, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
SDLoc DL(Op);		SDLoc DL(Op);
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();

Show All 38 Lines	X86TargetLowering::LowerBUILD_VECTOR(SDValue Op, SelectionDAG &DAG) const {

BuildVectorSDNode *BV = cast<BuildVectorSDNode>(Op.getNode());		BuildVectorSDNode *BV = cast<BuildVectorSDNode>(Op.getNode());
if (SDValue AddSub = LowerToAddSub(BV, Subtarget, DAG))		if (SDValue AddSub = LowerToAddSub(BV, Subtarget, DAG))
return AddSub;		return AddSub;
if (SDValue HorizontalOp = LowerToHorizontalOp(BV, Subtarget, DAG))		if (SDValue HorizontalOp = LowerToHorizontalOp(BV, Subtarget, DAG))
return HorizontalOp;		return HorizontalOp;
if (SDValue Broadcast = LowerVectorBroadcast(Op, Subtarget, DAG))		if (SDValue Broadcast = LowerVectorBroadcast(Op, Subtarget, DAG))
return Broadcast;		return Broadcast;
		if (SDValue BitOp = lowerBuildVectorToBitOp(Op, DAG))
		return BitOp;

unsigned EVTBits = ExtVT.getSizeInBits();		unsigned EVTBits = ExtVT.getSizeInBits();

unsigned NumZero = 0;		unsigned NumZero = 0;
unsigned NumNonZero = 0;		unsigned NumNonZero = 0;
uint64_t NonZeros = 0;		uint64_t NonZeros = 0;
bool IsAllConstants = true;		bool IsAllConstants = true;
SmallSet<SDValue, 8> Values;		SmallSet<SDValue, 8> Values;
▲ Show 20 Lines • Show All 23,638 Lines • Show Last 20 Lines

test/CodeGen/X86/pr15267.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-pc-linux -mcpu=corei7-avx \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-pc-linux -mcpu=corei7-avx \| FileCheck %s

	define <4 x i3> @test1(<4 x i3>* %in) nounwind {			define <4 x i3> @test1(<4 x i3>* %in) nounwind {
	; CHECK-LABEL: test1:			; CHECK-LABEL: test1:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: movzwl (%rdi), %eax			; CHECK-NEXT: movzwl (%rdi), %eax
	; CHECK-NEXT: movl %eax, %ecx			; CHECK-NEXT: movl %eax, %ecx
	; CHECK-NEXT: shrl $3, %ecx			; CHECK-NEXT: shrl $3, %ecx
	; CHECK-NEXT: andl $7, %ecx			; CHECK-NEXT: vmovd %eax, %xmm0
	; CHECK-NEXT: movl %eax, %edx
	; CHECK-NEXT: andl $7, %edx
	; CHECK-NEXT: vmovd %edx, %xmm0
	; CHECK-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0			; CHECK-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; CHECK-NEXT: movl %eax, %ecx			; CHECK-NEXT: movl %eax, %ecx
	; CHECK-NEXT: shrl $6, %ecx			; CHECK-NEXT: shrl $6, %ecx
	; CHECK-NEXT: andl $7, %ecx
	; CHECK-NEXT: vpinsrd $2, %ecx, %xmm0, %xmm0			; CHECK-NEXT: vpinsrd $2, %ecx, %xmm0, %xmm0
	; CHECK-NEXT: shrl $9, %eax			; CHECK-NEXT: shrl $9, %eax
	; CHECK-NEXT: andl $7, %eax
	; CHECK-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0			; CHECK-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0
				; CHECK-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%ret = load <4 x i3>, <4 x i3>* %in, align 1			%ret = load <4 x i3>, <4 x i3>* %in, align 1
	ret <4 x i3> %ret			ret <4 x i3> %ret
	}			}

	define <4 x i1> @test2(<4 x i1>* %in) nounwind {			define <4 x i1> @test2(<4 x i1>* %in) nounwind {
	; CHECK-LABEL: test2:			; CHECK-LABEL: test2:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: movzbl (%rdi), %eax			; CHECK-NEXT: movzbl (%rdi), %eax
	; CHECK-NEXT: movl %eax, %ecx			; CHECK-NEXT: movl %eax, %ecx
	; CHECK-NEXT: shrl %ecx			; CHECK-NEXT: shrl %ecx
	; CHECK-NEXT: andl $1, %ecx			; CHECK-NEXT: vmovd %eax, %xmm0
	; CHECK-NEXT: movl %eax, %edx
	; CHECK-NEXT: andl $1, %edx
	; CHECK-NEXT: vmovd %edx, %xmm0
	; CHECK-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0			; CHECK-NEXT: vpinsrd $1, %ecx, %xmm0, %xmm0
	; CHECK-NEXT: movl %eax, %ecx			; CHECK-NEXT: movl %eax, %ecx
	; CHECK-NEXT: shrl $2, %ecx			; CHECK-NEXT: shrl $2, %ecx
	; CHECK-NEXT: andl $1, %ecx
	; CHECK-NEXT: vpinsrd $2, %ecx, %xmm0, %xmm0			; CHECK-NEXT: vpinsrd $2, %ecx, %xmm0, %xmm0
	; CHECK-NEXT: shrl $3, %eax			; CHECK-NEXT: shrl $3, %eax
	; CHECK-NEXT: andl $1, %eax
	; CHECK-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0			; CHECK-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0
				; CHECK-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%ret = load <4 x i1>, <4 x i1>* %in, align 1			%ret = load <4 x i1>, <4 x i1>* %in, align 1
	ret <4 x i1> %ret			ret <4 x i1> %ret
	}			}

	define <4 x i64> @test3(<4 x i1>* %in) nounwind {			define <4 x i64> @test3(<4 x i1>* %in) nounwind {
	; CHECK-LABEL: test3:			; CHECK-LABEL: test3:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	▲ Show 20 Lines • Show All 94 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-lzcnt-256.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512cd -mattr=+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VLCD			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512cd -mattr=+avx512vl \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512VLCD
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512cd \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512CD			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512cd \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512 --check-prefix=AVX512CD

	define <4 x i64> @testv4i64(<4 x i64> %in) nounwind {			define <4 x i64> @testv4i64(<4 x i64> %in) nounwind {
	; AVX1-LABEL: testv4i64:			; AVX1-LABEL: testv4i64:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrq $1, %xmm1, %rax			; AVX1-NEXT: vpextrq $1, %xmm1, %rax
	; AVX1-NEXT: bsrq %rax, %rax			; AVX1-NEXT: bsrq %rax, %rax
	; AVX1-NEXT: movl $127, %ecx			; AVX1-NEXT: movl $127, %ecx
	; AVX1-NEXT: cmoveq %rcx, %rax			; AVX1-NEXT: cmoveq %rcx, %rax
	; AVX1-NEXT: xorq $63, %rax
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vmovq %rax, %xmm2
	; AVX1-NEXT: vmovq %xmm1, %rax			; AVX1-NEXT: vmovq %xmm1, %rax
	; AVX1-NEXT: bsrq %rax, %rax			; AVX1-NEXT: bsrq %rax, %rax
	; AVX1-NEXT: cmoveq %rcx, %rax			; AVX1-NEXT: cmoveq %rcx, %rax
	; AVX1-NEXT: xorq $63, %rax
	; AVX1-NEXT: vmovq %rax, %xmm1			; AVX1-NEXT: vmovq %rax, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
				; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [63,63]
				; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; AVX1-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: bsrq %rax, %rax			; AVX1-NEXT: bsrq %rax, %rax
	; AVX1-NEXT: cmoveq %rcx, %rax			; AVX1-NEXT: cmoveq %rcx, %rax
	; AVX1-NEXT: xorq $63, %rax			; AVX1-NEXT: vmovq %rax, %xmm3
	; AVX1-NEXT: vmovq %rax, %xmm2
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: bsrq %rax, %rax			; AVX1-NEXT: bsrq %rax, %rax
	; AVX1-NEXT: cmoveq %rcx, %rax			; AVX1-NEXT: cmoveq %rcx, %rax
	; AVX1-NEXT: xorq $63, %rax
	; AVX1-NEXT: vmovq %rax, %xmm0			; AVX1-NEXT: vmovq %rax, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
				; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv4i64:			; AVX2-LABEL: testv4i64:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpextrq $1, %xmm1, %rax			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: bsrq %rax, %rax			; AVX2-NEXT: bsrq %rax, %rax
	; AVX2-NEXT: movl $127, %ecx			; AVX2-NEXT: movl $127, %ecx
	; AVX2-NEXT: cmoveq %rcx, %rax			; AVX2-NEXT: cmoveq %rcx, %rax
	; AVX2-NEXT: xorq $63, %rax
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vmovq %xmm1, %rax			; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: bsrq %rax, %rax			; AVX2-NEXT: bsrq %rax, %rax
	; AVX2-NEXT: cmoveq %rcx, %rax			; AVX2-NEXT: cmoveq %rcx, %rax
	; AVX2-NEXT: xorq $63, %rax
	; AVX2-NEXT: vmovq %rax, %xmm1			; AVX2-NEXT: vmovq %rax, %xmm1
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
				; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [63,63]
				; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: bsrq %rax, %rax			; AVX2-NEXT: bsrq %rax, %rax
	; AVX2-NEXT: cmoveq %rcx, %rax			; AVX2-NEXT: cmoveq %rcx, %rax
	; AVX2-NEXT: xorq $63, %rax			; AVX2-NEXT: vmovq %rax, %xmm3
	; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: bsrq %rax, %rax			; AVX2-NEXT: bsrq %rax, %rax
	; AVX2-NEXT: cmoveq %rcx, %rax			; AVX2-NEXT: cmoveq %rcx, %rax
	; AVX2-NEXT: xorq $63, %rax
	; AVX2-NEXT: vmovq %rax, %xmm0			; AVX2-NEXT: vmovq %rax, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
				; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLCD-LABEL: testv4i64:			; AVX512VLCD-LABEL: testv4i64:
	; AVX512VLCD: ## BB#0:			; AVX512VLCD: ## BB#0:
	; AVX512VLCD-NEXT: vplzcntq %ymm0, %ymm0			; AVX512VLCD-NEXT: vplzcntq %ymm0, %ymm0
	; AVX512VLCD-NEXT: retq			; AVX512VLCD-NEXT: retq
	;			;
	; AVX512CD-LABEL: testv4i64:			; AVX512CD-LABEL: testv4i64:
	; AVX512CD: ## BB#0:			; AVX512CD: ## BB#0:
	; AVX512CD-NEXT: vplzcntq %zmm0, %zmm0			; AVX512CD-NEXT: vplzcntq %zmm0, %zmm0
	; AVX512CD-NEXT: retq			; AVX512CD-NEXT: retq

	%out = call <4 x i64> @llvm.ctlz.v4i64(<4 x i64> %in, i1 0)			%out = call <4 x i64> @llvm.ctlz.v4i64(<4 x i64> %in, i1 0)
	ret <4 x i64> %out			ret <4 x i64> %out
	}			}

	define <4 x i64> @testv4i64u(<4 x i64> %in) nounwind {			define <4 x i64> @testv4i64u(<4 x i64> %in) nounwind {
	; AVX1-LABEL: testv4i64u:			; AVX1-LABEL: testv4i64u:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrq $1, %xmm1, %rax			; AVX1-NEXT: vpextrq $1, %xmm1, %rax
	; AVX1-NEXT: bsrq %rax, %rax			; AVX1-NEXT: bsrq %rax, %rax
	; AVX1-NEXT: xorq $63, %rax
	; AVX1-NEXT: vmovq %rax, %xmm2			; AVX1-NEXT: vmovq %rax, %xmm2
	; AVX1-NEXT: vmovq %xmm1, %rax			; AVX1-NEXT: vmovq %xmm1, %rax
	; AVX1-NEXT: bsrq %rax, %rax			; AVX1-NEXT: bsrq %rax, %rax
	; AVX1-NEXT: xorq $63, %rax
	; AVX1-NEXT: vmovq %rax, %xmm1			; AVX1-NEXT: vmovq %rax, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
				; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [63,63]
				; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; AVX1-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: bsrq %rax, %rax			; AVX1-NEXT: bsrq %rax, %rax
	; AVX1-NEXT: xorq $63, %rax			; AVX1-NEXT: vmovq %rax, %xmm3
	; AVX1-NEXT: vmovq %rax, %xmm2
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: bsrq %rax, %rax			; AVX1-NEXT: bsrq %rax, %rax
	; AVX1-NEXT: xorq $63, %rax
	; AVX1-NEXT: vmovq %rax, %xmm0			; AVX1-NEXT: vmovq %rax, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
				; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv4i64u:			; AVX2-LABEL: testv4i64u:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpextrq $1, %xmm1, %rax			; AVX2-NEXT: vpextrq $1, %xmm1, %rax
	; AVX2-NEXT: bsrq %rax, %rax			; AVX2-NEXT: bsrq %rax, %rax
	; AVX2-NEXT: xorq $63, %rax
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vmovq %xmm1, %rax			; AVX2-NEXT: vmovq %xmm1, %rax
	; AVX2-NEXT: bsrq %rax, %rax			; AVX2-NEXT: bsrq %rax, %rax
	; AVX2-NEXT: xorq $63, %rax
	; AVX2-NEXT: vmovq %rax, %xmm1			; AVX2-NEXT: vmovq %rax, %xmm1
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
				; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [63,63]
				; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: bsrq %rax, %rax			; AVX2-NEXT: bsrq %rax, %rax
	; AVX2-NEXT: xorq $63, %rax			; AVX2-NEXT: vmovq %rax, %xmm3
	; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: bsrq %rax, %rax			; AVX2-NEXT: bsrq %rax, %rax
	; AVX2-NEXT: xorq $63, %rax
	; AVX2-NEXT: vmovq %rax, %xmm0			; AVX2-NEXT: vmovq %rax, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm3[0]
				; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLCD-LABEL: testv4i64u:			; AVX512VLCD-LABEL: testv4i64u:
	; AVX512VLCD: ## BB#0:			; AVX512VLCD: ## BB#0:
	; AVX512VLCD-NEXT: vplzcntq %ymm0, %ymm0			; AVX512VLCD-NEXT: vplzcntq %ymm0, %ymm0
	; AVX512VLCD-NEXT: retq			; AVX512VLCD-NEXT: retq
	;			;
	Show All 9 Lines
	define <8 x i32> @testv8i32(<8 x i32> %in) nounwind {			define <8 x i32> @testv8i32(<8 x i32> %in) nounwind {
	; AVX1-LABEL: testv8i32:			; AVX1-LABEL: testv8i32:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrd $1, %xmm1, %eax			; AVX1-NEXT: vpextrd $1, %xmm1, %eax
	; AVX1-NEXT: bsrl %eax, %ecx			; AVX1-NEXT: bsrl %eax, %ecx
	; AVX1-NEXT: movl $63, %eax			; AVX1-NEXT: movl $63, %eax
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: cmovel %eax, %ecx
	; AVX1-NEXT: xorl $31, %ecx
	; AVX1-NEXT: vmovd %xmm1, %edx			; AVX1-NEXT: vmovd %xmm1, %edx
	; AVX1-NEXT: bsrl %edx, %edx			; AVX1-NEXT: bsrl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx			; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: xorl $31, %edx
	; AVX1-NEXT: vmovd %edx, %xmm2			; AVX1-NEXT: vmovd %edx, %xmm2
	; AVX1-NEXT: vpinsrd $1, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpinsrd $1, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrd $2, %xmm1, %ecx			; AVX1-NEXT: vpextrd $2, %xmm1, %ecx
	; AVX1-NEXT: bsrl %ecx, %ecx			; AVX1-NEXT: bsrl %ecx, %ecx
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: cmovel %eax, %ecx
	; AVX1-NEXT: xorl $31, %ecx
	; AVX1-NEXT: vpinsrd $2, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpinsrd $2, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrd $3, %xmm1, %ecx			; AVX1-NEXT: vpextrd $3, %xmm1, %ecx
	; AVX1-NEXT: bsrl %ecx, %ecx			; AVX1-NEXT: bsrl %ecx, %ecx
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: cmovel %eax, %ecx
	; AVX1-NEXT: xorl $31, %ecx
	; AVX1-NEXT: vpinsrd $3, %ecx, %xmm2, %xmm1			; AVX1-NEXT: vpinsrd $3, %ecx, %xmm2, %xmm1
				; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [31,31,31,31]
				; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpextrd $1, %xmm0, %ecx			; AVX1-NEXT: vpextrd $1, %xmm0, %ecx
	; AVX1-NEXT: bsrl %ecx, %ecx			; AVX1-NEXT: bsrl %ecx, %ecx
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: cmovel %eax, %ecx
	; AVX1-NEXT: xorl $31, %ecx
	; AVX1-NEXT: vmovd %xmm0, %edx			; AVX1-NEXT: vmovd %xmm0, %edx
	; AVX1-NEXT: bsrl %edx, %edx			; AVX1-NEXT: bsrl %edx, %edx
	; AVX1-NEXT: cmovel %eax, %edx			; AVX1-NEXT: cmovel %eax, %edx
	; AVX1-NEXT: xorl $31, %edx			; AVX1-NEXT: vmovd %edx, %xmm3
	; AVX1-NEXT: vmovd %edx, %xmm2			; AVX1-NEXT: vpinsrd $1, %ecx, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrd $1, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrd $2, %xmm0, %ecx			; AVX1-NEXT: vpextrd $2, %xmm0, %ecx
	; AVX1-NEXT: bsrl %ecx, %ecx			; AVX1-NEXT: bsrl %ecx, %ecx
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: cmovel %eax, %ecx
	; AVX1-NEXT: xorl $31, %ecx			; AVX1-NEXT: vpinsrd $2, %ecx, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrd $2, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrd $3, %xmm0, %ecx			; AVX1-NEXT: vpextrd $3, %xmm0, %ecx
	; AVX1-NEXT: bsrl %ecx, %ecx			; AVX1-NEXT: bsrl %ecx, %ecx
	; AVX1-NEXT: cmovel %eax, %ecx			; AVX1-NEXT: cmovel %eax, %ecx
	; AVX1-NEXT: xorl $31, %ecx			; AVX1-NEXT: vpinsrd $3, %ecx, %xmm3, %xmm0
	; AVX1-NEXT: vpinsrd $3, %ecx, %xmm2, %xmm0			; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv8i32:			; AVX2-LABEL: testv8i32:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpextrd $1, %xmm1, %eax			; AVX2-NEXT: vpextrd $1, %xmm1, %eax
	; AVX2-NEXT: bsrl %eax, %ecx			; AVX2-NEXT: bsrl %eax, %ecx
	; AVX2-NEXT: movl $63, %eax			; AVX2-NEXT: movl $63, %eax
	; AVX2-NEXT: cmovel %eax, %ecx			; AVX2-NEXT: cmovel %eax, %ecx
	; AVX2-NEXT: xorl $31, %ecx
	; AVX2-NEXT: vmovd %xmm1, %edx			; AVX2-NEXT: vmovd %xmm1, %edx
	; AVX2-NEXT: bsrl %edx, %edx			; AVX2-NEXT: bsrl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx			; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: xorl $31, %edx
	; AVX2-NEXT: vmovd %edx, %xmm2			; AVX2-NEXT: vmovd %edx, %xmm2
	; AVX2-NEXT: vpinsrd $1, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpinsrd $1, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $2, %xmm1, %ecx			; AVX2-NEXT: vpextrd $2, %xmm1, %ecx
	; AVX2-NEXT: bsrl %ecx, %ecx			; AVX2-NEXT: bsrl %ecx, %ecx
	; AVX2-NEXT: cmovel %eax, %ecx			; AVX2-NEXT: cmovel %eax, %ecx
	; AVX2-NEXT: xorl $31, %ecx
	; AVX2-NEXT: vpinsrd $2, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpinsrd $2, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $3, %xmm1, %ecx			; AVX2-NEXT: vpextrd $3, %xmm1, %ecx
	; AVX2-NEXT: bsrl %ecx, %ecx			; AVX2-NEXT: bsrl %ecx, %ecx
	; AVX2-NEXT: cmovel %eax, %ecx			; AVX2-NEXT: cmovel %eax, %ecx
	; AVX2-NEXT: xorl $31, %ecx
	; AVX2-NEXT: vpinsrd $3, %ecx, %xmm2, %xmm1			; AVX2-NEXT: vpinsrd $3, %ecx, %xmm2, %xmm1
				; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm2
				; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpextrd $1, %xmm0, %ecx			; AVX2-NEXT: vpextrd $1, %xmm0, %ecx
	; AVX2-NEXT: bsrl %ecx, %ecx			; AVX2-NEXT: bsrl %ecx, %ecx
	; AVX2-NEXT: cmovel %eax, %ecx			; AVX2-NEXT: cmovel %eax, %ecx
	; AVX2-NEXT: xorl $31, %ecx
	; AVX2-NEXT: vmovd %xmm0, %edx			; AVX2-NEXT: vmovd %xmm0, %edx
	; AVX2-NEXT: bsrl %edx, %edx			; AVX2-NEXT: bsrl %edx, %edx
	; AVX2-NEXT: cmovel %eax, %edx			; AVX2-NEXT: cmovel %eax, %edx
	; AVX2-NEXT: xorl $31, %edx			; AVX2-NEXT: vmovd %edx, %xmm3
	; AVX2-NEXT: vmovd %edx, %xmm2			; AVX2-NEXT: vpinsrd $1, %ecx, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrd $1, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $2, %xmm0, %ecx			; AVX2-NEXT: vpextrd $2, %xmm0, %ecx
	; AVX2-NEXT: bsrl %ecx, %ecx			; AVX2-NEXT: bsrl %ecx, %ecx
	; AVX2-NEXT: cmovel %eax, %ecx			; AVX2-NEXT: cmovel %eax, %ecx
	; AVX2-NEXT: xorl $31, %ecx			; AVX2-NEXT: vpinsrd $2, %ecx, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrd $2, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $3, %xmm0, %ecx			; AVX2-NEXT: vpextrd $3, %xmm0, %ecx
	; AVX2-NEXT: bsrl %ecx, %ecx			; AVX2-NEXT: bsrl %ecx, %ecx
	; AVX2-NEXT: cmovel %eax, %ecx			; AVX2-NEXT: cmovel %eax, %ecx
	; AVX2-NEXT: xorl $31, %ecx			; AVX2-NEXT: vpinsrd $3, %ecx, %xmm3, %xmm0
	; AVX2-NEXT: vpinsrd $3, %ecx, %xmm2, %xmm0			; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLCD-LABEL: testv8i32:			; AVX512VLCD-LABEL: testv8i32:
	; AVX512VLCD: ## BB#0:			; AVX512VLCD: ## BB#0:
	; AVX512VLCD-NEXT: vplzcntd %ymm0, %ymm0			; AVX512VLCD-NEXT: vplzcntd %ymm0, %ymm0
	; AVX512VLCD-NEXT: retq			; AVX512VLCD-NEXT: retq
	;			;
	; AVX512CD-LABEL: testv8i32:			; AVX512CD-LABEL: testv8i32:
	; AVX512CD: ## BB#0:			; AVX512CD: ## BB#0:
	; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CD-NEXT: retq			; AVX512CD-NEXT: retq

	%out = call <8 x i32> @llvm.ctlz.v8i32(<8 x i32> %in, i1 0)			%out = call <8 x i32> @llvm.ctlz.v8i32(<8 x i32> %in, i1 0)
	ret <8 x i32> %out			ret <8 x i32> %out
	}			}

	define <8 x i32> @testv8i32u(<8 x i32> %in) nounwind {			define <8 x i32> @testv8i32u(<8 x i32> %in) nounwind {
	; AVX1-LABEL: testv8i32u:			; AVX1-LABEL: testv8i32u:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrd $1, %xmm1, %eax			; AVX1-NEXT: vpextrd $1, %xmm1, %eax
	; AVX1-NEXT: bsrl %eax, %eax			; AVX1-NEXT: bsrl %eax, %eax
	; AVX1-NEXT: xorl $31, %eax
	; AVX1-NEXT: vmovd %xmm1, %ecx			; AVX1-NEXT: vmovd %xmm1, %ecx
	; AVX1-NEXT: bsrl %ecx, %ecx			; AVX1-NEXT: bsrl %ecx, %ecx
	; AVX1-NEXT: xorl $31, %ecx
	; AVX1-NEXT: vmovd %ecx, %xmm2			; AVX1-NEXT: vmovd %ecx, %xmm2
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrd $2, %xmm1, %eax			; AVX1-NEXT: vpextrd $2, %xmm1, %eax
	; AVX1-NEXT: bsrl %eax, %eax			; AVX1-NEXT: bsrl %eax, %eax
	; AVX1-NEXT: xorl $31, %eax
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrd $3, %xmm1, %eax			; AVX1-NEXT: vpextrd $3, %xmm1, %eax
	; AVX1-NEXT: bsrl %eax, %eax			; AVX1-NEXT: bsrl %eax, %eax
	; AVX1-NEXT: xorl $31, %eax
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm1			; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm1
				; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [31,31,31,31]
				; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpextrd $1, %xmm0, %eax			; AVX1-NEXT: vpextrd $1, %xmm0, %eax
	; AVX1-NEXT: bsrl %eax, %eax			; AVX1-NEXT: bsrl %eax, %eax
	; AVX1-NEXT: xorl $31, %eax
	; AVX1-NEXT: vmovd %xmm0, %ecx			; AVX1-NEXT: vmovd %xmm0, %ecx
	; AVX1-NEXT: bsrl %ecx, %ecx			; AVX1-NEXT: bsrl %ecx, %ecx
	; AVX1-NEXT: xorl $31, %ecx			; AVX1-NEXT: vmovd %ecx, %xmm3
	; AVX1-NEXT: vmovd %ecx, %xmm2			; AVX1-NEXT: vpinsrd $1, %eax, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrd $2, %xmm0, %eax			; AVX1-NEXT: vpextrd $2, %xmm0, %eax
	; AVX1-NEXT: bsrl %eax, %eax			; AVX1-NEXT: bsrl %eax, %eax
	; AVX1-NEXT: xorl $31, %eax			; AVX1-NEXT: vpinsrd $2, %eax, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrd $3, %xmm0, %eax			; AVX1-NEXT: vpextrd $3, %xmm0, %eax
	; AVX1-NEXT: bsrl %eax, %eax			; AVX1-NEXT: bsrl %eax, %eax
	; AVX1-NEXT: xorl $31, %eax			; AVX1-NEXT: vpinsrd $3, %eax, %xmm3, %xmm0
	; AVX1-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0			; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv8i32u:			; AVX2-LABEL: testv8i32u:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpextrd $1, %xmm1, %eax			; AVX2-NEXT: vpextrd $1, %xmm1, %eax
	; AVX2-NEXT: bsrl %eax, %eax			; AVX2-NEXT: bsrl %eax, %eax
	; AVX2-NEXT: xorl $31, %eax
	; AVX2-NEXT: vmovd %xmm1, %ecx			; AVX2-NEXT: vmovd %xmm1, %ecx
	; AVX2-NEXT: bsrl %ecx, %ecx			; AVX2-NEXT: bsrl %ecx, %ecx
	; AVX2-NEXT: xorl $31, %ecx
	; AVX2-NEXT: vmovd %ecx, %xmm2			; AVX2-NEXT: vmovd %ecx, %xmm2
	; AVX2-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $2, %xmm1, %eax			; AVX2-NEXT: vpextrd $2, %xmm1, %eax
	; AVX2-NEXT: bsrl %eax, %eax			; AVX2-NEXT: bsrl %eax, %eax
	; AVX2-NEXT: xorl $31, %eax
	; AVX2-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $3, %xmm1, %eax			; AVX2-NEXT: vpextrd $3, %xmm1, %eax
	; AVX2-NEXT: bsrl %eax, %eax			; AVX2-NEXT: bsrl %eax, %eax
	; AVX2-NEXT: xorl $31, %eax
	; AVX2-NEXT: vpinsrd $3, %eax, %xmm2, %xmm1			; AVX2-NEXT: vpinsrd $3, %eax, %xmm2, %xmm1
				; AVX2-NEXT: vpbroadcastd {{.*}}(%rip), %xmm2
				; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpextrd $1, %xmm0, %eax			; AVX2-NEXT: vpextrd $1, %xmm0, %eax
	; AVX2-NEXT: bsrl %eax, %eax			; AVX2-NEXT: bsrl %eax, %eax
	; AVX2-NEXT: xorl $31, %eax
	; AVX2-NEXT: vmovd %xmm0, %ecx			; AVX2-NEXT: vmovd %xmm0, %ecx
	; AVX2-NEXT: bsrl %ecx, %ecx			; AVX2-NEXT: bsrl %ecx, %ecx
	; AVX2-NEXT: xorl $31, %ecx			; AVX2-NEXT: vmovd %ecx, %xmm3
	; AVX2-NEXT: vmovd %ecx, %xmm2			; AVX2-NEXT: vpinsrd $1, %eax, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrd $1, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $2, %xmm0, %eax			; AVX2-NEXT: vpextrd $2, %xmm0, %eax
	; AVX2-NEXT: bsrl %eax, %eax			; AVX2-NEXT: bsrl %eax, %eax
	; AVX2-NEXT: xorl $31, %eax			; AVX2-NEXT: vpinsrd $2, %eax, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrd $2, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrd $3, %xmm0, %eax			; AVX2-NEXT: vpextrd $3, %xmm0, %eax
	; AVX2-NEXT: bsrl %eax, %eax			; AVX2-NEXT: bsrl %eax, %eax
	; AVX2-NEXT: xorl $31, %eax			; AVX2-NEXT: vpinsrd $3, %eax, %xmm3, %xmm0
	; AVX2-NEXT: vpinsrd $3, %eax, %xmm2, %xmm0			; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512VLCD-LABEL: testv8i32u:			; AVX512VLCD-LABEL: testv8i32u:
	; AVX512VLCD: ## BB#0:			; AVX512VLCD: ## BB#0:
	; AVX512VLCD-NEXT: vplzcntd %ymm0, %ymm0			; AVX512VLCD-NEXT: vplzcntd %ymm0, %ymm0
	; AVX512VLCD-NEXT: retq			; AVX512VLCD-NEXT: retq
	;			;
	Show All 9 Lines
	define <16 x i16> @testv16i16(<16 x i16> %in) nounwind {			define <16 x i16> @testv16i16(<16 x i16> %in) nounwind {
	; AVX1-LABEL: testv16i16:			; AVX1-LABEL: testv16i16:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrw $1, %xmm1, %eax			; AVX1-NEXT: vpextrw $1, %xmm1, %eax
	; AVX1-NEXT: bsrw %ax, %cx			; AVX1-NEXT: bsrw %ax, %cx
	; AVX1-NEXT: movw $31, %ax			; AVX1-NEXT: movw $31, %ax
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx
	; AVX1-NEXT: vmovd %xmm1, %edx			; AVX1-NEXT: vmovd %xmm1, %edx
	; AVX1-NEXT: bsrw %dx, %dx			; AVX1-NEXT: bsrw %dx, %dx
	; AVX1-NEXT: cmovew %ax, %dx			; AVX1-NEXT: cmovew %ax, %dx
	; AVX1-NEXT: xorl $15, %edx
	; AVX1-NEXT: vmovd %edx, %xmm2			; AVX1-NEXT: vmovd %edx, %xmm2
	; AVX1-NEXT: vpinsrw $1, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $1, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $2, %xmm1, %ecx			; AVX1-NEXT: vpextrw $2, %xmm1, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx
	; AVX1-NEXT: vpinsrw $2, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $2, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $3, %xmm1, %ecx			; AVX1-NEXT: vpextrw $3, %xmm1, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx
	; AVX1-NEXT: vpinsrw $3, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $3, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $4, %xmm1, %ecx			; AVX1-NEXT: vpextrw $4, %xmm1, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx
	; AVX1-NEXT: vpinsrw $4, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $4, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $5, %xmm1, %ecx			; AVX1-NEXT: vpextrw $5, %xmm1, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx
	; AVX1-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $6, %xmm1, %ecx			; AVX1-NEXT: vpextrw $6, %xmm1, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx
	; AVX1-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $7, %xmm1, %ecx			; AVX1-NEXT: vpextrw $7, %xmm1, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx
	; AVX1-NEXT: vpinsrw $7, %ecx, %xmm2, %xmm1			; AVX1-NEXT: vpinsrw $7, %ecx, %xmm2, %xmm1
				; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15]
				; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpextrw $1, %xmm0, %ecx			; AVX1-NEXT: vpextrw $1, %xmm0, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx
	; AVX1-NEXT: vmovd %xmm0, %edx			; AVX1-NEXT: vmovd %xmm0, %edx
	; AVX1-NEXT: bsrw %dx, %dx			; AVX1-NEXT: bsrw %dx, %dx
	; AVX1-NEXT: cmovew %ax, %dx			; AVX1-NEXT: cmovew %ax, %dx
	; AVX1-NEXT: xorl $15, %edx			; AVX1-NEXT: vmovd %edx, %xmm3
	; AVX1-NEXT: vmovd %edx, %xmm2			; AVX1-NEXT: vpinsrw $1, %ecx, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $1, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $2, %xmm0, %ecx			; AVX1-NEXT: vpextrw $2, %xmm0, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx			; AVX1-NEXT: vpinsrw $2, %ecx, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $2, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $3, %xmm0, %ecx			; AVX1-NEXT: vpextrw $3, %xmm0, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx			; AVX1-NEXT: vpinsrw $3, %ecx, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $3, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $4, %xmm0, %ecx			; AVX1-NEXT: vpextrw $4, %xmm0, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx			; AVX1-NEXT: vpinsrw $4, %ecx, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $4, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $5, %xmm0, %ecx			; AVX1-NEXT: vpextrw $5, %xmm0, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx			; AVX1-NEXT: vpinsrw $5, %ecx, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $6, %xmm0, %ecx			; AVX1-NEXT: vpextrw $6, %xmm0, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx			; AVX1-NEXT: vpinsrw $6, %ecx, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $7, %xmm0, %ecx			; AVX1-NEXT: vpextrw $7, %xmm0, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: cmovew %ax, %cx			; AVX1-NEXT: cmovew %ax, %cx
	; AVX1-NEXT: xorl $15, %ecx			; AVX1-NEXT: vpinsrw $7, %ecx, %xmm3, %xmm0
	; AVX1-NEXT: vpinsrw $7, %ecx, %xmm2, %xmm0			; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv16i16:			; AVX2-LABEL: testv16i16:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpextrw $1, %xmm1, %eax			; AVX2-NEXT: vpextrw $1, %xmm1, %eax
	; AVX2-NEXT: bsrw %ax, %cx			; AVX2-NEXT: bsrw %ax, %cx
	; AVX2-NEXT: movw $31, %ax			; AVX2-NEXT: movw $31, %ax
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx
	; AVX2-NEXT: vmovd %xmm1, %edx			; AVX2-NEXT: vmovd %xmm1, %edx
	; AVX2-NEXT: bsrw %dx, %dx			; AVX2-NEXT: bsrw %dx, %dx
	; AVX2-NEXT: cmovew %ax, %dx			; AVX2-NEXT: cmovew %ax, %dx
	; AVX2-NEXT: xorl $15, %edx
	; AVX2-NEXT: vmovd %edx, %xmm2			; AVX2-NEXT: vmovd %edx, %xmm2
	; AVX2-NEXT: vpinsrw $1, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $1, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $2, %xmm1, %ecx			; AVX2-NEXT: vpextrw $2, %xmm1, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx
	; AVX2-NEXT: vpinsrw $2, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $2, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $3, %xmm1, %ecx			; AVX2-NEXT: vpextrw $3, %xmm1, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx
	; AVX2-NEXT: vpinsrw $3, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $3, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $4, %xmm1, %ecx			; AVX2-NEXT: vpextrw $4, %xmm1, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx
	; AVX2-NEXT: vpinsrw $4, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $4, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $5, %xmm1, %ecx			; AVX2-NEXT: vpextrw $5, %xmm1, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx
	; AVX2-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $6, %xmm1, %ecx			; AVX2-NEXT: vpextrw $6, %xmm1, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx
	; AVX2-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $7, %xmm1, %ecx			; AVX2-NEXT: vpextrw $7, %xmm1, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx
	; AVX2-NEXT: vpinsrw $7, %ecx, %xmm2, %xmm1			; AVX2-NEXT: vpinsrw $7, %ecx, %xmm2, %xmm1
				; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15]
				; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpextrw $1, %xmm0, %ecx			; AVX2-NEXT: vpextrw $1, %xmm0, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx
	; AVX2-NEXT: vmovd %xmm0, %edx			; AVX2-NEXT: vmovd %xmm0, %edx
	; AVX2-NEXT: bsrw %dx, %dx			; AVX2-NEXT: bsrw %dx, %dx
	; AVX2-NEXT: cmovew %ax, %dx			; AVX2-NEXT: cmovew %ax, %dx
	; AVX2-NEXT: xorl $15, %edx			; AVX2-NEXT: vmovd %edx, %xmm3
	; AVX2-NEXT: vmovd %edx, %xmm2			; AVX2-NEXT: vpinsrw $1, %ecx, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $1, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $2, %xmm0, %ecx			; AVX2-NEXT: vpextrw $2, %xmm0, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx			; AVX2-NEXT: vpinsrw $2, %ecx, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $2, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $3, %xmm0, %ecx			; AVX2-NEXT: vpextrw $3, %xmm0, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx			; AVX2-NEXT: vpinsrw $3, %ecx, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $3, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $4, %xmm0, %ecx			; AVX2-NEXT: vpextrw $4, %xmm0, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx			; AVX2-NEXT: vpinsrw $4, %ecx, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $4, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $5, %xmm0, %ecx			; AVX2-NEXT: vpextrw $5, %xmm0, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx			; AVX2-NEXT: vpinsrw $5, %ecx, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $5, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $6, %xmm0, %ecx			; AVX2-NEXT: vpextrw $6, %xmm0, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx			; AVX2-NEXT: vpinsrw $6, %ecx, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $6, %ecx, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $7, %xmm0, %ecx			; AVX2-NEXT: vpextrw $7, %xmm0, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: cmovew %ax, %cx			; AVX2-NEXT: cmovew %ax, %cx
	; AVX2-NEXT: xorl $15, %ecx			; AVX2-NEXT: vpinsrw $7, %ecx, %xmm3, %xmm0
	; AVX2-NEXT: vpinsrw $7, %ecx, %xmm2, %xmm0			; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: testv16i16:			; AVX512-LABEL: testv16i16:
	; AVX512: ## BB#0:			; AVX512: ## BB#0:
	; AVX512-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512-NEXT: vplzcntd %zmm0, %zmm0			; AVX512-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512-NEXT: vpmovdw %zmm0, %ymm0			; AVX512-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512-NEXT: vpsubw {{.*}}(%rip), %ymm0, %ymm0			; AVX512-NEXT: vpsubw {{.*}}(%rip), %ymm0, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%out = call <16 x i16> @llvm.ctlz.v16i16(<16 x i16> %in, i1 0)			%out = call <16 x i16> @llvm.ctlz.v16i16(<16 x i16> %in, i1 0)
	ret <16 x i16> %out			ret <16 x i16> %out
	}			}

	define <16 x i16> @testv16i16u(<16 x i16> %in) nounwind {			define <16 x i16> @testv16i16u(<16 x i16> %in) nounwind {
	; AVX1-LABEL: testv16i16u:			; AVX1-LABEL: testv16i16u:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpextrw $1, %xmm1, %eax			; AVX1-NEXT: vpextrw $1, %xmm1, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax
	; AVX1-NEXT: vmovd %xmm1, %ecx			; AVX1-NEXT: vmovd %xmm1, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: xorl $15, %ecx
	; AVX1-NEXT: vmovd %ecx, %xmm2			; AVX1-NEXT: vmovd %ecx, %xmm2
	; AVX1-NEXT: vpinsrw $1, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $1, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $2, %xmm1, %eax			; AVX1-NEXT: vpextrw $2, %xmm1, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax
	; AVX1-NEXT: vpinsrw $2, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $2, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $3, %xmm1, %eax			; AVX1-NEXT: vpextrw $3, %xmm1, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax
	; AVX1-NEXT: vpinsrw $3, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $3, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $4, %xmm1, %eax			; AVX1-NEXT: vpextrw $4, %xmm1, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax
	; AVX1-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $5, %xmm1, %eax			; AVX1-NEXT: vpextrw $5, %xmm1, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax
	; AVX1-NEXT: vpinsrw $5, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $5, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $6, %xmm1, %eax			; AVX1-NEXT: vpextrw $6, %xmm1, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax
	; AVX1-NEXT: vpinsrw $6, %eax, %xmm2, %xmm2			; AVX1-NEXT: vpinsrw $6, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $7, %xmm1, %eax			; AVX1-NEXT: vpextrw $7, %xmm1, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax
	; AVX1-NEXT: vpinsrw $7, %eax, %xmm2, %xmm1			; AVX1-NEXT: vpinsrw $7, %eax, %xmm2, %xmm1
				; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15]
				; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpextrw $1, %xmm0, %eax			; AVX1-NEXT: vpextrw $1, %xmm0, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax
	; AVX1-NEXT: vmovd %xmm0, %ecx			; AVX1-NEXT: vmovd %xmm0, %ecx
	; AVX1-NEXT: bsrw %cx, %cx			; AVX1-NEXT: bsrw %cx, %cx
	; AVX1-NEXT: xorl $15, %ecx			; AVX1-NEXT: vmovd %ecx, %xmm3
	; AVX1-NEXT: vmovd %ecx, %xmm2			; AVX1-NEXT: vpinsrw $1, %eax, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $1, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $2, %xmm0, %eax			; AVX1-NEXT: vpextrw $2, %xmm0, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax			; AVX1-NEXT: vpinsrw $2, %eax, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $2, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $3, %xmm0, %eax			; AVX1-NEXT: vpextrw $3, %xmm0, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax			; AVX1-NEXT: vpinsrw $3, %eax, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $3, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $4, %xmm0, %eax			; AVX1-NEXT: vpextrw $4, %xmm0, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax			; AVX1-NEXT: vpinsrw $4, %eax, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $5, %xmm0, %eax			; AVX1-NEXT: vpextrw $5, %xmm0, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax			; AVX1-NEXT: vpinsrw $5, %eax, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $5, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $6, %xmm0, %eax			; AVX1-NEXT: vpextrw $6, %xmm0, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax			; AVX1-NEXT: vpinsrw $6, %eax, %xmm3, %xmm3
	; AVX1-NEXT: vpinsrw $6, %eax, %xmm2, %xmm2
	; AVX1-NEXT: vpextrw $7, %xmm0, %eax			; AVX1-NEXT: vpextrw $7, %xmm0, %eax
	; AVX1-NEXT: bsrw %ax, %ax			; AVX1-NEXT: bsrw %ax, %ax
	; AVX1-NEXT: xorl $15, %eax			; AVX1-NEXT: vpinsrw $7, %eax, %xmm3, %xmm0
	; AVX1-NEXT: vpinsrw $7, %eax, %xmm2, %xmm0			; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: testv16i16u:			; AVX2-LABEL: testv16i16u:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpextrw $1, %xmm1, %eax			; AVX2-NEXT: vpextrw $1, %xmm1, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax
	; AVX2-NEXT: vmovd %xmm1, %ecx			; AVX2-NEXT: vmovd %xmm1, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: xorl $15, %ecx
	; AVX2-NEXT: vmovd %ecx, %xmm2			; AVX2-NEXT: vmovd %ecx, %xmm2
	; AVX2-NEXT: vpinsrw $1, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $1, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $2, %xmm1, %eax			; AVX2-NEXT: vpextrw $2, %xmm1, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax
	; AVX2-NEXT: vpinsrw $2, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $2, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $3, %xmm1, %eax			; AVX2-NEXT: vpextrw $3, %xmm1, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax
	; AVX2-NEXT: vpinsrw $3, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $3, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $4, %xmm1, %eax			; AVX2-NEXT: vpextrw $4, %xmm1, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax
	; AVX2-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $5, %xmm1, %eax			; AVX2-NEXT: vpextrw $5, %xmm1, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax
	; AVX2-NEXT: vpinsrw $5, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $5, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $6, %xmm1, %eax			; AVX2-NEXT: vpextrw $6, %xmm1, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax
	; AVX2-NEXT: vpinsrw $6, %eax, %xmm2, %xmm2			; AVX2-NEXT: vpinsrw $6, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $7, %xmm1, %eax			; AVX2-NEXT: vpextrw $7, %xmm1, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax
	; AVX2-NEXT: vpinsrw $7, %eax, %xmm2, %xmm1			; AVX2-NEXT: vpinsrw $7, %eax, %xmm2, %xmm1
				; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15]
				; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpextrw $1, %xmm0, %eax			; AVX2-NEXT: vpextrw $1, %xmm0, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax
	; AVX2-NEXT: vmovd %xmm0, %ecx			; AVX2-NEXT: vmovd %xmm0, %ecx
	; AVX2-NEXT: bsrw %cx, %cx			; AVX2-NEXT: bsrw %cx, %cx
	; AVX2-NEXT: xorl $15, %ecx			; AVX2-NEXT: vmovd %ecx, %xmm3
	; AVX2-NEXT: vmovd %ecx, %xmm2			; AVX2-NEXT: vpinsrw $1, %eax, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $1, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $2, %xmm0, %eax			; AVX2-NEXT: vpextrw $2, %xmm0, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax			; AVX2-NEXT: vpinsrw $2, %eax, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $2, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $3, %xmm0, %eax			; AVX2-NEXT: vpextrw $3, %xmm0, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax			; AVX2-NEXT: vpinsrw $3, %eax, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $3, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $4, %xmm0, %eax			; AVX2-NEXT: vpextrw $4, %xmm0, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax			; AVX2-NEXT: vpinsrw $4, %eax, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $4, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $5, %xmm0, %eax			; AVX2-NEXT: vpextrw $5, %xmm0, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax			; AVX2-NEXT: vpinsrw $5, %eax, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $5, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $6, %xmm0, %eax			; AVX2-NEXT: vpextrw $6, %xmm0, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax			; AVX2-NEXT: vpinsrw $6, %eax, %xmm3, %xmm3
	; AVX2-NEXT: vpinsrw $6, %eax, %xmm2, %xmm2
	; AVX2-NEXT: vpextrw $7, %xmm0, %eax			; AVX2-NEXT: vpextrw $7, %xmm0, %eax
	; AVX2-NEXT: bsrw %ax, %ax			; AVX2-NEXT: bsrw %ax, %ax
	; AVX2-NEXT: xorl $15, %eax			; AVX2-NEXT: vpinsrw $7, %eax, %xmm3, %xmm0
	; AVX2-NEXT: vpinsrw $7, %eax, %xmm2, %xmm0			; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: testv16i16u:			; AVX512-LABEL: testv16i16u:
	; AVX512: ## BB#0:			; AVX512: ## BB#0:
	; AVX512-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512-NEXT: vplzcntd %zmm0, %zmm0			; AVX512-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512-NEXT: vpmovdw %zmm0, %ymm0			; AVX512-NEXT: vpmovdw %zmm0, %ymm0
	▲ Show 20 Lines • Show All 832 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-pcmp.ll

Show First 20 Lines • Show All 81 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%not = xor <2 x i64> %sign, <i64 -1, i64 -1>		%not = xor <2 x i64> %sign, <i64 -1, i64 -1>
ret <2 x i64> %not		ret <2 x i64> %not
}		}

define <1 x i128> @test_strange_type(<1 x i128> %x) {		define <1 x i128> @test_strange_type(<1 x i128> %x) {
; SSE2-LABEL: test_strange_type:		; SSE2-LABEL: test_strange_type:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: sarq $63, %rsi		; SSE2-NEXT: sarq $63, %rsi
; SSE2-NEXT: notq %rsi
; SSE2-NEXT: movd %rsi, %xmm0		; SSE2-NEXT: movd %rsi, %xmm0
		; SSE2-NEXT: notq %rsi
; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]		; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
; SSE2-NEXT: movd %xmm0, %rax		; SSE2-NEXT: pcmpeqd %xmm1, %xmm1
		; SSE2-NEXT: pxor %xmm0, %xmm1
		; SSE2-NEXT: movd %xmm1, %rax
; SSE2-NEXT: movq %rsi, %rdx		; SSE2-NEXT: movq %rsi, %rdx
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE42-LABEL: test_strange_type:		; SSE42-LABEL: test_strange_type:
; SSE42: # BB#0:		; SSE42: # BB#0:
; SSE42-NEXT: sarq $63, %rsi		; SSE42-NEXT: sarq $63, %rsi
; SSE42-NEXT: notq %rsi
; SSE42-NEXT: movd %rsi, %xmm0		; SSE42-NEXT: movd %rsi, %xmm0
; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]		; SSE42-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
; SSE42-NEXT: movd %xmm0, %rax		; SSE42-NEXT: pcmpeqd %xmm1, %xmm1
; SSE42-NEXT: pextrq $1, %xmm0, %rdx		; SSE42-NEXT: pxor %xmm0, %xmm1
		; SSE42-NEXT: movd %xmm1, %rax
		; SSE42-NEXT: pextrq $1, %xmm1, %rdx
; SSE42-NEXT: retq		; SSE42-NEXT: retq
;		;
; AVX1-LABEL: test_strange_type:		; AVX1-LABEL: test_strange_type:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: sarq $63, %rsi		; AVX1-NEXT: sarq $63, %rsi
; AVX1-NEXT: notq %rsi
; AVX1-NEXT: vmovq %rsi, %xmm0		; AVX1-NEXT: vmovq %rsi, %xmm0
; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]		; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
		; AVX1-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
		; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0
; AVX1-NEXT: vmovq %xmm0, %rax		; AVX1-NEXT: vmovq %xmm0, %rax
; AVX1-NEXT: vpextrq $1, %xmm0, %rdx		; AVX1-NEXT: vpextrq $1, %xmm0, %rdx
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: test_strange_type:		; AVX2-LABEL: test_strange_type:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: sarq $63, %rsi		; AVX2-NEXT: sarq $63, %rsi
; AVX2-NEXT: notq %rsi
; AVX2-NEXT: vmovq %rsi, %xmm0		; AVX2-NEXT: vmovq %rsi, %xmm0
; AVX2-NEXT: vpbroadcastq %xmm0, %xmm0		; AVX2-NEXT: vpbroadcastq %xmm0, %xmm0
		; AVX2-NEXT: vpcmpeqd %xmm1, %xmm1, %xmm1
		; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vmovq %xmm0, %rax		; AVX2-NEXT: vmovq %xmm0, %rax
; AVX2-NEXT: vpextrq $1, %xmm0, %rdx		; AVX2-NEXT: vpextrq $1, %xmm0, %rdx
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%sign = ashr <1 x i128> %x, <i128 127>		%sign = ashr <1 x i128> %x, <i128 127>
%not = xor <1 x i128> %sign, <i128 -1>		%not = xor <1 x i128> %sign, <i128 -1>
ret <1 x i128> %not		ret <1 x i128> %not
}		}

▲ Show 20 Lines • Show All 130 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-sext.ll

	Show First 20 Lines • Show All 820 Lines • ▼ Show 20 Lines
	%X = load <4 x i8>, <4 x i8>* %ptr			%X = load <4 x i8>, <4 x i8>* %ptr
	%Y = sext <4 x i8> %X to <4 x i32>			%Y = sext <4 x i8> %X to <4 x i32>
	ret <4 x i32> %Y			ret <4 x i32> %Y
	}			}

	define <4 x i64> @load_sext_4i1_to_4i64(<4 x i1> *%ptr) {			define <4 x i64> @load_sext_4i1_to_4i64(<4 x i1> *%ptr) {
	; SSE2-LABEL: load_sext_4i1_to_4i64:			; SSE2-LABEL: load_sext_4i1_to_4i64:
	; SSE2: # BB#0: # %entry			; SSE2: # BB#0: # %entry
	; SSE2-NEXT: movzbl (%rdi), %eax			; SSE2-NEXT: movl (%rdi), %eax
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $3, %ecx			; SSE2-NEXT: shrl $3, %ecx
	; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl %ecx			; SSE2-NEXT: shrl %ecx
	; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movd %eax, %xmm2
	; SSE2-NEXT: andl $1, %ecx
	; SSE2-NEXT: movd %ecx, %xmm2
	; SSE2-NEXT: shrl $2, %eax			; SSE2-NEXT: shrl $2, %eax
	; SSE2-NEXT: andl $1, %eax
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
				; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,1,1,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,1,1,3]
	; SSE2-NEXT: psllq $63, %xmm0			; SSE2-NEXT: psllq $63, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]
	; SSE2-NEXT: psllq $63, %xmm1			; SSE2-NEXT: psllq $63, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_4i1_to_4i64:			; SSSE3-LABEL: load_sext_4i1_to_4i64:
	; SSSE3: # BB#0: # %entry			; SSSE3: # BB#0: # %entry
	; SSSE3-NEXT: movzbl (%rdi), %eax			; SSSE3-NEXT: movl (%rdi), %eax
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $3, %ecx			; SSSE3-NEXT: shrl $3, %ecx
	; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl %ecx			; SSSE3-NEXT: shrl %ecx
	; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movd %eax, %xmm2
	; SSSE3-NEXT: andl $1, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm2
	; SSSE3-NEXT: shrl $2, %eax			; SSSE3-NEXT: shrl $2, %eax
	; SSSE3-NEXT: andl $1, %eax
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
				; SSSE3-NEXT: pand {{.*}}(%rip), %xmm2
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,1,1,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,1,1,3]
	; SSSE3-NEXT: psllq $63, %xmm0			; SSSE3-NEXT: psllq $63, %xmm0
	; SSSE3-NEXT: psrad $31, %xmm0			; SSSE3-NEXT: psrad $31, %xmm0
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]
	; SSSE3-NEXT: psllq $63, %xmm1			; SSSE3-NEXT: psllq $63, %xmm1
	; SSSE3-NEXT: psrad $31, %xmm1			; SSSE3-NEXT: psrad $31, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: load_sext_4i1_to_4i64:			; SSE41-LABEL: load_sext_4i1_to_4i64:
	; SSE41: # BB#0: # %entry			; SSE41: # BB#0: # %entry
	; SSE41-NEXT: movzbl (%rdi), %eax			; SSE41-NEXT: movl (%rdi), %eax
	; SSE41-NEXT: movl %eax, %ecx			; SSE41-NEXT: movl %eax, %ecx
	; SSE41-NEXT: shrl %ecx			; SSE41-NEXT: shrl %ecx
	; SSE41-NEXT: andl $1, %ecx			; SSE41-NEXT: movd %eax, %xmm1
	; SSE41-NEXT: movl %eax, %edx
	; SSE41-NEXT: andl $1, %edx
	; SSE41-NEXT: movd %edx, %xmm1
	; SSE41-NEXT: pinsrd $1, %ecx, %xmm1			; SSE41-NEXT: pinsrd $1, %ecx, %xmm1
	; SSE41-NEXT: movl %eax, %ecx			; SSE41-NEXT: movl %eax, %ecx
	; SSE41-NEXT: shrl $2, %ecx			; SSE41-NEXT: shrl $2, %ecx
	; SSE41-NEXT: andl $1, %ecx
	; SSE41-NEXT: pinsrd $2, %ecx, %xmm1			; SSE41-NEXT: pinsrd $2, %ecx, %xmm1
	; SSE41-NEXT: shrl $3, %eax			; SSE41-NEXT: shrl $3, %eax
	; SSE41-NEXT: andl $1, %eax
	; SSE41-NEXT: pinsrd $3, %eax, %xmm1			; SSE41-NEXT: pinsrd $3, %eax, %xmm1
				; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE41-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero			; SSE41-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero
	; SSE41-NEXT: psllq $63, %xmm0			; SSE41-NEXT: psllq $63, %xmm0
	; SSE41-NEXT: psrad $31, %xmm0			; SSE41-NEXT: psrad $31, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,2,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,2,3,3]
	; SSE41-NEXT: psllq $63, %xmm1			; SSE41-NEXT: psllq $63, %xmm1
	; SSE41-NEXT: psrad $31, %xmm1			; SSE41-NEXT: psrad $31, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; X32-SSE41-LABEL: load_sext_4i1_to_4i64:			; X32-SSE41-LABEL: load_sext_4i1_to_4i64:
	; X32-SSE41: # BB#0: # %entry			; X32-SSE41: # BB#0: # %entry
	; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-SSE41-NEXT: movzbl (%eax), %eax			; X32-SSE41-NEXT: movzbl (%eax), %eax
	; X32-SSE41-NEXT: movl %eax, %ecx			; X32-SSE41-NEXT: movl %eax, %ecx
	; X32-SSE41-NEXT: shrl %ecx			; X32-SSE41-NEXT: shrl %ecx
	; X32-SSE41-NEXT: andl $1, %ecx			; X32-SSE41-NEXT: movd %eax, %xmm1
	; X32-SSE41-NEXT: movl %eax, %edx
	; X32-SSE41-NEXT: andl $1, %edx
	; X32-SSE41-NEXT: movd %edx, %xmm1
	; X32-SSE41-NEXT: pinsrd $1, %ecx, %xmm1			; X32-SSE41-NEXT: pinsrd $1, %ecx, %xmm1
	; X32-SSE41-NEXT: movl %eax, %ecx			; X32-SSE41-NEXT: movl %eax, %ecx
	; X32-SSE41-NEXT: shrl $2, %ecx			; X32-SSE41-NEXT: shrl $2, %ecx
	; X32-SSE41-NEXT: andl $1, %ecx
	; X32-SSE41-NEXT: pinsrd $2, %ecx, %xmm1			; X32-SSE41-NEXT: pinsrd $2, %ecx, %xmm1
	; X32-SSE41-NEXT: shrl $3, %eax			; X32-SSE41-NEXT: shrl $3, %eax
	; X32-SSE41-NEXT: andl $1, %eax
	; X32-SSE41-NEXT: pinsrd $3, %eax, %xmm1			; X32-SSE41-NEXT: pinsrd $3, %eax, %xmm1
				; X32-SSE41-NEXT: pand .LCPI16_0, %xmm1
	; X32-SSE41-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero			; X32-SSE41-NEXT: pmovzxdq {{.*#+}} xmm0 = xmm1[0],zero,xmm1[1],zero
	; X32-SSE41-NEXT: psllq $63, %xmm0			; X32-SSE41-NEXT: psllq $63, %xmm0
	; X32-SSE41-NEXT: psrad $31, %xmm0			; X32-SSE41-NEXT: psrad $31, %xmm0
	; X32-SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; X32-SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; X32-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,2,3,3]			; X32-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,2,3,3]
	; X32-SSE41-NEXT: psllq $63, %xmm1			; X32-SSE41-NEXT: psllq $63, %xmm1
	; X32-SSE41-NEXT: psrad $31, %xmm1			; X32-SSE41-NEXT: psrad $31, %xmm1
	; X32-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; X32-SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	▲ Show 20 Lines • Show All 3,040 Lines • Show Last 20 Lines