This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
lib/CodeGen/SelectionDAG/
-
CodeGen/
-
SelectionDAG/
2/2
DAGCombiner.cpp
-
test/CodeGen/
-
CodeGen/
-
AArch64/
-
sink-addsub-of-const.ll
-
vec_cttz.ll
-
AMDGPU/
2/2
sub.v2i16.ll
-
Mips/msa/
-
msa/
-
arithmetic.ll
-
i5-s.ll
-
PowerPC/
-
vec_add_sub_doubleword.ll
-
vec_add_sub_quadword.ll
-
vec_splat.ll
-
X86/
-
avx-shift.ll
-
avx2-shift.ll
-
combine-sdiv.ll
-
combine-sub.ll
-
known-signbits-vector.ll
-
packss.ll
-
prefer-avx256-lzcnt.ll
-
sadd_sat_vec.ll
-
sink-addsub-of-const.ll
-
ssub_sat_vec.ll
-
vec_ctbits.ll
-
vector-fshl-128.ll
-
vector-fshl-256.ll
-
vector-idiv-sdiv-128.ll
-
vector-idiv-sdiv-256.ll
-
vector-idiv-sdiv-512.ll
-
vector-lzcnt-128.ll
-
vector-lzcnt-256.ll
-
vector-lzcnt-512.ll
-
vector-shift-ashr-128.ll
-
vector-shift-ashr-256.ll
-
vector-shift-ashr-512.ll
-
vector-shift-ashr-sub128-widen.ll
-
vector-shift-ashr-sub128.ll
-
vector-trunc-math-widen.ll
-
vector-trunc-math.ll
-
vector_splat-const-shift-of-constmasked.ll
-
widen_arith-4.ll
-
widen_arith-5.ll
-
widen_cast-4.ll
-
x86-shifts.ll

Differential D62341

[DAGCombine][X86][AArch64][AMDGPU][MIPS][PPC] (sub x, c) -> (add x, -c) vector edition.
AbandonedPublic

Authored by lebedev.ri on May 23 2019, 1:12 PM.

Download Raw Diff

Details

Reviewers

RKSimon
craig.topper
spatel
t.p.northover
arsenm
atanasyan
hfinkel

Summary

Lots of diff. The entire check-llvm-codegen passes,
so only X86 had conflicting transform. (D62327)

We want this transform because currently every single DAGCombine add %x, C
vector pattern needs to be written twice - for add and for sub.
Not good.

AArch64 changes look neutral-positive. I'm not good with that asm, but i think movi v1.2d encodes the entire all-ones as an imm0_255:$imm8, so there should not be codesize penalty?
AMDGPU changes look neutral-positive.
MIPS changes are neutral, regressions are being addressed by D66805.
PowerPC - not great, some regressions, same fold as MIPS seems missing.
X86 - in average looks like an improvement :) There are more deletions than additions. We delete 137 unfolded constant-pool loads, but add 56; delete 233 folded constant-pool loads, but add 350. Can't tell yet if there is some missing combines..

Diff Detail

Repository: rL LLVM

Event Timeline

lebedev.ri created this revision.May 23 2019, 1:12 PM

Herald added subscribers: jsji, jrtc27, kristof.beyls and 12 others. · View Herald TranscriptMay 23 2019, 1:12 PM

Forgot to add, i'm not dropping anything from DAGCombiner::visitSUB() here,
that should be done as NFC followups.

lebedev.ri added a parent revision: D62327: [X86][CodeGen][NFC] Delay `combineIncDecVector()` from DAGCombine to X86DAGToDAGISel.May 23 2019, 1:13 PM

lebedev.ri edited the summary of this revision. (Show Details)

arsenm added inline comments.May 23 2019, 1:16 PM

test/CodeGen/AMDGPU/sub.v2i16.ll
329	This is worse because it is no longer an inline immediate. We undo this already for the 32-bit case during selection: Undo sub x, c -> add x, -c canonicalization since c is more likely an inline immediate than -c. // TODO: Also do for 64-bit. def : GCNPat< (add i32:$src0, (i32 NegSubInlineConst32:$src1)), (S_SUB_I32 $src0, NegSubInlineConst32:$src1) ;

RKSimon added inline comments.May 23 2019, 1:38 PM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
2819	Do we need a (!VT.isVector() \|\| N1.hasOneUse()) limit?

I do not think it's good for MIPS because this patch replace one subvi instruction by pair of ldi and addv. Are you going to fix such regressions?

In D62341#1515637, @atanasyan wrote:

I do not think it's good for MIPS because this patch replace one subvi instruction by pair of ldi and addv.

Yep, i guessed as much in the patch description.

Are you going to fix such regressions?

I have zero clues about mips/etc. I'll certainly take a look, but i just don't know.

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
2819	Hmm, i'm not a fan, and let me explain why. There are three paths, as i see it: Without this patch - keep `sub` for vectors. Bad - pattern duplication Good - it is immediately obvious when the `sub` fold is missing, Neutral - we do nothing to constant pool This patch as-is - always transform all `sub`, with no use-checks. Better - no pattern duplication Unknown - this has some effect on constant pool. This patch, but limit vector transform to one-use constants Bad - the pattern duplication is still there, or Worse - we suddenly loose folds if the constant is not one-use. Worse - unless one knows about that one-use limitation, the missing fold won't even be noticed So ignoring the constant pool issues, the one-use limit is the worst path of them all, even worse than what we have now. Am i missing some other path? As an alternative, i can suggest some transform to analyze all the vector `add %x, C`, all the existing constant-pool entries (==all constant vectors, not just those used by `add`), and try to flip some of those `add` to `sub` if that allows to kill some pool entires. The same could be done with locality in mind (within one BB).

arsenm added inline comments.Jun 19 2019, 6:00 AM

test/CodeGen/AMDGPU/sub.v2i16.ll
329	I have a patch which should implement this for the v2i16 case

arsenm mentioned this in D63558: AMDGPU: Undo sub x, c canonicalization for v2i16.Jun 19 2019, 8:27 AM

arsenm mentioned this in rL363888: AMDGPU: Add baseline test for vector sub x, c canonicalization.Jun 19 2019, 3:35 PM

arsenm mentioned this in rG532be255a516: AMDGPU: Add baseline test for vector sub x, c canonicalization.

arsenm mentioned this in rL363899: AMDGPU: Undo sub x, c canonicalization for v2i16.Jun 19 2019, 4:34 PM

arsenm mentioned this in rGe24b34e9c9b9: AMDGPU: Undo sub x, c canonicalization for v2i16.

Rebased.
AMDGPU regressions are no more (@arsenm, thanks!)
Everything else is still the same - some PPC and MIPS regressions remain.

Herald added subscribers: steven.zhang, • wuzish, MaskRay, hiraditya. · View Herald TranscriptAug 27 2019, 5:39 AM

lebedev.ri added a child revision: D66805: [MIPS] For vectors, select `add %x, C` as `sub %x, -C` if it results in inline immediate.Aug 27 2019, 8:09 AM

In D62341#1515637, @atanasyan wrote:

I do not think it's good for MIPS because this patch replace one subvi instruction by pair of ldi and addv. Are you going to fix such regressions?

@atanasyan D66805 addresses all llvm/test/CodeGen/Mips/msa/arithmetic.ll regressions,
but llvm/test/CodeGen/Mips/msa/i5-s.ll one remains, i don't know what's going on there;
PTAL, thank you.

In D62341#1647139, @lebedev.ri wrote:

@atanasyan D66805 addresses all llvm/test/CodeGen/Mips/msa/arithmetic.ll regressions,
but llvm/test/CodeGen/Mips/msa/i5-s.ll one remains, i don't know what's going on there;
PTAL, thank you.

I'll take a look probably tomorrow.

Petar.Avramovic mentioned this in D66805: [MIPS] For vectors, select `add %x, C` as `sub %x, -C` if it results in inline immediate.Aug 27 2019, 9:12 AM

lebedev.ri edited the summary of this revision. (Show Details)Aug 27 2019, 10:52 AM

@hfinkel should i be worried about PPC regressions here?
Those are there regardless of the patch (instcombine already did this fold).
I'm not yet sure how to handle them, in some of these patterns the constant
is already constant-pool load, in some cases it's bitcasted, etc.

In D62341#1647808, @lebedev.ri wrote:

@hfinkel should i be worried about PPC regressions here?
Those are there regardless of the patch (instcombine already did this fold).
I'm not yet sure how to handle them, in some of these patterns the constant
is already constant-pool load, in some cases it's bitcasted, etc.

Yeah, those don't look good. @nemanjai , are we just missing some patterns?

In D62341#1649924, @hfinkel wrote:

In D62341#1647808, @lebedev.ri wrote:

@hfinkel should i be worried about PPC regressions here?
Those are there regardless of the patch (instcombine already did this fold).
I'm not yet sure how to handle them, in some of these patterns the constant
is already constant-pool load, in some cases it's bitcasted, etc.

Yeah, those don't look good. @nemanjai , are we just missing some patterns?

I believe you need something similar to https://reviews.llvm.org/D66805#change-JSdQ9NCYAb2i / D63558,
but i'm not sure how to do that for PPC, would be great if someone actually familiar with that backend could handle that..

Could you rebase the patch against the master branch?

In D62341#1652978, @atanasyan wrote:

Could you rebase the patch against the master branch?

Rebased. Are you happy with D66805 ?

@nemanjai / @hfinkel ping? any advice on how to proceed here?
It seems PPC is the only regression remaining here.

In D62341#1649938, @lebedev.ri wrote:

In D62341#1649924, @hfinkel wrote:

In D62341#1647808, @lebedev.ri wrote:

@hfinkel should i be worried about PPC regressions here?
Those are there regardless of the patch (instcombine already did this fold).
I'm not yet sure how to handle them, in some of these patterns the constant
is already constant-pool load, in some cases it's bitcasted, etc.

Yeah, those don't look good. @nemanjai , are we just missing some patterns?

I believe you need something similar to https://reviews.llvm.org/D66805#change-JSdQ9NCYAb2i / D63558,
but i'm not sure how to do that for PPC, would be great if someone actually familiar with that backend could handle that..

Herald added a subscriber: ychen. · View Herald TranscriptSep 6 2019, 6:24 AM

For vectors this is a big increase in constant pool usage - are we sure we want to do this?

In D62341#1660798, @RKSimon wrote:

For vectors this is a big increase in constant pool usage - are we sure we want to do this?

Could you be more specific please?
Are you thinking of the code where we previously reused the constant from sub in some other instruction, and now we won't?
One more issue i'm seeing is some load folding opportunities.

llvm/test/CodeGen/X86/addsub-constant-folding.ll
460–463 ↗	(On Diff #218150)	FIXME: Sometimes using `sub` will allow to avoid extra load instruction.

Yes the vXi8 shifts for instance

In D62341#1662108, @RKSimon wrote:

Yes the vXi8 shifts for instance

Err, i meant to reply but apparently never did.
Can you point me to the appropriate test case?

lebedev.ri abandoned this revision.Jan 17 2022, 2:40 PM

Herald added subscribers: ecnelises, kerbowa, pengfei, shchenz. · View Herald TranscriptJan 17 2022, 2:40 PM

Revision Contents

Path

Size

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

14 lines

test/

CodeGen/

AArch64/

sink-addsub-of-const.ll

10 lines

vec_cttz.ll

18 lines

AMDGPU/

sub.v2i16.ll

17 lines

Mips/

msa/

arithmetic.ll

35 lines

i5-s.ll

9 lines

PowerPC/

vec_add_sub_doubleword.ll

8 lines

vec_add_sub_quadword.ll

8 lines

vec_splat.ll

6 lines

X86/

5 lines

10 lines

132 lines

4 lines

known-signbits-vector.ll

15 lines

packss.ll

18 lines

prefer-avx256-lzcnt.ll

22 lines

sadd_sat_vec.ll

10 lines

sink-addsub-of-const.ll

20 lines

10 lines

2 lines

12 lines

30 lines

vector-idiv-sdiv-128.ll

134 lines

vector-idiv-sdiv-256.ll

78 lines

vector-idiv-sdiv-512.ll

42 lines

vector-lzcnt-128.ll

12 lines

vector-lzcnt-256.ll

16 lines

vector-lzcnt-512.ll

64 lines

vector-shift-ashr-128.ll

45 lines

vector-shift-ashr-256.ll

69 lines

vector-shift-ashr-512.ll

10 lines

vector-shift-ashr-sub128-widen.ll

75 lines

vector-shift-ashr-sub128.ll

60 lines

vector-trunc-math-widen.ll

62 lines

vector-trunc-math.ll

62 lines

vector_splat-const-shift-of-constmasked.ll

80 lines

16 lines

4 lines

15 lines

10 lines

Diff 201043

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,809 Lines • ▼ Show 20 Lines	if (DAG.isConstantIntBuildVectorOrConstantInt(N0) &&
// fold (sub c1, c2) -> c1-c2		// fold (sub c1, c2) -> c1-c2
return DAG.FoldConstantArithmetic(ISD::SUB, DL, VT, N0.getNode(),		return DAG.FoldConstantArithmetic(ISD::SUB, DL, VT, N0.getNode(),
N1.getNode());		N1.getNode());
}		}

if (SDValue NewSel = foldBinOpIntoSelect(N))		if (SDValue NewSel = foldBinOpIntoSelect(N))
return NewSel;		return NewSel;

ConstantSDNode *N1C = getAsNonOpaqueConstant(N1);		// fold (sub x, c) -> (add x, (sub 0, c))
		if (isConstantOrConstantVector(N1, /* NoOpaques */ true)) {
		RKSimonUnsubmitted Done Reply Inline Actions Do we need a (!VT.isVector() \|\| N1.hasOneUse()) limit? RKSimon: Do we need a (!VT.isVector() \|\| N1.hasOneUse()) limit?
		lebedev.riAuthorUnsubmitted Done Reply Inline Actions Hmm, i'm not a fan, and let me explain why. There are three paths, as i see it: Without this patch - keep `sub` for vectors. Bad - pattern duplication Good - it is immediately obvious when the `sub` fold is missing, Neutral - we do nothing to constant pool This patch as-is - always transform all `sub`, with no use-checks. Better - no pattern duplication Unknown - this has some effect on constant pool. This patch, but limit vector transform to one-use constants Bad - the pattern duplication is still there, or Worse - we suddenly loose folds if the constant is not one-use. Worse - unless one knows about that one-use limitation, the missing fold won't even be noticed So ignoring the constant pool issues, the one-use limit is the worst path of them all, even worse than what we have now. Am i missing some other path? As an alternative, i can suggest some transform to analyze all the vector `add %x, C`, all the existing constant-pool entries (==all constant vectors, not just those used by `add`), and try to flip some of those `add` to `sub` if that allows to kill some pool entires. The same could be done with locality in mind (within one BB). lebedev.ri: Hmm, i'm not a fan, and let me explain why. There are three paths, as i see it: * Without this…
// fold (sub x, c) -> (add x, -c)		SDValue NegC = DAG.FoldConstantArithmetic(
if (N1C) {		ISD::SUB, DL, VT, DAG.getConstant(0, DL, VT).getNode(), N1.getNode());
return DAG.getNode(ISD::ADD, DL, VT, N0,		assert(NegC && "Constant-folding failed!");
DAG.getConstant(-N1C->getAPIntValue(), DL, VT));		return DAG.getNode(ISD::ADD, DL, VT, N0, NegC);
}		}

		ConstantSDNode *N1C = getAsNonOpaqueConstant(N1);

if (isNullOrNullSplat(N0)) {		if (isNullOrNullSplat(N0)) {
unsigned BitWidth = VT.getScalarSizeInBits();		unsigned BitWidth = VT.getScalarSizeInBits();
// Right-shifting everything out but the sign bit followed by negation is		// Right-shifting everything out but the sign bit followed by negation is
// the same as flipping arithmetic/logical shift type without the negation:		// the same as flipping arithmetic/logical shift type without the negation:
// -(X >>u 31) -> (X >>s 31)		// -(X >>u 31) -> (X >>s 31)
// -(X >>s 31) -> (X >>u 31)		// -(X >>s 31) -> (X >>u 31)
if (N1->getOpcode() == ISD::SRA \|\| N1->getOpcode() == ISD::SRL) {		if (N1->getOpcode() == ISD::SRA \|\| N1->getOpcode() == ISD::SRL) {
ConstantSDNode *ShiftAmt = isConstOrConstSplat(N1.getOperand(1));		ConstantSDNode *ShiftAmt = isConstOrConstSplat(N1.getOperand(1));
▲ Show 20 Lines • Show All 17,400 Lines • Show Last 20 Lines

test/CodeGen/AArch64/sink-addsub-of-const.ll

	Show First 20 Lines • Show All 211 Lines • ▼ Show 20 Lines

	define <4 x i32> @vec_sink_sub_of_const_to_add0(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @vec_sink_sub_of_const_to_add0(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; CHECK-LABEL: vec_sink_sub_of_const_to_add0:			; CHECK-LABEL: vec_sink_sub_of_const_to_add0:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: adrp x8, .LCPI14_0			; CHECK-NEXT: adrp x8, .LCPI14_0
	; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI14_0]			; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI14_0]
	; CHECK-NEXT: add v0.4s, v0.4s, v1.4s			; CHECK-NEXT: add v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: add v0.4s, v0.4s, v2.4s			; CHECK-NEXT: add v0.4s, v0.4s, v2.4s
	; CHECK-NEXT: sub v0.4s, v0.4s, v3.4s			; CHECK-NEXT: add v0.4s, v0.4s, v3.4s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%t0 = add <4 x i32> %a, %b			%t0 = add <4 x i32> %a, %b
	%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>			%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>
	%r = add <4 x i32> %t1, %c			%r = add <4 x i32> %t1, %c
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}
	define <4 x i32> @vec_sink_sub_of_const_to_add1(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @vec_sink_sub_of_const_to_add1(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; CHECK-LABEL: vec_sink_sub_of_const_to_add1:			; CHECK-LABEL: vec_sink_sub_of_const_to_add1:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: adrp x8, .LCPI15_0			; CHECK-NEXT: adrp x8, .LCPI15_0
	; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI15_0]			; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI15_0]
	; CHECK-NEXT: add v0.4s, v0.4s, v1.4s			; CHECK-NEXT: add v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: add v0.4s, v0.4s, v2.4s			; CHECK-NEXT: add v0.4s, v0.4s, v2.4s
	; CHECK-NEXT: sub v0.4s, v0.4s, v3.4s			; CHECK-NEXT: add v0.4s, v0.4s, v3.4s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%t0 = add <4 x i32> %a, %b			%t0 = add <4 x i32> %a, %b
	%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>			%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>
	%r = add <4 x i32> %c, %t1			%r = add <4 x i32> %c, %t1
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	; add (sub C, %x), %y			; add (sub C, %x), %y
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	}			}
	define <4 x i32> @vec_sink_add_of_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @vec_sink_add_of_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; CHECK-LABEL: vec_sink_add_of_const_to_sub2:			; CHECK-LABEL: vec_sink_add_of_const_to_sub2:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: adrp x8, .LCPI19_0			; CHECK-NEXT: adrp x8, .LCPI19_0
	; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI19_0]			; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI19_0]
	; CHECK-NEXT: sub v0.4s, v1.4s, v0.4s			; CHECK-NEXT: sub v0.4s, v1.4s, v0.4s
	; CHECK-NEXT: add v0.4s, v2.4s, v0.4s			; CHECK-NEXT: add v0.4s, v2.4s, v0.4s
	; CHECK-NEXT: sub v0.4s, v0.4s, v3.4s			; CHECK-NEXT: add v0.4s, v0.4s, v3.4s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%t0 = sub <4 x i32> %a, %b			%t0 = sub <4 x i32> %a, %b
	%t1 = add <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46> ; constant always on RHS			%t1 = add <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46> ; constant always on RHS
	%r = sub <4 x i32> %c, %t1			%r = sub <4 x i32> %c, %t1
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

	; sub (sub %x, C), %y			; sub (sub %x, C), %y
	; sub %y, (sub %x, C)			; sub %y, (sub %x, C)

	define <4 x i32> @vec_sink_sub_of_const_to_sub(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @vec_sink_sub_of_const_to_sub(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; CHECK-LABEL: vec_sink_sub_of_const_to_sub:			; CHECK-LABEL: vec_sink_sub_of_const_to_sub:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: adrp x8, .LCPI20_0			; CHECK-NEXT: adrp x8, .LCPI20_0
	; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI20_0]			; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI20_0]
	; CHECK-NEXT: sub v0.4s, v0.4s, v1.4s			; CHECK-NEXT: sub v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: sub v0.4s, v0.4s, v2.4s			; CHECK-NEXT: sub v0.4s, v0.4s, v2.4s
	; CHECK-NEXT: sub v0.4s, v0.4s, v3.4s			; CHECK-NEXT: add v0.4s, v0.4s, v3.4s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%t0 = sub <4 x i32> %a, %b			%t0 = sub <4 x i32> %a, %b
	%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>			%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>
	%r = sub <4 x i32> %t1, %c			%r = sub <4 x i32> %t1, %c
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}
	define <4 x i32> @vec_sink_sub_of_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @vec_sink_sub_of_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; CHECK-LABEL: vec_sink_sub_of_const_to_sub2:			; CHECK-LABEL: vec_sink_sub_of_const_to_sub2:
	Show All 29 Lines
	}			}
	define <4 x i32> @vec_sink_sub_from_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {			define <4 x i32> @vec_sink_sub_from_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
	; CHECK-LABEL: vec_sink_sub_from_const_to_sub2:			; CHECK-LABEL: vec_sink_sub_from_const_to_sub2:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: adrp x8, .LCPI23_0			; CHECK-NEXT: adrp x8, .LCPI23_0
	; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI23_0]			; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI23_0]
	; CHECK-NEXT: sub v0.4s, v0.4s, v1.4s			; CHECK-NEXT: sub v0.4s, v0.4s, v1.4s
	; CHECK-NEXT: add v0.4s, v0.4s, v2.4s			; CHECK-NEXT: add v0.4s, v0.4s, v2.4s
	; CHECK-NEXT: sub v0.4s, v0.4s, v3.4s			; CHECK-NEXT: add v0.4s, v0.4s, v3.4s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%t0 = sub <4 x i32> %a, %b			%t0 = sub <4 x i32> %a, %b
	%t1 = sub <4 x i32> <i32 42, i32 24, i32 undef, i32 46>, %t0			%t1 = sub <4 x i32> <i32 42, i32 24, i32 undef, i32 46>, %t0
	%r = sub <4 x i32> %c, %t1			%r = sub <4 x i32> %c, %t1
	ret <4 x i32> %r			ret <4 x i32> %r
	}			}

test/CodeGen/AArch64/vec_cttz.ll

	Show All 34 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call <4 x i16> @llvm.cttz.v4i16(<4 x i16> %a, i1 true)			%b = call <4 x i16> @llvm.cttz.v4i16(<4 x i16> %a, i1 true)
	ret <4 x i16> %b			ret <4 x i16> %b
	}			}

	define <2 x i32> @cttz_v2i32(<2 x i32> %a) nounwind {			define <2 x i32> @cttz_v2i32(<2 x i32> %a) nounwind {
	; CHECK-LABEL: cttz_v2i32:			; CHECK-LABEL: cttz_v2i32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: movi v1.2s, #1			; CHECK-NEXT: movi v1.2d, #0xffffffffffffffff
	; CHECK-NEXT: sub v1.2s, v0.2s, v1.2s			; CHECK-NEXT: add v1.2s, v0.2s, v1.2s
	; CHECK-NEXT: bic v0.8b, v1.8b, v0.8b			; CHECK-NEXT: bic v0.8b, v1.8b, v0.8b
	; CHECK-NEXT: clz v0.2s, v0.2s			; CHECK-NEXT: clz v0.2s, v0.2s
	; CHECK-NEXT: movi v1.2s, #32			; CHECK-NEXT: movi v1.2s, #32
	; CHECK-NEXT: sub v0.2s, v1.2s, v0.2s			; CHECK-NEXT: sub v0.2s, v1.2s, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call <2 x i32> @llvm.cttz.v2i32(<2 x i32> %a, i1 true)			%b = call <2 x i32> @llvm.cttz.v2i32(<2 x i32> %a, i1 true)
	ret <2 x i32> %b			ret <2 x i32> %b
	}			}

	define <1 x i64> @cttz_v1i64(<1 x i64> %a) nounwind {			define <1 x i64> @cttz_v1i64(<1 x i64> %a) nounwind {
	; CHECK-LABEL: cttz_v1i64:			; CHECK-LABEL: cttz_v1i64:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: mov w8, #1			; CHECK-NEXT: movi v1.2d, #0xffffffffffffffff
	; CHECK-NEXT: fmov d1, x8			; CHECK-NEXT: add d1, d0, d1
	; CHECK-NEXT: sub d1, d0, d1
	; CHECK-NEXT: bic v0.8b, v1.8b, v0.8b			; CHECK-NEXT: bic v0.8b, v1.8b, v0.8b
	; CHECK-NEXT: cnt v0.8b, v0.8b			; CHECK-NEXT: cnt v0.8b, v0.8b
	; CHECK-NEXT: uaddlp v0.4h, v0.8b			; CHECK-NEXT: uaddlp v0.4h, v0.8b
	; CHECK-NEXT: uaddlp v0.2s, v0.4h			; CHECK-NEXT: uaddlp v0.2s, v0.4h
	; CHECK-NEXT: uaddlp v0.1d, v0.2s			; CHECK-NEXT: uaddlp v0.1d, v0.2s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call <1 x i64> @llvm.cttz.v1i64(<1 x i64> %a, i1 true)			%b = call <1 x i64> @llvm.cttz.v1i64(<1 x i64> %a, i1 true)
	ret <1 x i64> %b			ret <1 x i64> %b
	Show All 23 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call <8 x i16> @llvm.cttz.v8i16(<8 x i16> %a, i1 true)			%b = call <8 x i16> @llvm.cttz.v8i16(<8 x i16> %a, i1 true)
	ret <8 x i16> %b			ret <8 x i16> %b
	}			}

	define <4 x i32> @cttz_v4i32(<4 x i32> %a) nounwind {			define <4 x i32> @cttz_v4i32(<4 x i32> %a) nounwind {
	; CHECK-LABEL: cttz_v4i32:			; CHECK-LABEL: cttz_v4i32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: movi v1.4s, #1			; CHECK-NEXT: movi v1.2d, #0xffffffffffffffff
	; CHECK-NEXT: sub v1.4s, v0.4s, v1.4s			; CHECK-NEXT: add v1.4s, v0.4s, v1.4s
	; CHECK-NEXT: bic v0.16b, v1.16b, v0.16b			; CHECK-NEXT: bic v0.16b, v1.16b, v0.16b
	; CHECK-NEXT: clz v0.4s, v0.4s			; CHECK-NEXT: clz v0.4s, v0.4s
	; CHECK-NEXT: movi v1.4s, #32			; CHECK-NEXT: movi v1.4s, #32
	; CHECK-NEXT: sub v0.4s, v1.4s, v0.4s			; CHECK-NEXT: sub v0.4s, v1.4s, v0.4s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call <4 x i32> @llvm.cttz.v4i32(<4 x i32> %a, i1 true)			%b = call <4 x i32> @llvm.cttz.v4i32(<4 x i32> %a, i1 true)
	ret <4 x i32> %b			ret <4 x i32> %b
	}			}

	define <2 x i64> @cttz_v2i64(<2 x i64> %a) nounwind {			define <2 x i64> @cttz_v2i64(<2 x i64> %a) nounwind {
	; CHECK-LABEL: cttz_v2i64:			; CHECK-LABEL: cttz_v2i64:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: mov w8, #1			; CHECK-NEXT: movi v1.2d, #0xffffffffffffffff
	; CHECK-NEXT: dup v1.2d, x8			; CHECK-NEXT: add v1.2d, v0.2d, v1.2d
	; CHECK-NEXT: sub v1.2d, v0.2d, v1.2d
	; CHECK-NEXT: bic v0.16b, v1.16b, v0.16b			; CHECK-NEXT: bic v0.16b, v1.16b, v0.16b
	; CHECK-NEXT: cnt v0.16b, v0.16b			; CHECK-NEXT: cnt v0.16b, v0.16b
	; CHECK-NEXT: uaddlp v0.8h, v0.16b			; CHECK-NEXT: uaddlp v0.8h, v0.16b
	; CHECK-NEXT: uaddlp v0.4s, v0.8h			; CHECK-NEXT: uaddlp v0.4s, v0.8h
	; CHECK-NEXT: uaddlp v0.2d, v0.4s			; CHECK-NEXT: uaddlp v0.2d, v0.4s
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%b = call <2 x i64> @llvm.cttz.v2i64(<2 x i64> %a, i1 true)			%b = call <2 x i64> @llvm.cttz.v2i64(<2 x i64> %a, i1 true)
	ret <2 x i64> %b			ret <2 x i64> %b
	}			}

test/CodeGen/AMDGPU/sub.v2i16.ll

Show First 20 Lines • Show All 162 Lines • ▼ Show 20 Lines	; VI-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_test_sub_v2i16_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
; GFX9-LABEL: v_test_sub_v2i16_constant:		; GFX9-LABEL: v_test_sub_v2i16_constant:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: s_mov_b32 s8, 0x1c8007b		; GFX9-NEXT: s_mov_b32 s8, 0xfe38ff85
; GFX9-NEXT: s_mov_b32 s7, 0xf000		; GFX9-NEXT: s_mov_b32 s7, 0xf000
; GFX9-NEXT: s_mov_b32 s6, -1		; GFX9-NEXT: s_mov_b32 s6, -1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, s3		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v0		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v0
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: global_load_dword v0, v[0:1], off		; GFX9-NEXT: global_load_dword v0, v[0:1], off
; GFX9-NEXT: s_mov_b32 s4, s0		; GFX9-NEXT: s_mov_b32 s4, s0
; GFX9-NEXT: s_mov_b32 s5, s1		; GFX9-NEXT: s_mov_b32 s5, s1
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_pk_sub_i16 v0, v0, s8		; GFX9-NEXT: v_pk_add_u16 v0, v0, s8
; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_test_sub_v2i16_constant:		; VI-LABEL: v_test_sub_v2i16_constant:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: v_mov_b32_e32 v2, 0xfffffe38		; VI-NEXT: v_mov_b32_e32 v2, 0xfffffe38
Show All 22 Lines
}		}

; FIXME: Need to handle non-uniform case for function below (load without gep).		; FIXME: Need to handle non-uniform case for function below (load without gep).
define amdgpu_kernel void @v_test_sub_v2i16_neg_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_neg_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
; GFX9-LABEL: v_test_sub_v2i16_neg_constant:		; GFX9-LABEL: v_test_sub_v2i16_neg_constant:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: s_mov_b32 s8, 0xfc21fcb3		; GFX9-NEXT: s_mov_b32 s8, 0x3df034d
; GFX9-NEXT: s_mov_b32 s7, 0xf000		; GFX9-NEXT: s_mov_b32 s7, 0xf000
; GFX9-NEXT: s_mov_b32 s6, -1		; GFX9-NEXT: s_mov_b32 s6, -1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, s3		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v0		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v0
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: global_load_dword v0, v[0:1], off		; GFX9-NEXT: global_load_dword v0, v[0:1], off
; GFX9-NEXT: s_mov_b32 s4, s0		; GFX9-NEXT: s_mov_b32 s4, s0
; GFX9-NEXT: s_mov_b32 s5, s1		; GFX9-NEXT: s_mov_b32 s5, s1
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_pk_sub_i16 v0, v0, s8		; GFX9-NEXT: v_pk_add_u16 v0, v0, s8
; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_test_sub_v2i16_neg_constant:		; VI-LABEL: v_test_sub_v2i16_neg_constant:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: v_mov_b32_e32 v2, 0x3df		; VI-NEXT: v_mov_b32_e32 v2, 0x3df
Show All 31 Lines
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, s3		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v0		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v0
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: global_load_dword v0, v[0:1], off		; GFX9-NEXT: global_load_dword v0, v[0:1], off
; GFX9-NEXT: s_mov_b32 s4, s0		; GFX9-NEXT: s_mov_b32 s4, s0
; GFX9-NEXT: s_mov_b32 s5, s1		; GFX9-NEXT: s_mov_b32 s5, s1
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_pk_sub_i16 v0, v0, -1 op_sel_hi:[1,0]		; GFX9-NEXT: v_pk_add_u16 v0, v0, 1 op_sel_hi:[1,0]
; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_test_sub_v2i16_inline_neg1:		; VI-LABEL: v_test_sub_v2i16_inline_neg1:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: v_mov_b32_e32 v2, 1		; VI-NEXT: v_mov_b32_e32 v2, 1
Show All 21 Lines	; VI-NEXT: s_endpgm
ret void		ret void
}		}

define amdgpu_kernel void @v_test_sub_v2i16_inline_lo_zero_hi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_inline_lo_zero_hi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
; GFX9-LABEL: v_test_sub_v2i16_inline_lo_zero_hi:		; GFX9-LABEL: v_test_sub_v2i16_inline_lo_zero_hi:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
		; GFX9-NEXT: s_mov_b32 s8, 0xffe0
; GFX9-NEXT: s_mov_b32 s7, 0xf000		; GFX9-NEXT: s_mov_b32 s7, 0xf000
; GFX9-NEXT: s_mov_b32 s6, -1		; GFX9-NEXT: s_mov_b32 s6, -1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, s3		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v0		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v0
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: global_load_dword v0, v[0:1], off		; GFX9-NEXT: global_load_dword v0, v[0:1], off
; GFX9-NEXT: s_mov_b32 s4, s0		; GFX9-NEXT: s_mov_b32 s4, s0
; GFX9-NEXT: s_mov_b32 s5, s1		; GFX9-NEXT: s_mov_b32 s5, s1
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_pk_sub_i16 v0, v0, 32		; GFX9-NEXT: v_pk_add_u16 v0, v0, s8
		arsenmUnsubmitted Done Reply Inline Actions This is worse because it is no longer an inline immediate. We undo this already for the 32-bit case during selection: Undo sub x, c -> add x, -c canonicalization since c is more likely an inline immediate than -c. // TODO: Also do for 64-bit. def : GCNPat< (add i32:$src0, (i32 NegSubInlineConst32:$src1)), (S_SUB_I32 $src0, NegSubInlineConst32:$src1) ; arsenm: This is worse because it is no longer an inline immediate. We undo this already for the 32-bit…
		arsenmUnsubmitted Done Reply Inline Actions I have a patch which should implement this for the v2i16 case arsenm: I have a patch which should implement this for the v2i16 case
; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_test_sub_v2i16_inline_lo_zero_hi:		; VI-LABEL: v_test_sub_v2i16_inline_lo_zero_hi:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s7, 0xf000
Show All 21 Lines
}		}

; The high element gives fp		; The high element gives fp
define amdgpu_kernel void @v_test_sub_v2i16_inline_fp_split(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_inline_fp_split(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
; GFX9-LABEL: v_test_sub_v2i16_inline_fp_split:		; GFX9-LABEL: v_test_sub_v2i16_inline_fp_split:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; GFX9-NEXT: s_mov_b32 s8, 1.0		; GFX9-NEXT: s_mov_b32 s8, -4.0
; GFX9-NEXT: s_mov_b32 s7, 0xf000		; GFX9-NEXT: s_mov_b32 s7, 0xf000
; GFX9-NEXT: s_mov_b32 s6, -1		; GFX9-NEXT: s_mov_b32 s6, -1
; GFX9-NEXT: s_waitcnt lgkmcnt(0)		; GFX9-NEXT: s_waitcnt lgkmcnt(0)
; GFX9-NEXT: v_mov_b32_e32 v1, s3		; GFX9-NEXT: v_mov_b32_e32 v1, s3
; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v0		; GFX9-NEXT: v_add_co_u32_e32 v0, vcc, s2, v0
; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc		; GFX9-NEXT: v_addc_co_u32_e32 v1, vcc, 0, v1, vcc
; GFX9-NEXT: global_load_dword v0, v[0:1], off		; GFX9-NEXT: global_load_dword v0, v[0:1], off
; GFX9-NEXT: s_mov_b32 s4, s0		; GFX9-NEXT: s_mov_b32 s4, s0
; GFX9-NEXT: s_mov_b32 s5, s1		; GFX9-NEXT: s_mov_b32 s5, s1
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_pk_sub_i16 v0, v0, s8		; GFX9-NEXT: v_pk_add_u16 v0, v0, s8
; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0		; GFX9-NEXT: buffer_store_dword v0, off, s[4:7], 0
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; VI-LABEL: v_test_sub_v2i16_inline_fp_split:		; VI-LABEL: v_test_sub_v2i16_inline_fp_split:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24		; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x24
; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0		; VI-NEXT: v_lshlrev_b32_e32 v0, 2, v0
; VI-NEXT: v_mov_b32_e32 v2, 0xffffc080		; VI-NEXT: v_mov_b32_e32 v2, 0xffffc080
▲ Show 20 Lines • Show All 288 Lines • Show Last 20 Lines

test/CodeGen/Mips/msa/arithmetic.ll

Show First 20 Lines • Show All 174 Lines • ▼ Show 20 Lines	; ALL-NEXT: st.d $w0, 0($4)
store <2 x i64> %3, <2 x i64>* %c		store <2 x i64> %3, <2 x i64>* %c
ret void		ret void
}		}

define void @sub_v16i8_i(<16 x i8>* %c, <16 x i8>* %a) nounwind {		define void @sub_v16i8_i(<16 x i8>* %c, <16 x i8>* %a) nounwind {
; ALL-LABEL: sub_v16i8_i:		; ALL-LABEL: sub_v16i8_i:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: ld.b $w0, 0($5)		; ALL-NEXT: ld.b $w0, 0($5)
; ALL-NEXT: subvi.b $w0, $w0, 1		; ALL-NEXT: ldi.b $w1, -1
		; ALL-NEXT: addv.b $w0, $w0, $w1
; ALL-NEXT: jr $ra		; ALL-NEXT: jr $ra
; ALL-NEXT: st.b $w0, 0($4)		; ALL-NEXT: st.b $w0, 0($4)
%1 = load <16 x i8>, <16 x i8>* %a		%1 = load <16 x i8>, <16 x i8>* %a
%2 = sub <16 x i8> %1, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1,		%2 = sub <16 x i8> %1, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1,
i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>		i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>
store <16 x i8> %2, <16 x i8>* %c		store <16 x i8> %2, <16 x i8>* %c
ret void		ret void
}		}

define void @sub_v8i16_i(<8 x i16>* %c, <8 x i16>* %a) nounwind {		define void @sub_v8i16_i(<8 x i16>* %c, <8 x i16>* %a) nounwind {
; ALL-LABEL: sub_v8i16_i:		; ALL-LABEL: sub_v8i16_i:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: ld.h $w0, 0($5)		; ALL-NEXT: ldi.b $w0, -1
; ALL-NEXT: subvi.h $w0, $w0, 1		; ALL-NEXT: ld.h $w1, 0($5)
		; ALL-NEXT: addv.h $w0, $w1, $w0
; ALL-NEXT: jr $ra		; ALL-NEXT: jr $ra
; ALL-NEXT: st.h $w0, 0($4)		; ALL-NEXT: st.h $w0, 0($4)
%1 = load <8 x i16>, <8 x i16>* %a		%1 = load <8 x i16>, <8 x i16>* %a
%2 = sub <8 x i16> %1, <i16 1, i16 1, i16 1, i16 1,		%2 = sub <8 x i16> %1, <i16 1, i16 1, i16 1, i16 1,
i16 1, i16 1, i16 1, i16 1>		i16 1, i16 1, i16 1, i16 1>
store <8 x i16> %2, <8 x i16>* %c		store <8 x i16> %2, <8 x i16>* %c
ret void		ret void
}		}

define void @sub_v4i32_i(<4 x i32>* %c, <4 x i32>* %a) nounwind {		define void @sub_v4i32_i(<4 x i32>* %c, <4 x i32>* %a) nounwind {
; ALL-LABEL: sub_v4i32_i:		; ALL-LABEL: sub_v4i32_i:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: ld.w $w0, 0($5)		; ALL-NEXT: ldi.b $w0, -1
; ALL-NEXT: subvi.w $w0, $w0, 1		; ALL-NEXT: ld.w $w1, 0($5)
		; ALL-NEXT: addv.w $w0, $w1, $w0
; ALL-NEXT: jr $ra		; ALL-NEXT: jr $ra
; ALL-NEXT: st.w $w0, 0($4)		; ALL-NEXT: st.w $w0, 0($4)
%1 = load <4 x i32>, <4 x i32>* %a		%1 = load <4 x i32>, <4 x i32>* %a
%2 = sub <4 x i32> %1, <i32 1, i32 1, i32 1, i32 1>		%2 = sub <4 x i32> %1, <i32 1, i32 1, i32 1, i32 1>
store <4 x i32> %2, <4 x i32>* %c		store <4 x i32> %2, <4 x i32>* %c
ret void		ret void
}		}

define void @sub_v2i64_i(<2 x i64>* %c, <2 x i64>* %a) nounwind {		define void @sub_v2i64_i(<2 x i64>* %c, <2 x i64>* %a) nounwind {
; ALL-LABEL: sub_v2i64_i:		; MIPS-LABEL: sub_v2i64_i:
; ALL: # %bb.0:		; MIPS: # %bb.0:
; ALL-NEXT: ld.d $w0, 0($5)		; MIPS-NEXT: ldi.b $w0, -1
; ALL-NEXT: subvi.d $w0, $w0, 1		; MIPS-NEXT: shf.w $w0, $w0, 177
; ALL-NEXT: jr $ra		; MIPS-NEXT: ld.d $w1, 0($5)
; ALL-NEXT: st.d $w0, 0($4)		; MIPS-NEXT: addv.d $w0, $w1, $w0
		; MIPS-NEXT: jr $ra
		; MIPS-NEXT: st.d $w0, 0($4)
		;
		; MIPSEL-LABEL: sub_v2i64_i:
		; MIPSEL: # %bb.0:
		; MIPSEL-NEXT: ldi.b $w0, -1
		; MIPSEL-NEXT: ld.d $w1, 0($5)
		; MIPSEL-NEXT: addv.d $w0, $w1, $w0
		; MIPSEL-NEXT: jr $ra
		; MIPSEL-NEXT: st.d $w0, 0($4)
%1 = load <2 x i64>, <2 x i64>* %a		%1 = load <2 x i64>, <2 x i64>* %a
%2 = sub <2 x i64> %1, <i64 1, i64 1>		%2 = sub <2 x i64> %1, <i64 1, i64 1>
store <2 x i64> %2, <2 x i64>* %c		store <2 x i64> %2, <2 x i64>* %c
ret void		ret void
}		}

define void @mul_v16i8(<16 x i8>* %c, <16 x i8>* %a, <16 x i8>* %b) nounwind {		define void @mul_v16i8(<16 x i8>* %c, <16 x i8>* %a, <16 x i8>* %b) nounwind {
; ALL-LABEL: mul_v16i8:		; ALL-LABEL: mul_v16i8:
▲ Show 20 Lines • Show All 449 Lines • Show Last 20 Lines

test/CodeGen/Mips/msa/i5-s.ll

	Show First 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	declare <8 x i16> @llvm.mips.subvi.h(<8 x i16>, i32) nounwind			declare <8 x i16> @llvm.mips.subvi.h(<8 x i16>, i32) nounwind

	@llvm_mips_subvi_w_ARG1 = global <4 x i32> <i32 0, i32 1, i32 2, i32 3>, align 16			@llvm_mips_subvi_w_ARG1 = global <4 x i32> <i32 0, i32 1, i32 2, i32 3>, align 16
	@llvm_mips_subvi_w_RES = global <4 x i32> <i32 0, i32 0, i32 0, i32 0>, align 16			@llvm_mips_subvi_w_RES = global <4 x i32> <i32 0, i32 0, i32 0, i32 0>, align 16

	define void @llvm_mips_subvi_w_test() nounwind {			define void @llvm_mips_subvi_w_test() nounwind {
	; ALL-LABEL: llvm_mips_subvi_w_test:			; ALL-LABEL: llvm_mips_subvi_w_test:
	; ALL: # %bb.0: # %entry			; ALL: # %bb.0: # %entry
				; ALL-NEXT: lui $1, %hi(llvm_mips_subvi_w_ARG1)
				; ALL-NEXT: addiu $1, $1, %lo(llvm_mips_subvi_w_ARG1)
				; ALL-NEXT: ld.w $w0, 0($1)
				; ALL-NEXT: ldi.w $w1, -14
				; ALL-NEXT: addv.w $w0, $w0, $w1
	; ALL-NEXT: lui $1, %hi(llvm_mips_subvi_w_RES)			; ALL-NEXT: lui $1, %hi(llvm_mips_subvi_w_RES)
	; ALL-NEXT: addiu $1, $1, %lo(llvm_mips_subvi_w_RES)			; ALL-NEXT: addiu $1, $1, %lo(llvm_mips_subvi_w_RES)
	; ALL-NEXT: lui $2, %hi(llvm_mips_subvi_w_ARG1)
	; ALL-NEXT: addiu $2, $2, %lo(llvm_mips_subvi_w_ARG1)
	; ALL-NEXT: ld.w $w0, 0($2)
	; ALL-NEXT: subvi.w $w0, $w0, 14
	; ALL-NEXT: jr $ra			; ALL-NEXT: jr $ra
	; ALL-NEXT: st.w $w0, 0($1)			; ALL-NEXT: st.w $w0, 0($1)
	entry:			entry:
	%0 = load <4 x i32>, <4 x i32>* @llvm_mips_subvi_w_ARG1			%0 = load <4 x i32>, <4 x i32>* @llvm_mips_subvi_w_ARG1
	%1 = tail call <4 x i32> @llvm.mips.subvi.w(<4 x i32> %0, i32 14)			%1 = tail call <4 x i32> @llvm.mips.subvi.w(<4 x i32> %0, i32 14)
	store <4 x i32> %1, <4 x i32>* @llvm_mips_subvi_w_RES			store <4 x i32> %1, <4 x i32>* @llvm_mips_subvi_w_RES
	ret void			ret void
	}			}
	Show All 25 Lines

test/CodeGen/PowerPC/vec_add_sub_doubleword.ll

	Show First 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; ALL-NEXT: blr			; ALL-NEXT: blr
	%result = sub <2 x i64> %x, %y			%result = sub <2 x i64> %x, %y
	ret <2 x i64> %result			ret <2 x i64> %result
	}			}

	define <2 x i64> @decrement_by_one(<2 x i64> %x) nounwind {			define <2 x i64> @decrement_by_one(<2 x i64> %x) nounwind {
	; VSX-LABEL: decrement_by_one:			; VSX-LABEL: decrement_by_one:
	; VSX: # %bb.0:			; VSX: # %bb.0:
	; VSX-NEXT: vspltisb 3, -1			; VSX-NEXT: addis 3, 2, .LCPI4_0@toc@ha
	; VSX-NEXT: vsubudm 2, 2, 3			; VSX-NEXT: addi 3, 3, .LCPI4_0@toc@l
				; VSX-NEXT: lxvd2x 35, 0, 3
				; VSX-NEXT: vaddudm 2, 2, 3
	; VSX-NEXT: blr			; VSX-NEXT: blr
	;			;
	; NOVSX-LABEL: decrement_by_one:			; NOVSX-LABEL: decrement_by_one:
	; NOVSX: # %bb.0:			; NOVSX: # %bb.0:
	; NOVSX-NEXT: addis 3, 2, .LCPI4_0@toc@ha			; NOVSX-NEXT: addis 3, 2, .LCPI4_0@toc@ha
	; NOVSX-NEXT: addi 3, 3, .LCPI4_0@toc@l			; NOVSX-NEXT: addi 3, 3, .LCPI4_0@toc@l
	; NOVSX-NEXT: lvx 3, 0, 3			; NOVSX-NEXT: lvx 3, 0, 3
	; NOVSX-NEXT: vsubudm 2, 2, 3			; NOVSX-NEXT: vaddudm 2, 2, 3
	; NOVSX-NEXT: blr			; NOVSX-NEXT: blr
	%result = sub <2 x i64> %x, <i64 -1, i64 -1>			%result = sub <2 x i64> %x, <i64 -1, i64 -1>
	ret <2 x i64> %result			ret <2 x i64> %result
	}			}

	define <2 x i64> @decrement_by_val(<2 x i64> %x, i64 %val) nounwind {			define <2 x i64> @decrement_by_val(<2 x i64> %x, i64 %val) nounwind {
	; VSX-LABEL: decrement_by_val:			; VSX-LABEL: decrement_by_val:
	; VSX: # %bb.0:			; VSX: # %bb.0:
	Show All 18 Lines

test/CodeGen/PowerPC/vec_add_sub_quadword.ll

	Show First 20 Lines • Show All 70 Lines • ▼ Show 20 Lines
	; ALL-NEXT: blr			; ALL-NEXT: blr
	%result = sub <1 x i128> %x, %y			%result = sub <1 x i128> %x, %y
	ret <1 x i128> %result			ret <1 x i128> %result
	}			}

	define <1 x i128> @decrement_by_one(<1 x i128> %x) nounwind {			define <1 x i128> @decrement_by_one(<1 x i128> %x) nounwind {
	; VSX-LABEL: decrement_by_one:			; VSX-LABEL: decrement_by_one:
	; VSX: # %bb.0:			; VSX: # %bb.0:
	; VSX-NEXT: addis 3, 2, .LCPI5_0@toc@ha			; VSX-NEXT: vspltisb 3, -1
	; VSX-NEXT: addi 3, 3, .LCPI5_0@toc@l			; VSX-NEXT: vadduqm 2, 2, 3
	; VSX-NEXT: lxvd2x 35, 0, 3
	; VSX-NEXT: vsubuqm 2, 2, 3
	; VSX-NEXT: blr			; VSX-NEXT: blr
	;			;
	; NOVSX-LABEL: decrement_by_one:			; NOVSX-LABEL: decrement_by_one:
	; NOVSX: # %bb.0:			; NOVSX: # %bb.0:
	; NOVSX-NEXT: addis 3, 2, .LCPI5_0@toc@ha			; NOVSX-NEXT: addis 3, 2, .LCPI5_0@toc@ha
	; NOVSX-NEXT: addi 3, 3, .LCPI5_0@toc@l			; NOVSX-NEXT: addi 3, 3, .LCPI5_0@toc@l
	; NOVSX-NEXT: lvx 3, 0, 3			; NOVSX-NEXT: lvx 3, 0, 3
	; NOVSX-NEXT: vsubuqm 2, 2, 3			; NOVSX-NEXT: vadduqm 2, 2, 3
	; NOVSX-NEXT: blr			; NOVSX-NEXT: blr
	%result = sub <1 x i128> %x, <i128 1>			%result = sub <1 x i128> %x, <i128 1>
	ret <1 x i128> %result			ret <1 x i128> %result
	}			}

	define <1 x i128> @decrement_by_val(<1 x i128> %x, i128 %val) nounwind {			define <1 x i128> @decrement_by_val(<1 x i128> %x, i128 %val) nounwind {
	; VSX-LABEL: decrement_by_val:			; VSX-LABEL: decrement_by_val:
	; VSX: # %bb.0:			; VSX: # %bb.0:
	▲ Show 20 Lines • Show All 89 Lines • Show Last 20 Lines

test/CodeGen/PowerPC/vec_splat.ll

	Show First 20 Lines • Show All 241 Lines • ▼ Show 20 Lines
	; G3-NEXT: lwz 26, 24(1) # 4-byte Folded Reload			; G3-NEXT: lwz 26, 24(1) # 4-byte Folded Reload
	; G3-NEXT: lwz 25, 20(1) # 4-byte Folded Reload			; G3-NEXT: lwz 25, 20(1) # 4-byte Folded Reload
	; G3-NEXT: addi 1, 1, 48			; G3-NEXT: addi 1, 1, 48
	; G3-NEXT: blr			; G3-NEXT: blr
	;			;
	; G5-LABEL: spltish:			; G5-LABEL: spltish:
	; G5: # %bb.0:			; G5: # %bb.0:
	; G5-NEXT: lvx 2, 0, 4			; G5-NEXT: lvx 2, 0, 4
	; G5-NEXT: vspltish 3, 15			; G5-NEXT: li 4, .LCPI5_0@l
	; G5-NEXT: vsububm 2, 2, 3			; G5-NEXT: lis 5, .LCPI5_0@ha
				; G5-NEXT: lvx 3, 5, 4
				; G5-NEXT: vaddubm 2, 2, 3
	; G5-NEXT: stvx 2, 0, 3			; G5-NEXT: stvx 2, 0, 3
	; G5-NEXT: blr			; G5-NEXT: blr
	%tmp = load <16 x i8>, <16 x i8>* %B ; <<16 x i8>> [#uses=1]			%tmp = load <16 x i8>, <16 x i8>* %B ; <<16 x i8>> [#uses=1]
	%tmp.s = bitcast <16 x i8> %tmp to <16 x i8> ; <<16 x i8>> [#uses=1]			%tmp.s = bitcast <16 x i8> %tmp to <16 x i8> ; <<16 x i8>> [#uses=1]
	%tmp4 = sub <16 x i8> %tmp.s, bitcast (<8 x i16> < i16 15, i16 15, i16 15, i16 15, i16 15, i16			%tmp4 = sub <16 x i8> %tmp.s, bitcast (<8 x i16> < i16 15, i16 15, i16 15, i16 15, i16 15, i16
	15, i16 15, i16 15 > to <16 x i8>) ; <<16 x i8>> [#uses=1]			15, i16 15, i16 15 > to <16 x i8>) ; <<16 x i8>> [#uses=1]
	%tmp4.u = bitcast <16 x i8> %tmp4 to <16 x i8> ; <<16 x i8>> [#uses=1]			%tmp4.u = bitcast <16 x i8> %tmp4 to <16 x i8> ; <<16 x i8>> [#uses=1]
	store <16 x i8> %tmp4.u, <16 x i8>* %A			store <16 x i8> %tmp4.u, <16 x i8>* %A
	ret void			ret void
	}			}

test/CodeGen/X86/avx-shift.ll

	Show First 20 Lines • Show All 103 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: vshift09:			; CHECK-LABEL: vshift09:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1			; CHECK-NEXT: vextractf128 $1, %ymm0, %xmm1
	; CHECK-NEXT: vpsrlw $2, %xmm1, %xmm1			; CHECK-NEXT: vpsrlw $2, %xmm1, %xmm1
	; CHECK-NEXT: vmovdqa {{.*#+}} xmm2 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; CHECK-NEXT: vmovdqa {{.*#+}} xmm2 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; CHECK-NEXT: vpand %xmm2, %xmm1, %xmm1			; CHECK-NEXT: vpand %xmm2, %xmm1, %xmm1
	; CHECK-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; CHECK-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; CHECK-NEXT: vpxor %xmm3, %xmm1, %xmm1			; CHECK-NEXT: vpxor %xmm3, %xmm1, %xmm1
	; CHECK-NEXT: vpsubb %xmm3, %xmm1, %xmm1			; CHECK-NEXT: vmovdqa {{.*#+}} xmm4 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
				; CHECK-NEXT: vpaddb %xmm4, %xmm1, %xmm1
	; CHECK-NEXT: vpsrlw $2, %xmm0, %xmm0			; CHECK-NEXT: vpsrlw $2, %xmm0, %xmm0
	; CHECK-NEXT: vpand %xmm2, %xmm0, %xmm0			; CHECK-NEXT: vpand %xmm2, %xmm0, %xmm0
	; CHECK-NEXT: vpxor %xmm3, %xmm0, %xmm0			; CHECK-NEXT: vpxor %xmm3, %xmm0, %xmm0
	; CHECK-NEXT: vpsubb %xmm3, %xmm0, %xmm0			; CHECK-NEXT: vpaddb %xmm4, %xmm0, %xmm0
	; CHECK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; CHECK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%s = ashr <32 x i8> %a, <i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2>			%s = ashr <32 x i8> %a, <i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2>
	ret <32 x i8> %s			ret <32 x i8> %s
	}			}

	define <32 x i8> @vshift10(<32 x i8> %a) {			define <32 x i8> @vshift10(<32 x i8> %a) {
	; CHECK-LABEL: vshift10:			; CHECK-LABEL: vshift10:
	▲ Show 20 Lines • Show All 99 Lines • Show Last 20 Lines

test/CodeGen/X86/avx2-shift.ll

Show First 20 Lines • Show All 467 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
ret <32 x i8> %B		ret <32 x i8> %B
}		}

define <32 x i8> @sra_v32i8(<32 x i8> %A) nounwind {		define <32 x i8> @sra_v32i8(<32 x i8> %A) nounwind {
; X32-LABEL: sra_v32i8:		; X32-LABEL: sra_v32i8:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: vpsrlw $3, %ymm0, %ymm0		; X32-NEXT: vpsrlw $3, %ymm0, %ymm0
; X32-NEXT: vpand {{\.LCPI.*}}, %ymm0, %ymm0		; X32-NEXT: vpand {{\.LCPI.*}}, %ymm0, %ymm0
; X32-NEXT: vmovdqa {{.*#+}} ymm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; X32-NEXT: vpxor {{\.LCPI.*}}, %ymm0, %ymm0
; X32-NEXT: vpxor %ymm1, %ymm0, %ymm0		; X32-NEXT: vpaddb {{\.LCPI.*}}, %ymm0, %ymm0
; X32-NEXT: vpsubb %ymm1, %ymm0, %ymm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: sra_v32i8:		; X64-LABEL: sra_v32i8:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: vpsrlw $3, %ymm0, %ymm0		; X64-NEXT: vpsrlw $3, %ymm0, %ymm0
; X64-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0		; X64-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
; X64-NEXT: vmovdqa {{.*#+}} ymm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; X64-NEXT: vpxor {{.*}}(%rip), %ymm0, %ymm0
; X64-NEXT: vpxor %ymm1, %ymm0, %ymm0		; X64-NEXT: vpaddb {{.*}}(%rip), %ymm0, %ymm0
; X64-NEXT: vpsubb %ymm1, %ymm0, %ymm0
; X64-NEXT: retq		; X64-NEXT: retq
%B = ashr <32 x i8> %A, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>		%B = ashr <32 x i8> %A, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>
ret <32 x i8> %B		ret <32 x i8> %B
}		}

define <16 x i16> @sext_v16i16(<16 x i16> %a) nounwind {		define <16 x i16> @sext_v16i16(<16 x i16> %a) nounwind {
; X32-LABEL: sext_v16i16:		; X32-LABEL: sext_v16i16:
; X32: # %bb.0:		; X32: # %bb.0:
▲ Show 20 Lines • Show All 106 Lines • Show Last 20 Lines

test/CodeGen/X86/combine-sdiv.ll

	Show First 20 Lines • Show All 1,527 Lines • ▼ Show 20 Lines
	define <2 x i64> @combine_vec_sdiv_by_pow2b_v2i64(<2 x i64> %x) {			define <2 x i64> @combine_vec_sdiv_by_pow2b_v2i64(<2 x i64> %x) {
	; SSE2-LABEL: combine_vec_sdiv_by_pow2b_v2i64:			; SSE2-LABEL: combine_vec_sdiv_by_pow2b_v2i64:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: psrlq $62, %xmm1			; SSE2-NEXT: psrlq $62, %xmm1
	; SSE2-NEXT: paddq %xmm0, %xmm1			; SSE2-NEXT: paddq %xmm0, %xmm1
	; SSE2-NEXT: psrlq $2, %xmm1			; SSE2-NEXT: psrlq $2, %xmm1
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,2305843009213693952]			; SSE2-NEXT: pxor {{.*}}(%rip), %xmm1
	; SSE2-NEXT: pxor %xmm2, %xmm1			; SSE2-NEXT: paddq {{.*}}(%rip), %xmm1
	; SSE2-NEXT: psubq %xmm2, %xmm1
	; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm0[0],xmm1[1]			; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm0[0],xmm1[1]
	; SSE2-NEXT: movapd %xmm1, %xmm0			; SSE2-NEXT: movapd %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: combine_vec_sdiv_by_pow2b_v2i64:			; SSE41-LABEL: combine_vec_sdiv_by_pow2b_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psrad $31, %xmm1			; SSE41-NEXT: psrad $31, %xmm1
	; SSE41-NEXT: psrlq $62, %xmm1			; SSE41-NEXT: psrlq $62, %xmm1
	; SSE41-NEXT: paddq %xmm0, %xmm1			; SSE41-NEXT: paddq %xmm0, %xmm1
	; SSE41-NEXT: psrlq $2, %xmm1			; SSE41-NEXT: psrlq $2, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,2305843009213693952]			; SSE41-NEXT: pxor {{.*}}(%rip), %xmm1
	; SSE41-NEXT: pxor %xmm2, %xmm1			; SSE41-NEXT: paddq {{.*}}(%rip), %xmm1
	; SSE41-NEXT: psubq %xmm2, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: combine_vec_sdiv_by_pow2b_v2i64:			; AVX1-LABEL: combine_vec_sdiv_by_pow2b_v2i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm1			; AVX1-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlq $62, %xmm1, %xmm1			; AVX1-NEXT: vpsrlq $62, %xmm1, %xmm1
	; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpsrlq $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrlq $2, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,2305843009213693952]			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpsubq %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v2i64:			; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v2i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm1			; AVX2-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm1
	; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm1, %xmm1			; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm1, %xmm1
	; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm1			; AVX2-NEXT: vpaddq %xmm1, %xmm0, %xmm1
	; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm1, %xmm1			; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm1, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,2305843009213693952]			; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm1
	; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpaddq {{.*}}(%rip), %xmm1, %xmm1
	; AVX2-NEXT: vpsubq %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: combine_vec_sdiv_by_pow2b_v2i64:			; AVX512F-LABEL: combine_vec_sdiv_by_pow2b_v2i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} xmm1 = [0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0]			; AVX512F-NEXT: vmovdqa {{.*#+}} xmm1 = [0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0]
	; AVX512F-NEXT: vpsraq $63, %zmm0, %zmm2			; AVX512F-NEXT: vpsraq $63, %zmm0, %zmm2
	Show All 35 Lines
	; SSE2-NEXT: psrlq $61, %xmm3			; SSE2-NEXT: psrlq $61, %xmm3
	; SSE2-NEXT: psrlq $60, %xmm1			; SSE2-NEXT: psrlq $60, %xmm1
	; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm3[0],xmm1[1]			; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm3[0],xmm1[1]
	; SSE2-NEXT: paddq %xmm2, %xmm1			; SSE2-NEXT: paddq %xmm2, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm2			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: psrlq $3, %xmm2			; SSE2-NEXT: psrlq $3, %xmm2
	; SSE2-NEXT: psrlq $4, %xmm1			; SSE2-NEXT: psrlq $4, %xmm1
	; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm2[0],xmm1[1]			; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm2[0],xmm1[1]
	; SSE2-NEXT: movapd {{.*#+}} xmm2 = [1152921504606846976,576460752303423488]			; SSE2-NEXT: xorpd {{.*}}(%rip), %xmm1
	; SSE2-NEXT: xorpd %xmm2, %xmm1			; SSE2-NEXT: paddq {{.*}}(%rip), %xmm1
	; SSE2-NEXT: psubq %xmm2, %xmm1
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: psrad $31, %xmm2			; SSE2-NEXT: psrad $31, %xmm2
	; SSE2-NEXT: psrlq $62, %xmm2			; SSE2-NEXT: psrlq $62, %xmm2
	; SSE2-NEXT: paddq %xmm0, %xmm2			; SSE2-NEXT: paddq %xmm0, %xmm2
	; SSE2-NEXT: psrlq $2, %xmm2			; SSE2-NEXT: psrlq $2, %xmm2
	; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [9223372036854775808,2305843009213693952]			; SSE2-NEXT: pxor {{.*}}(%rip), %xmm2
	; SSE2-NEXT: pxor %xmm3, %xmm2			; SSE2-NEXT: paddq {{.*}}(%rip), %xmm2
	; SSE2-NEXT: psubq %xmm3, %xmm2
	; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm0[0],xmm2[1]			; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm0[0],xmm2[1]
	; SSE2-NEXT: movapd %xmm2, %xmm0			; SSE2-NEXT: movapd %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: combine_vec_sdiv_by_pow2b_v4i64:			; SSE41-LABEL: combine_vec_sdiv_by_pow2b_v4i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psrad $31, %xmm1			; SSE41-NEXT: psrad $31, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: psrlq $60, %xmm3			; SSE41-NEXT: psrlq $60, %xmm3
	; SSE41-NEXT: psrlq $61, %xmm1			; SSE41-NEXT: psrlq $61, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]
	; SSE41-NEXT: paddq %xmm2, %xmm1			; SSE41-NEXT: paddq %xmm2, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psrlq $4, %xmm2			; SSE41-NEXT: psrlq $4, %xmm2
	; SSE41-NEXT: psrlq $3, %xmm1			; SSE41-NEXT: psrlq $3, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [1152921504606846976,576460752303423488]			; SSE41-NEXT: pxor {{.*}}(%rip), %xmm1
	; SSE41-NEXT: pxor %xmm2, %xmm1			; SSE41-NEXT: paddq {{.*}}(%rip), %xmm1
	; SSE41-NEXT: psubq %xmm2, %xmm1
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: psrad $31, %xmm2			; SSE41-NEXT: psrad $31, %xmm2
	; SSE41-NEXT: psrlq $62, %xmm2			; SSE41-NEXT: psrlq $62, %xmm2
	; SSE41-NEXT: paddq %xmm0, %xmm2			; SSE41-NEXT: paddq %xmm0, %xmm2
	; SSE41-NEXT: psrlq $2, %xmm2			; SSE41-NEXT: psrlq $2, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372036854775808,2305843009213693952]			; SSE41-NEXT: pxor {{.*}}(%rip), %xmm2
	; SSE41-NEXT: pxor %xmm3, %xmm2			; SSE41-NEXT: paddq {{.*}}(%rip), %xmm2
	; SSE41-NEXT: psubq %xmm3, %xmm2
	; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm0[0,1,2,3],xmm2[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: combine_vec_sdiv_by_pow2b_v4i64:			; AVX1-LABEL: combine_vec_sdiv_by_pow2b_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpgtq %xmm1, %xmm2, %xmm3			; AVX1-NEXT: vpcmpgtq %xmm1, %xmm2, %xmm3
	; AVX1-NEXT: vpsrlq $60, %xmm3, %xmm4			; AVX1-NEXT: vpsrlq $60, %xmm3, %xmm4
	; AVX1-NEXT: vpsrlq $61, %xmm3, %xmm3			; AVX1-NEXT: vpsrlq $61, %xmm3, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm4[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm4[4,5,6,7]
	; AVX1-NEXT: vpaddq %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpaddq %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlq $4, %xmm1, %xmm3			; AVX1-NEXT: vpsrlq $4, %xmm1, %xmm3
	; AVX1-NEXT: vpsrlq $3, %xmm1, %xmm1			; AVX1-NEXT: vpsrlq $3, %xmm1, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1152921504606846976,576460752303423488]			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm2			; AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $62, %xmm2, %xmm2			; AVX1-NEXT: vpsrlq $62, %xmm2, %xmm2
	; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpsrlq $2, %xmm2, %xmm2			; AVX1-NEXT: vpsrlq $2, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,2305843009213693952]			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v4i64:			; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm1			; AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm1
	; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %ymm1, %ymm1			; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %ymm1, %ymm1
	; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm1			; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm1
	; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %ymm1, %ymm1			; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %ymm1, %ymm1
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [9223372036854775808,2305843009213693952,1152921504606846976,576460752303423488]			; AVX2-NEXT: vpxor {{.*}}(%rip), %ymm1, %ymm1
	; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpaddq {{.*}}(%rip), %ymm1, %ymm1
	; AVX2-NEXT: vpsubq %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm1[2,3,4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: combine_vec_sdiv_by_pow2b_v4i64:			; AVX512F-LABEL: combine_vec_sdiv_by_pow2b_v4i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,3,4]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,3,4]
	; AVX512F-NEXT: vpsraq $63, %zmm0, %zmm2			; AVX512F-NEXT: vpsraq $63, %zmm0, %zmm2
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]			; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm5[0],xmm1[1]
	; SSE2-NEXT: paddq %xmm3, %xmm1			; SSE2-NEXT: paddq %xmm3, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm3			; SSE2-NEXT: movdqa %xmm1, %xmm3
	; SSE2-NEXT: psrlq $3, %xmm3			; SSE2-NEXT: psrlq $3, %xmm3
	; SSE2-NEXT: psrlq $4, %xmm1			; SSE2-NEXT: psrlq $4, %xmm1
	; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm3[0],xmm1[1]			; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm3[0],xmm1[1]
	; SSE2-NEXT: movapd {{.*#+}} xmm5 = [1152921504606846976,576460752303423488]			; SSE2-NEXT: movapd {{.*#+}} xmm5 = [1152921504606846976,576460752303423488]
	; SSE2-NEXT: xorpd %xmm5, %xmm1			; SSE2-NEXT: xorpd %xmm5, %xmm1
	; SSE2-NEXT: psubq %xmm5, %xmm1			; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [17293822569102704640,17870283321406128128]
				; SSE2-NEXT: paddq %xmm6, %xmm1
	; SSE2-NEXT: movdqa %xmm4, %xmm3			; SSE2-NEXT: movdqa %xmm4, %xmm3
	; SSE2-NEXT: psrad $31, %xmm3			; SSE2-NEXT: psrad $31, %xmm3
	; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; SSE2-NEXT: movdqa %xmm3, %xmm6			; SSE2-NEXT: movdqa %xmm3, %xmm7
	; SSE2-NEXT: psrlq $61, %xmm6			; SSE2-NEXT: psrlq $61, %xmm7
	; SSE2-NEXT: psrlq $60, %xmm3			; SSE2-NEXT: psrlq $60, %xmm3
	; SSE2-NEXT: movsd {{.*#+}} xmm3 = xmm6[0],xmm3[1]			; SSE2-NEXT: movsd {{.*#+}} xmm3 = xmm7[0],xmm3[1]
	; SSE2-NEXT: paddq %xmm4, %xmm3			; SSE2-NEXT: paddq %xmm4, %xmm3
	; SSE2-NEXT: movdqa %xmm3, %xmm4			; SSE2-NEXT: movdqa %xmm3, %xmm4
	; SSE2-NEXT: psrlq $3, %xmm4			; SSE2-NEXT: psrlq $3, %xmm4
	; SSE2-NEXT: psrlq $4, %xmm3			; SSE2-NEXT: psrlq $4, %xmm3
	; SSE2-NEXT: movsd {{.*#+}} xmm3 = xmm4[0],xmm3[1]			; SSE2-NEXT: movsd {{.*#+}} xmm3 = xmm4[0],xmm3[1]
	; SSE2-NEXT: xorpd %xmm5, %xmm3			; SSE2-NEXT: xorpd %xmm5, %xmm3
	; SSE2-NEXT: psubq %xmm5, %xmm3			; SSE2-NEXT: paddq %xmm6, %xmm3
	; SSE2-NEXT: movdqa %xmm0, %xmm4			; SSE2-NEXT: movdqa %xmm0, %xmm4
	; SSE2-NEXT: psrad $31, %xmm4			; SSE2-NEXT: psrad $31, %xmm4
	; SSE2-NEXT: psrlq $62, %xmm4			; SSE2-NEXT: psrlq $62, %xmm4
	; SSE2-NEXT: paddq %xmm0, %xmm4			; SSE2-NEXT: paddq %xmm0, %xmm4
	; SSE2-NEXT: psrlq $2, %xmm4			; SSE2-NEXT: psrlq $2, %xmm4
	; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [9223372036854775808,2305843009213693952]			; SSE2-NEXT: movdqa {{.*#+}} xmm6 = [9223372036854775808,2305843009213693952]
	; SSE2-NEXT: pxor %xmm6, %xmm4			; SSE2-NEXT: pxor %xmm6, %xmm4
	; SSE2-NEXT: psubq %xmm6, %xmm4			; SSE2-NEXT: movdqa {{.*#+}} xmm7 = [9223372036854775808,16140901064495857664]
				; SSE2-NEXT: paddq %xmm7, %xmm4
	; SSE2-NEXT: movsd {{.*#+}} xmm4 = xmm0[0],xmm4[1]			; SSE2-NEXT: movsd {{.*#+}} xmm4 = xmm0[0],xmm4[1]
	; SSE2-NEXT: movdqa %xmm2, %xmm5			; SSE2-NEXT: movdqa %xmm2, %xmm5
	; SSE2-NEXT: psrad $31, %xmm5			; SSE2-NEXT: psrad $31, %xmm5
	; SSE2-NEXT: psrlq $62, %xmm5			; SSE2-NEXT: psrlq $62, %xmm5
	; SSE2-NEXT: paddq %xmm2, %xmm5			; SSE2-NEXT: paddq %xmm2, %xmm5
	; SSE2-NEXT: psrlq $2, %xmm5			; SSE2-NEXT: psrlq $2, %xmm5
	; SSE2-NEXT: pxor %xmm6, %xmm5			; SSE2-NEXT: pxor %xmm6, %xmm5
	; SSE2-NEXT: psubq %xmm6, %xmm5			; SSE2-NEXT: paddq %xmm7, %xmm5
	; SSE2-NEXT: movsd {{.*#+}} xmm5 = xmm2[0],xmm5[1]			; SSE2-NEXT: movsd {{.*#+}} xmm5 = xmm2[0],xmm5[1]
	; SSE2-NEXT: movapd %xmm4, %xmm0			; SSE2-NEXT: movapd %xmm4, %xmm0
	; SSE2-NEXT: movapd %xmm5, %xmm2			; SSE2-NEXT: movapd %xmm5, %xmm2
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: combine_vec_sdiv_by_pow2b_v8i64:			; SSE41-LABEL: combine_vec_sdiv_by_pow2b_v8i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm3, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: psrad $31, %xmm1			; SSE41-NEXT: psrad $31, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE41-NEXT: movdqa %xmm1, %xmm5			; SSE41-NEXT: movdqa %xmm1, %xmm5
	; SSE41-NEXT: psrlq $60, %xmm5			; SSE41-NEXT: psrlq $60, %xmm5
	; SSE41-NEXT: psrlq $61, %xmm1			; SSE41-NEXT: psrlq $61, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm5[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm5[4,5,6,7]
	; SSE41-NEXT: paddq %xmm3, %xmm1			; SSE41-NEXT: paddq %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: psrlq $4, %xmm3			; SSE41-NEXT: psrlq $4, %xmm3
	; SSE41-NEXT: psrlq $3, %xmm1			; SSE41-NEXT: psrlq $3, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [1152921504606846976,576460752303423488]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [1152921504606846976,576460752303423488]
	; SSE41-NEXT: pxor %xmm5, %xmm1			; SSE41-NEXT: pxor %xmm5, %xmm1
	; SSE41-NEXT: psubq %xmm5, %xmm1			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [17293822569102704640,17870283321406128128]
				; SSE41-NEXT: paddq %xmm6, %xmm1
	; SSE41-NEXT: movdqa %xmm4, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: psrad $31, %xmm3			; SSE41-NEXT: psrad $31, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
	; SSE41-NEXT: movdqa %xmm3, %xmm6			; SSE41-NEXT: movdqa %xmm3, %xmm7
	; SSE41-NEXT: psrlq $60, %xmm6			; SSE41-NEXT: psrlq $60, %xmm7
	; SSE41-NEXT: psrlq $61, %xmm3			; SSE41-NEXT: psrlq $61, %xmm3
	; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm6[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm7[4,5,6,7]
	; SSE41-NEXT: paddq %xmm4, %xmm3			; SSE41-NEXT: paddq %xmm4, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: psrlq $4, %xmm4			; SSE41-NEXT: psrlq $4, %xmm4
	; SSE41-NEXT: psrlq $3, %xmm3			; SSE41-NEXT: psrlq $3, %xmm3
	; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm4[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm4[4,5,6,7]
	; SSE41-NEXT: pxor %xmm5, %xmm3			; SSE41-NEXT: pxor %xmm5, %xmm3
	; SSE41-NEXT: psubq %xmm5, %xmm3			; SSE41-NEXT: paddq %xmm6, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: psrad $31, %xmm4			; SSE41-NEXT: psrad $31, %xmm4
	; SSE41-NEXT: psrlq $62, %xmm4			; SSE41-NEXT: psrlq $62, %xmm4
	; SSE41-NEXT: paddq %xmm0, %xmm4			; SSE41-NEXT: paddq %xmm0, %xmm4
	; SSE41-NEXT: psrlq $2, %xmm4			; SSE41-NEXT: psrlq $2, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [9223372036854775808,2305843009213693952]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [9223372036854775808,2305843009213693952]
	; SSE41-NEXT: pxor %xmm6, %xmm4			; SSE41-NEXT: pxor %xmm6, %xmm4
	; SSE41-NEXT: psubq %xmm6, %xmm4			; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372036854775808,16140901064495857664]
				; SSE41-NEXT: paddq %xmm7, %xmm4
	; SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm0[0,1,2,3],xmm4[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm4 = xmm0[0,1,2,3],xmm4[4,5,6,7]
	; SSE41-NEXT: movdqa %xmm2, %xmm5			; SSE41-NEXT: movdqa %xmm2, %xmm5
	; SSE41-NEXT: psrad $31, %xmm5			; SSE41-NEXT: psrad $31, %xmm5
	; SSE41-NEXT: psrlq $62, %xmm5			; SSE41-NEXT: psrlq $62, %xmm5
	; SSE41-NEXT: paddq %xmm2, %xmm5			; SSE41-NEXT: paddq %xmm2, %xmm5
	; SSE41-NEXT: psrlq $2, %xmm5			; SSE41-NEXT: psrlq $2, %xmm5
	; SSE41-NEXT: pxor %xmm6, %xmm5			; SSE41-NEXT: pxor %xmm6, %xmm5
	; SSE41-NEXT: psubq %xmm6, %xmm5			; SSE41-NEXT: paddq %xmm7, %xmm5
	; SSE41-NEXT: pblendw {{.*#+}} xmm5 = xmm2[0,1,2,3],xmm5[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm5 = xmm2[0,1,2,3],xmm5[4,5,6,7]
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: combine_vec_sdiv_by_pow2b_v8i64:			; AVX1-LABEL: combine_vec_sdiv_by_pow2b_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm4			; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm4
	; AVX1-NEXT: vpsrlq $60, %xmm4, %xmm5			; AVX1-NEXT: vpsrlq $60, %xmm4, %xmm5
	; AVX1-NEXT: vpsrlq $61, %xmm4, %xmm4			; AVX1-NEXT: vpsrlq $61, %xmm4, %xmm4
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm5[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1,2,3],xmm5[4,5,6,7]
	; AVX1-NEXT: vpaddq %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpaddq %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlq $4, %xmm3, %xmm4			; AVX1-NEXT: vpsrlq $4, %xmm3, %xmm4
	; AVX1-NEXT: vpsrlq $3, %xmm3, %xmm3			; AVX1-NEXT: vpsrlq $3, %xmm3, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm4[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm4[4,5,6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [1152921504606846976,576460752303423488]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1152921504606846976,576460752303423488]
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm8, %xmm3, %xmm3
	; AVX1-NEXT: vpsubq %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vmovdqa {{.*#+}} xmm9 = [17293822569102704640,17870283321406128128]
	; AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm5			; AVX1-NEXT: vpaddq %xmm9, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlq $62, %xmm5, %xmm5			; AVX1-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm6
	; AVX1-NEXT: vpaddq %xmm5, %xmm0, %xmm5			; AVX1-NEXT: vpsrlq $62, %xmm6, %xmm6
	; AVX1-NEXT: vpsrlq $2, %xmm5, %xmm5			; AVX1-NEXT: vpaddq %xmm6, %xmm0, %xmm6
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [9223372036854775808,2305843009213693952]			; AVX1-NEXT: vpsrlq $2, %xmm6, %xmm6
	; AVX1-NEXT: vpxor %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [9223372036854775808,2305843009213693952]
	; AVX1-NEXT: vpsubq %xmm6, %xmm5, %xmm5			; AVX1-NEXT: vpxor %xmm7, %xmm6, %xmm6
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,16140901064495857664]
				; AVX1-NEXT: vpaddq %xmm4, %xmm6, %xmm6
				; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm6, %ymm3
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm3[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm3[2,3,4,5,6,7]
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm5			; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm6
	; AVX1-NEXT: vpsrlq $60, %xmm5, %xmm7			; AVX1-NEXT: vpsrlq $60, %xmm6, %xmm5
	; AVX1-NEXT: vpsrlq $61, %xmm5, %xmm5			; AVX1-NEXT: vpsrlq $61, %xmm6, %xmm6
	; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm5[0,1,2,3],xmm7[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm6[0,1,2,3],xmm5[4,5,6,7]
	; AVX1-NEXT: vpaddq %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpaddq %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlq $4, %xmm3, %xmm5			; AVX1-NEXT: vpsrlq $4, %xmm3, %xmm5
	; AVX1-NEXT: vpsrlq $3, %xmm3, %xmm3			; AVX1-NEXT: vpsrlq $3, %xmm3, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm5[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm5[4,5,6,7]
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm8, %xmm3, %xmm3
	; AVX1-NEXT: vpsubq %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpaddq %xmm9, %xmm3, %xmm3
	; AVX1-NEXT: vpcmpgtq %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpcmpgtq %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $62, %xmm2, %xmm2			; AVX1-NEXT: vpsrlq $62, %xmm2, %xmm2
	; AVX1-NEXT: vpaddq %xmm2, %xmm1, %xmm2			; AVX1-NEXT: vpaddq %xmm2, %xmm1, %xmm2
	; AVX1-NEXT: vpsrlq $2, %xmm2, %xmm2			; AVX1-NEXT: vpsrlq $2, %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpaddq %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm2[2,3,4,5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm2[2,3,4,5,6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v8i64:			; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v8i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3			; AVX2-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [64,62,61,60]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [64,62,61,60]
	; AVX2-NEXT: vpsrlvq %ymm4, %ymm3, %ymm3			; AVX2-NEXT: vpsrlvq %ymm4, %ymm3, %ymm3
	; AVX2-NEXT: vpaddq %ymm3, %ymm0, %ymm3			; AVX2-NEXT: vpaddq %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm5 = [0,2,3,4]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm5 = [0,2,3,4]
	; AVX2-NEXT: vpsrlvq %ymm5, %ymm3, %ymm3			; AVX2-NEXT: vpsrlvq %ymm5, %ymm3, %ymm3
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm6 = [9223372036854775808,2305843009213693952,1152921504606846976,576460752303423488]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm6 = [9223372036854775808,2305843009213693952,1152921504606846976,576460752303423488]
	; AVX2-NEXT: vpxor %ymm6, %ymm3, %ymm3			; AVX2-NEXT: vpxor %ymm6, %ymm3, %ymm3
	; AVX2-NEXT: vpsubq %ymm6, %ymm3, %ymm3			; AVX2-NEXT: vmovdqa {{.*#+}} ymm7 = [9223372036854775808,16140901064495857664,17293822569102704640,17870283321406128128]
				; AVX2-NEXT: vpaddq %ymm7, %ymm3, %ymm3
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm3[2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1],ymm3[2,3,4,5,6,7]
	; AVX2-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm2			; AVX2-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm2
	; AVX2-NEXT: vpsrlvq %ymm4, %ymm2, %ymm2			; AVX2-NEXT: vpsrlvq %ymm4, %ymm2, %ymm2
	; AVX2-NEXT: vpaddq %ymm2, %ymm1, %ymm2			; AVX2-NEXT: vpaddq %ymm2, %ymm1, %ymm2
	; AVX2-NEXT: vpsrlvq %ymm5, %ymm2, %ymm2			; AVX2-NEXT: vpsrlvq %ymm5, %ymm2, %ymm2
	; AVX2-NEXT: vpxor %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vpxor %ymm6, %ymm2, %ymm2
	; AVX2-NEXT: vpsubq %ymm6, %ymm2, %ymm2			; AVX2-NEXT: vpaddq %ymm7, %ymm2, %ymm2
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1],ymm2[2,3,4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1],ymm2[2,3,4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: combine_vec_sdiv_by_pow2b_v8i64:			; AVX512F-LABEL: combine_vec_sdiv_by_pow2b_v8i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpsraq $63, %zmm0, %zmm1			; AVX512F-NEXT: vpsraq $63, %zmm0, %zmm1
	; AVX512F-NEXT: vpsrlvq {{.*}}(%rip), %zmm1, %zmm1			; AVX512F-NEXT: vpsrlvq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512F-NEXT: vpaddq %zmm1, %zmm0, %zmm1			; AVX512F-NEXT: vpaddq %zmm1, %zmm0, %zmm1
	▲ Show 20 Lines • Show All 1,186 Lines • Show Last 20 Lines

test/CodeGen/X86/combine-sub.ll

Show All 28 Lines	; AVX-NEXT: retq
%1 = sub <4 x i32> %a, %a		%1 = sub <4 x i32> %a, %a
ret <4 x i32> %1		ret <4 x i32> %1
}		}

; fold (sub x, c) -> (add x, -c)		; fold (sub x, c) -> (add x, -c)
define <4 x i32> @combine_vec_sub_constant(<4 x i32> %x) {		define <4 x i32> @combine_vec_sub_constant(<4 x i32> %x) {
; SSE-LABEL: combine_vec_sub_constant:		; SSE-LABEL: combine_vec_sub_constant:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: psubd {{.*}}(%rip), %xmm0		; SSE-NEXT: paddd {{.*}}(%rip), %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: combine_vec_sub_constant:		; AVX-LABEL: combine_vec_sub_constant:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0		; AVX-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%1 = sub <4 x i32> %x, <i32 0, i32 1, i32 2, i32 3>		%1 = sub <4 x i32> %x, <i32 0, i32 1, i32 2, i32 3>
ret <4 x i32> %1		ret <4 x i32> %1
}		}

; Canonicalize (sub -1, x) -> ~x, i.e. (xor x, -1)		; Canonicalize (sub -1, x) -> ~x, i.e. (xor x, -1)
define <4 x i32> @combine_vec_sub_negone(<4 x i32> %x) {		define <4 x i32> @combine_vec_sub_negone(<4 x i32> %x) {
; SSE-LABEL: combine_vec_sub_negone:		; SSE-LABEL: combine_vec_sub_negone:
▲ Show 20 Lines • Show All 196 Lines • Show Last 20 Lines

test/CodeGen/X86/known-signbits-vector.ll

	Show First 20 Lines • Show All 232 Lines • ▼ Show 20 Lines
	; X32-NEXT: vmovss %xmm0, (%esp)			; X32-NEXT: vmovss %xmm0, (%esp)
	; X32-NEXT: flds (%esp)			; X32-NEXT: flds (%esp)
	; X32-NEXT: popl %eax			; X32-NEXT: popl %eax
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:			; X64-LABEL: signbits_ashr_sext_sextinreg_and_extract_sitofp:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vpsrlq $61, %xmm0, %xmm0			; X64-NEXT: vpsrlq $61, %xmm0, %xmm0
	; X64-NEXT: vmovdqa {{.*#+}} xmm1 = [4,8]			; X64-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; X64-NEXT: vpxor %xmm1, %xmm0, %xmm0			; X64-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; X64-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; X64-NEXT: vmovd %edi, %xmm1			; X64-NEXT: vmovd %edi, %xmm1
	; X64-NEXT: vpand %xmm1, %xmm0, %xmm0			; X64-NEXT: vpand %xmm1, %xmm0, %xmm0
	; X64-NEXT: vmovq %xmm0, %rax			; X64-NEXT: vmovq %xmm0, %rax
	; X64-NEXT: vcvtsi2ss %eax, %xmm2, %xmm0			; X64-NEXT: vcvtsi2ss %eax, %xmm2, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%1 = ashr <2 x i64> %a0, <i64 61, i64 60>			%1 = ashr <2 x i64> %a0, <i64 61, i64 60>
	%2 = sext i32 %a2 to i64			%2 = sext i32 %a2 to i64
	%3 = insertelement <2 x i64> %a1, i64 %2, i32 0			%3 = insertelement <2 x i64> %a1, i64 %2, i32 0
	Show All 25 Lines
	; X32-NEXT: popl %eax			; X32-NEXT: popl %eax
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: signbits_ashr_sextvecinreg_bitops_extract_sitofp:			; X64-LABEL: signbits_ashr_sextvecinreg_bitops_extract_sitofp:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vpsrlq $60, %xmm0, %xmm2			; X64-NEXT: vpsrlq $60, %xmm0, %xmm2
	; X64-NEXT: vpsrlq $61, %xmm0, %xmm0			; X64-NEXT: vpsrlq $61, %xmm0, %xmm0
	; X64-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]			; X64-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; X64-NEXT: vmovdqa {{.*#+}} xmm2 = [4,8]			; X64-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; X64-NEXT: vpxor %xmm2, %xmm0, %xmm0			; X64-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; X64-NEXT: vpsubq %xmm2, %xmm0, %xmm0
	; X64-NEXT: vpmovsxdq %xmm1, %xmm1			; X64-NEXT: vpmovsxdq %xmm1, %xmm1
	; X64-NEXT: vpand %xmm1, %xmm0, %xmm2			; X64-NEXT: vpand %xmm1, %xmm0, %xmm2
	; X64-NEXT: vpor %xmm1, %xmm2, %xmm1			; X64-NEXT: vpor %xmm1, %xmm2, %xmm1
	; X64-NEXT: vpxor %xmm0, %xmm1, %xmm0			; X64-NEXT: vpxor %xmm0, %xmm1, %xmm0
	; X64-NEXT: vmovq %xmm0, %rax			; X64-NEXT: vmovq %xmm0, %rax
	; X64-NEXT: vcvtsi2ss %eax, %xmm3, %xmm0			; X64-NEXT: vcvtsi2ss %eax, %xmm3, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%1 = ashr <2 x i64> %a0, <i64 61, i64 60>			%1 = ashr <2 x i64> %a0, <i64 61, i64 60>
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: signbits_ashr_sext_select_shuffle_sitofp:			; X64-LABEL: signbits_ashr_sext_select_shuffle_sitofp:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: vextractf128 $1, %ymm2, %xmm4			; X64-NEXT: vextractf128 $1, %ymm2, %xmm4
	; X64-NEXT: vpsrlq $33, %xmm4, %xmm4			; X64-NEXT: vpsrlq $33, %xmm4, %xmm4
	; X64-NEXT: vmovdqa {{.*#+}} xmm5 = [1073741824,1]			; X64-NEXT: vmovdqa {{.*#+}} xmm5 = [1073741824,1]
	; X64-NEXT: vpxor %xmm5, %xmm4, %xmm4			; X64-NEXT: vpxor %xmm5, %xmm4, %xmm4
	; X64-NEXT: vpsubq %xmm5, %xmm4, %xmm4			; X64-NEXT: vmovdqa {{.*#+}} xmm6 = [18446744072635809792,18446744073709551615]
				; X64-NEXT: vpaddq %xmm6, %xmm4, %xmm4
	; X64-NEXT: vpsrlq $33, %xmm2, %xmm2			; X64-NEXT: vpsrlq $33, %xmm2, %xmm2
	; X64-NEXT: vpxor %xmm5, %xmm2, %xmm2			; X64-NEXT: vpxor %xmm5, %xmm2, %xmm2
	; X64-NEXT: vpsubq %xmm5, %xmm2, %xmm2			; X64-NEXT: vpaddq %xmm6, %xmm2, %xmm2
	; X64-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2			; X64-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; X64-NEXT: vpmovsxdq %xmm3, %xmm4			; X64-NEXT: vpmovsxdq %xmm3, %xmm4
	; X64-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]			; X64-NEXT: vpshufd {{.*#+}} xmm3 = xmm3[2,3,0,1]
	; X64-NEXT: vpmovsxdq %xmm3, %xmm3			; X64-NEXT: vpmovsxdq %xmm3, %xmm3
	; X64-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3			; X64-NEXT: vinsertf128 $1, %xmm3, %ymm4, %ymm3
	; X64-NEXT: vextractf128 $1, %ymm1, %xmm4			; X64-NEXT: vextractf128 $1, %ymm1, %xmm4
	; X64-NEXT: vextractf128 $1, %ymm0, %xmm5			; X64-NEXT: vextractf128 $1, %ymm0, %xmm5
	; X64-NEXT: vpcmpeqq %xmm4, %xmm5, %xmm4			; X64-NEXT: vpcmpeqq %xmm4, %xmm5, %xmm4
	▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

test/CodeGen/X86/packss.ll

	Show First 20 Lines • Show All 208 Lines • ▼ Show 20 Lines
	;			;
	; X64-SSE-LABEL: trunc_ashr_v4i64_demandedelts:			; X64-SSE-LABEL: trunc_ashr_v4i64_demandedelts:
	; X64-SSE: # %bb.0:			; X64-SSE: # %bb.0:
	; X64-SSE-NEXT: psllq $63, %xmm1			; X64-SSE-NEXT: psllq $63, %xmm1
	; X64-SSE-NEXT: psllq $63, %xmm0			; X64-SSE-NEXT: psllq $63, %xmm0
	; X64-SSE-NEXT: psrlq $63, %xmm0			; X64-SSE-NEXT: psrlq $63, %xmm0
	; X64-SSE-NEXT: movdqa {{.*#+}} xmm2 = [1,9223372036854775808]			; X64-SSE-NEXT: movdqa {{.*#+}} xmm2 = [1,9223372036854775808]
	; X64-SSE-NEXT: pxor %xmm2, %xmm0			; X64-SSE-NEXT: pxor %xmm2, %xmm0
	; X64-SSE-NEXT: psubq %xmm2, %xmm0			; X64-SSE-NEXT: movdqa {{.*#+}} xmm3 = [18446744073709551615,9223372036854775808]
				; X64-SSE-NEXT: paddq %xmm3, %xmm0
	; X64-SSE-NEXT: psrlq $63, %xmm1			; X64-SSE-NEXT: psrlq $63, %xmm1
	; X64-SSE-NEXT: pxor %xmm2, %xmm1			; X64-SSE-NEXT: pxor %xmm2, %xmm1
	; X64-SSE-NEXT: psubq %xmm2, %xmm1			; X64-SSE-NEXT: paddq %xmm3, %xmm1
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,0,0]
	; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]			; X64-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; X64-SSE-NEXT: packssdw %xmm1, %xmm0			; X64-SSE-NEXT: packssdw %xmm1, %xmm0
	; X64-SSE-NEXT: retq			; X64-SSE-NEXT: retq
	;			;
	; X64-AVX1-LABEL: trunc_ashr_v4i64_demandedelts:			; X64-AVX1-LABEL: trunc_ashr_v4i64_demandedelts:
	; X64-AVX1: # %bb.0:			; X64-AVX1: # %bb.0:
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vpsllq $63, %xmm1, %xmm2			; X64-AVX1-NEXT: vpsllq $63, %xmm1, %xmm2
	; X64-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]			; X64-AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; X64-AVX1-NEXT: vpsllq $63, %xmm0, %xmm2			; X64-AVX1-NEXT: vpsllq $63, %xmm0, %xmm2
	; X64-AVX1-NEXT: vpsrlq $63, %xmm1, %xmm1			; X64-AVX1-NEXT: vpsrlq $63, %xmm1, %xmm1
	; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,9223372036854775808]			; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,9223372036854775808]
	; X64-AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1			; X64-AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1
	; X64-AVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1			; X64-AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [18446744073709551615,9223372036854775808]
				; X64-AVX1-NEXT: vpaddq %xmm4, %xmm1, %xmm1
	; X64-AVX1-NEXT: vpsrlq $63, %xmm2, %xmm2			; X64-AVX1-NEXT: vpsrlq $63, %xmm2, %xmm2
	; X64-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm2[0,1,2,3],xmm0[4,5,6,7]			; X64-AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm2[0,1,2,3],xmm0[4,5,6,7]
	; X64-AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0			; X64-AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0
	; X64-AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0			; X64-AVX1-NEXT: vpaddq %xmm4, %xmm0, %xmm0
	; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X64-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X64-AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]			; X64-AVX1-NEXT: vpermilps {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]
	; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X64-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X64-AVX1-NEXT: vpackssdw %xmm1, %xmm0, %xmm0			; X64-AVX1-NEXT: vpackssdw %xmm1, %xmm0, %xmm0
	; X64-AVX1-NEXT: vzeroupper			; X64-AVX1-NEXT: vzeroupper
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: trunc_ashr_v4i64_demandedelts:			; X64-AVX2-LABEL: trunc_ashr_v4i64_demandedelts:
	; X64-AVX2: # %bb.0:			; X64-AVX2: # %bb.0:
	; X64-AVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [1,1,1,1]			; X64-AVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [1,1,1,1]
	; X64-AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; X64-AVX2-NEXT: vpandn %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm1 = [1,9223372036854775808,1,9223372036854775808]			; X64-AVX2-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1
	; X64-AVX2-NEXT: # ymm1 = mem[0,1,0,1]			; X64-AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm0
	; X64-AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]			; X64-AVX2-NEXT: vpshufd {{.*#+}} ymm0 = ymm0[0,0,0,0,4,4,4,4]
	; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; X64-AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; X64-AVX2-NEXT: vpackssdw %xmm1, %xmm0, %xmm0			; X64-AVX2-NEXT: vpackssdw %xmm1, %xmm0, %xmm0
	; X64-AVX2-NEXT: vzeroupper			; X64-AVX2-NEXT: vzeroupper
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	%1 = shl <4 x i64> %a0, <i64 63, i64 0, i64 63, i64 0>			%1 = shl <4 x i64> %a0, <i64 63, i64 0, i64 63, i64 0>
	%2 = ashr <4 x i64> %1, <i64 63, i64 0, i64 63, i64 0>			%2 = ashr <4 x i64> %1, <i64 63, i64 0, i64 63, i64 0>
	%3 = bitcast <4 x i64> %2 to <8 x i32>			%3 = bitcast <4 x i64> %2 to <8 x i32>
	%4 = shufflevector <8 x i32> %3, <8 x i32> undef, <8 x i32> <i32 0, i32 0, i32 0, i32 0, i32 4, i32 4, i32 4, i32 4>			%4 = shufflevector <8 x i32> %3, <8 x i32> undef, <8 x i32> <i32 0, i32 0, i32 0, i32 0, i32 4, i32 4, i32 4, i32 4>
	%5 = trunc <8 x i32> %4 to <8 x i16>			%5 = trunc <8 x i32> %4 to <8 x i16>
	ret <8 x i16> %5			ret <8 x i16> %5
	}			}

test/CodeGen/X86/prefer-avx256-lzcnt.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl,+avx512cd,+prefer-256-bit \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX256			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl,+avx512cd,+prefer-256-bit \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX256
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl,+avx512cd,-prefer-256-bit \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512 --check-prefix=AVX512VL			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512vl,+avx512cd,-prefer-256-bit \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512 --check-prefix=AVX512VL
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512cd,+prefer-256-bit \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512 --check-prefix=AVX512F			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512cd,+prefer-256-bit \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512 --check-prefix=AVX512F
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512cd,-prefer-256-bit \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512 --check-prefix=AVX512F			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512cd,-prefer-256-bit \| FileCheck %s --check-prefix=CHECK --check-prefix=AVX512 --check-prefix=AVX512F

	define <8 x i16> @testv8i16(<8 x i16> %in) {			define <8 x i16> @testv8i16(<8 x i16> %in) {
	; AVX256-LABEL: testv8i16:			; AVX256-LABEL: testv8i16:
	; AVX256: # %bb.0:			; AVX256: # %bb.0:
	; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX256-NEXT: vplzcntd %ymm0, %ymm0			; AVX256-NEXT: vplzcntd %ymm0, %ymm0
	; AVX256-NEXT: vpmovdw %ymm0, %xmm0			; AVX256-NEXT: vpmovdw %ymm0, %xmm0
	; AVX256-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX256-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX256-NEXT: vzeroupper			; AVX256-NEXT: vzeroupper
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	;			;
	; AVX512VL-LABEL: testv8i16:			; AVX512VL-LABEL: testv8i16:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX512VL-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX512VL-NEXT: vplzcntd %ymm0, %ymm0			; AVX512VL-NEXT: vplzcntd %ymm0, %ymm0
	; AVX512VL-NEXT: vpmovdw %ymm0, %xmm0			; AVX512VL-NEXT: vpmovdw %ymm0, %xmm0
	; AVX512VL-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX512VL-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512VL-NEXT: vzeroupper			; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512F-LABEL: testv8i16:			; AVX512F-LABEL: testv8i16:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX512F-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX512F-NEXT: vplzcntd %zmm0, %zmm0			; AVX512F-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512F-NEXT: vpmovdw %zmm0, %ymm0			; AVX512F-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512F-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX512F-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	%out = call <8 x i16> @llvm.ctlz.v8i16(<8 x i16> %in, i1 false)			%out = call <8 x i16> @llvm.ctlz.v8i16(<8 x i16> %in, i1 false)
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define <16 x i8> @testv16i8(<16 x i8> %in) {			define <16 x i8> @testv16i8(<16 x i8> %in) {
	; AVX256-LABEL: testv16i8:			; AVX256-LABEL: testv16i8:
	Show All 9 Lines
	; AVX256-NEXT: vpaddb %xmm0, %xmm2, %xmm0			; AVX256-NEXT: vpaddb %xmm0, %xmm2, %xmm0
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	;			;
	; AVX512-LABEL: testv16i8:			; AVX512-LABEL: testv16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512-NEXT: vplzcntd %zmm0, %zmm0			; AVX512-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%out = call <16 x i8> @llvm.ctlz.v16i8(<16 x i8> %in, i1 false)			%out = call <16 x i8> @llvm.ctlz.v16i8(<16 x i8> %in, i1 false)
	ret <16 x i8> %out			ret <16 x i8> %out
	}			}

	define <16 x i16> @testv16i16(<16 x i16> %in) {			define <16 x i16> @testv16i16(<16 x i16> %in) {
	; AVX256-LABEL: testv16i16:			; AVX256-LABEL: testv16i16:
	; AVX256: # %bb.0:			; AVX256: # %bb.0:
	; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX256-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX256-NEXT: vplzcntd %ymm1, %ymm1			; AVX256-NEXT: vplzcntd %ymm1, %ymm1
	; AVX256-NEXT: vpmovdw %ymm1, %xmm1			; AVX256-NEXT: vpmovdw %ymm1, %xmm1
	; AVX256-NEXT: vmovdqa {{.*#+}} xmm2 = [16,16,16,16,16,16,16,16]			; AVX256-NEXT: vmovdqa {{.*#+}} xmm2 = [65520,65520,65520,65520,65520,65520,65520,65520]
	; AVX256-NEXT: vpsubw %xmm2, %xmm1, %xmm1			; AVX256-NEXT: vpaddw %xmm2, %xmm1, %xmm1
	; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX256-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX256-NEXT: vplzcntd %ymm0, %ymm0			; AVX256-NEXT: vplzcntd %ymm0, %ymm0
	; AVX256-NEXT: vpmovdw %ymm0, %xmm0			; AVX256-NEXT: vpmovdw %ymm0, %xmm0
	; AVX256-NEXT: vpsubw %xmm2, %xmm0, %xmm0			; AVX256-NEXT: vpaddw %xmm2, %xmm0, %xmm0
	; AVX256-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX256-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	;			;
	; AVX512-LABEL: testv16i16:			; AVX512-LABEL: testv16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512-NEXT: vplzcntd %zmm0, %zmm0			; AVX512-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512-NEXT: vpmovdw %zmm0, %ymm0			; AVX512-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512-NEXT: vpsubw {{.*}}(%rip), %ymm0, %ymm0			; AVX512-NEXT: vpaddw {{.*}}(%rip), %ymm0, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%out = call <16 x i16> @llvm.ctlz.v16i16(<16 x i16> %in, i1 false)			%out = call <16 x i16> @llvm.ctlz.v16i16(<16 x i16> %in, i1 false)
	ret <16 x i16> %out			ret <16 x i16> %out
	}			}

	define <32 x i8> @testv32i8(<32 x i8> %in) {			define <32 x i8> @testv32i8(<32 x i8> %in) {
	; AVX256-LABEL: testv32i8:			; AVX256-LABEL: testv32i8:
	; AVX256: # %bb.0:			; AVX256: # %bb.0:
	Show All 9 Lines
	; AVX256-NEXT: retq			; AVX256-NEXT: retq
	;			;
	; AVX512-LABEL: testv32i8:			; AVX512-LABEL: testv32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero
	; AVX512-NEXT: vplzcntd %zmm1, %zmm1			; AVX512-NEXT: vplzcntd %zmm1, %zmm1
	; AVX512-NEXT: vpmovdb %zmm1, %xmm1			; AVX512-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512-NEXT: vmovdqa {{.*#+}} xmm2 = [24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24]			; AVX512-NEXT: vmovdqa {{.*#+}} xmm2 = [232,232,232,232,232,232,232,232,232,232,232,232,232,232,232,232]
	; AVX512-NEXT: vpsubb %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vpaddb %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512-NEXT: vplzcntd %zmm0, %zmm0			; AVX512-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%out = call <32 x i8> @llvm.ctlz.v32i8(<32 x i8> %in, i1 false)			%out = call <32 x i8> @llvm.ctlz.v32i8(<32 x i8> %in, i1 false)
	ret <32 x i8> %out			ret <32 x i8> %out
	}			}

	declare <8 x i16> @llvm.ctlz.v8i16(<8 x i16>, i1)			declare <8 x i16> @llvm.ctlz.v8i16(<8 x i16>, i1)
	declare <16 x i8> @llvm.ctlz.v16i8(<16 x i8>, i1)			declare <16 x i8> @llvm.ctlz.v16i8(<16 x i8>, i1)
	declare <16 x i16> @llvm.ctlz.v16i16(<16 x i16>, i1)			declare <16 x i16> @llvm.ctlz.v16i16(<16 x i16>, i1)
	declare <32 x i8> @llvm.ctlz.v32i8(<32 x i8>, i1)			declare <32 x i8> @llvm.ctlz.v32i8(<32 x i8>, i1)

test/CodeGen/X86/sadd_sat_vec.ll

	Show First 20 Lines • Show All 573 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psllw $4, %xmm1			; SSE-NEXT: psllw $4, %xmm1
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; SSE-NEXT: pand %xmm2, %xmm1			; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: psllw $4, %xmm0			; SSE-NEXT: psllw $4, %xmm0
	; SSE-NEXT: pand %xmm2, %xmm0			; SSE-NEXT: pand %xmm2, %xmm0
	; SSE-NEXT: paddsb %xmm1, %xmm0			; SSE-NEXT: paddsb %xmm1, %xmm0
	; SSE-NEXT: psrlw $4, %xmm0			; SSE-NEXT: psrlw $4, %xmm0
	; SSE-NEXT: pand {{.*}}(%rip), %xmm0			; SSE-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE-NEXT: movdqa {{.*#+}} xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; SSE-NEXT: pxor {{.*}}(%rip), %xmm0
	; SSE-NEXT: pxor %xmm1, %xmm0			; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
	; SSE-NEXT: psubb %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: v16i4:			; AVX-LABEL: v16i4:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpsllw $4, %xmm1, %xmm1			; AVX-NEXT: vpsllw $4, %xmm1, %xmm1
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; AVX-NEXT: vpand %xmm2, %xmm1, %xmm1			; AVX-NEXT: vpand %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpsllw $4, %xmm0, %xmm0			; AVX-NEXT: vpsllw $4, %xmm0, %xmm0
	; AVX-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpaddsb %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpaddsb %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsrlw $4, %xmm0, %xmm0			; AVX-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; AVX-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%z = call <16 x i4> @llvm.sadd.sat.v16i4(<16 x i4> %x, <16 x i4> %y)			%z = call <16 x i4> @llvm.sadd.sat.v16i4(<16 x i4> %x, <16 x i4> %y)
	ret <16 x i4> %z			ret <16 x i4> %z
	}			}

	define <16 x i1> @v16i1(<16 x i1> %x, <16 x i1> %y) nounwind {			define <16 x i1> @v16i1(<16 x i1> %x, <16 x i1> %y) nounwind {
	; SSE-LABEL: v16i1:			; SSE-LABEL: v16i1:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 2,435 Lines • Show Last 20 Lines

test/CodeGen/X86/sink-addsub-of-const.ll

Show First 20 Lines • Show All 337 Lines • ▼ Show 20 Lines
; add (sub %x, C), %y		; add (sub %x, C), %y
; Outer 'add' is commutative - 2 variants.		; Outer 'add' is commutative - 2 variants.

define <4 x i32> @vec_sink_sub_of_const_to_add0(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_sub_of_const_to_add0(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; X32-LABEL: vec_sink_sub_of_const_to_add0:		; X32-LABEL: vec_sink_sub_of_const_to_add0:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: paddd %xmm2, %xmm1		; X32-NEXT: paddd %xmm2, %xmm1
; X32-NEXT: paddd %xmm1, %xmm0		; X32-NEXT: paddd %xmm1, %xmm0
; X32-NEXT: psubd {{\.LCPI.*}}, %xmm0		; X32-NEXT: paddd {{\.LCPI.*}}, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: vec_sink_sub_of_const_to_add0:		; X64-LABEL: vec_sink_sub_of_const_to_add0:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: paddd %xmm2, %xmm1		; X64-NEXT: paddd %xmm2, %xmm1
; X64-NEXT: paddd %xmm1, %xmm0		; X64-NEXT: paddd %xmm1, %xmm0
; X64-NEXT: psubd {{.*}}(%rip), %xmm0		; X64-NEXT: paddd {{.*}}(%rip), %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%t0 = add <4 x i32> %a, %b		%t0 = add <4 x i32> %a, %b
%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>		%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>
%r = add <4 x i32> %t1, %c		%r = add <4 x i32> %t1, %c
ret <4 x i32> %r		ret <4 x i32> %r
}		}
define <4 x i32> @vec_sink_sub_of_const_to_add1(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_sub_of_const_to_add1(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; X32-LABEL: vec_sink_sub_of_const_to_add1:		; X32-LABEL: vec_sink_sub_of_const_to_add1:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: paddd %xmm2, %xmm1		; X32-NEXT: paddd %xmm2, %xmm1
; X32-NEXT: paddd %xmm1, %xmm0		; X32-NEXT: paddd %xmm1, %xmm0
; X32-NEXT: psubd {{\.LCPI.*}}, %xmm0		; X32-NEXT: paddd {{\.LCPI.*}}, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: vec_sink_sub_of_const_to_add1:		; X64-LABEL: vec_sink_sub_of_const_to_add1:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: paddd %xmm2, %xmm1		; X64-NEXT: paddd %xmm2, %xmm1
; X64-NEXT: paddd %xmm1, %xmm0		; X64-NEXT: paddd %xmm1, %xmm0
; X64-NEXT: psubd {{.*}}(%rip), %xmm0		; X64-NEXT: paddd {{.*}}(%rip), %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%t0 = add <4 x i32> %a, %b		%t0 = add <4 x i32> %a, %b
%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>		%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>
%r = add <4 x i32> %c, %t1		%r = add <4 x i32> %c, %t1
ret <4 x i32> %r		ret <4 x i32> %r
}		}

; add (sub C, %x), %y		; add (sub C, %x), %y
▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%r = sub <4 x i32> %t1, %c		%r = sub <4 x i32> %t1, %c
ret <4 x i32> %r		ret <4 x i32> %r
}		}
define <4 x i32> @vec_sink_add_of_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_add_of_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; X32-LABEL: vec_sink_add_of_const_to_sub2:		; X32-LABEL: vec_sink_add_of_const_to_sub2:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: psubd %xmm0, %xmm1		; X32-NEXT: psubd %xmm0, %xmm1
; X32-NEXT: paddd %xmm2, %xmm1		; X32-NEXT: paddd %xmm2, %xmm1
; X32-NEXT: psubd {{\.LCPI.*}}, %xmm1		; X32-NEXT: paddd {{\.LCPI.*}}, %xmm1
; X32-NEXT: movdqa %xmm1, %xmm0		; X32-NEXT: movdqa %xmm1, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: vec_sink_add_of_const_to_sub2:		; X64-LABEL: vec_sink_add_of_const_to_sub2:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: psubd %xmm0, %xmm1		; X64-NEXT: psubd %xmm0, %xmm1
; X64-NEXT: paddd %xmm2, %xmm1		; X64-NEXT: paddd %xmm2, %xmm1
; X64-NEXT: psubd {{.*}}(%rip), %xmm1		; X64-NEXT: paddd {{.*}}(%rip), %xmm1
; X64-NEXT: movdqa %xmm1, %xmm0		; X64-NEXT: movdqa %xmm1, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%t0 = sub <4 x i32> %a, %b		%t0 = sub <4 x i32> %a, %b
%t1 = add <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46> ; constant always on RHS		%t1 = add <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46> ; constant always on RHS
%r = sub <4 x i32> %c, %t1		%r = sub <4 x i32> %c, %t1
ret <4 x i32> %r		ret <4 x i32> %r
}		}

; sub (sub %x, C), %y		; sub (sub %x, C), %y
; sub %y, (sub %x, C)		; sub %y, (sub %x, C)

define <4 x i32> @vec_sink_sub_of_const_to_sub(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_sub_of_const_to_sub(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; X32-LABEL: vec_sink_sub_of_const_to_sub:		; X32-LABEL: vec_sink_sub_of_const_to_sub:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: psubd %xmm1, %xmm0		; X32-NEXT: psubd %xmm1, %xmm0
; X32-NEXT: psubd %xmm2, %xmm0		; X32-NEXT: psubd %xmm2, %xmm0
; X32-NEXT: psubd {{\.LCPI.*}}, %xmm0		; X32-NEXT: paddd {{\.LCPI.*}}, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: vec_sink_sub_of_const_to_sub:		; X64-LABEL: vec_sink_sub_of_const_to_sub:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: psubd %xmm1, %xmm0		; X64-NEXT: psubd %xmm1, %xmm0
; X64-NEXT: psubd %xmm2, %xmm0		; X64-NEXT: psubd %xmm2, %xmm0
; X64-NEXT: psubd {{.*}}(%rip), %xmm0		; X64-NEXT: paddd {{.*}}(%rip), %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%t0 = sub <4 x i32> %a, %b		%t0 = sub <4 x i32> %a, %b
%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>		%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>
%r = sub <4 x i32> %t1, %c		%r = sub <4 x i32> %t1, %c
ret <4 x i32> %r		ret <4 x i32> %r
}		}
define <4 x i32> @vec_sink_sub_of_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_sub_of_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; X32-LABEL: vec_sink_sub_of_const_to_sub2:		; X32-LABEL: vec_sink_sub_of_const_to_sub2:
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%r = sub <4 x i32> %t1, %c		%r = sub <4 x i32> %t1, %c
ret <4 x i32> %r		ret <4 x i32> %r
}		}
define <4 x i32> @vec_sink_sub_from_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_sub_from_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; X32-LABEL: vec_sink_sub_from_const_to_sub2:		; X32-LABEL: vec_sink_sub_from_const_to_sub2:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: psubd %xmm1, %xmm0		; X32-NEXT: psubd %xmm1, %xmm0
; X32-NEXT: paddd %xmm2, %xmm0		; X32-NEXT: paddd %xmm2, %xmm0
; X32-NEXT: psubd {{\.LCPI.*}}, %xmm0		; X32-NEXT: paddd {{\.LCPI.*}}, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: vec_sink_sub_from_const_to_sub2:		; X64-LABEL: vec_sink_sub_from_const_to_sub2:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: psubd %xmm1, %xmm0		; X64-NEXT: psubd %xmm1, %xmm0
; X64-NEXT: paddd %xmm2, %xmm0		; X64-NEXT: paddd %xmm2, %xmm0
; X64-NEXT: psubd {{.*}}(%rip), %xmm0		; X64-NEXT: paddd {{.*}}(%rip), %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%t0 = sub <4 x i32> %a, %b		%t0 = sub <4 x i32> %a, %b
%t1 = sub <4 x i32> <i32 42, i32 24, i32 undef, i32 46>, %t0		%t1 = sub <4 x i32> <i32 42, i32 24, i32 undef, i32 46>, %t0
%r = sub <4 x i32> %c, %t1		%r = sub <4 x i32> %c, %t1
ret <4 x i32> %r		ret <4 x i32> %r
}		}

test/CodeGen/X86/ssub_sat_vec.ll

	Show First 20 Lines • Show All 573 Lines • ▼ Show 20 Lines
	; SSE-NEXT: psllw $4, %xmm1			; SSE-NEXT: psllw $4, %xmm1
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; SSE-NEXT: pand %xmm2, %xmm1			; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: psllw $4, %xmm0			; SSE-NEXT: psllw $4, %xmm0
	; SSE-NEXT: pand %xmm2, %xmm0			; SSE-NEXT: pand %xmm2, %xmm0
	; SSE-NEXT: psubsb %xmm1, %xmm0			; SSE-NEXT: psubsb %xmm1, %xmm0
	; SSE-NEXT: psrlw $4, %xmm0			; SSE-NEXT: psrlw $4, %xmm0
	; SSE-NEXT: pand {{.*}}(%rip), %xmm0			; SSE-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE-NEXT: movdqa {{.*#+}} xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; SSE-NEXT: pxor {{.*}}(%rip), %xmm0
	; SSE-NEXT: pxor %xmm1, %xmm0			; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
	; SSE-NEXT: psubb %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: v16i4:			; AVX-LABEL: v16i4:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpsllw $4, %xmm1, %xmm1			; AVX-NEXT: vpsllw $4, %xmm1, %xmm1
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; AVX-NEXT: vpand %xmm2, %xmm1, %xmm1			; AVX-NEXT: vpand %xmm2, %xmm1, %xmm1
	; AVX-NEXT: vpsllw $4, %xmm0, %xmm0			; AVX-NEXT: vpsllw $4, %xmm0, %xmm0
	; AVX-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX-NEXT: vpsubsb %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpsubsb %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsrlw $4, %xmm0, %xmm0			; AVX-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; AVX-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%z = call <16 x i4> @llvm.ssub.sat.v16i4(<16 x i4> %x, <16 x i4> %y)			%z = call <16 x i4> @llvm.ssub.sat.v16i4(<16 x i4> %x, <16 x i4> %y)
	ret <16 x i4> %z			ret <16 x i4> %z
	}			}

	define <16 x i1> @v16i1(<16 x i1> %x, <16 x i1> %y) nounwind {			define <16 x i1> @v16i1(<16 x i1> %x, <16 x i1> %y) nounwind {
	; SSE-LABEL: v16i1:			; SSE-LABEL: v16i1:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	▲ Show 20 Lines • Show All 2,525 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_ctbits.ll

	Show First 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: psrlw $2, %xmm2			; CHECK-NEXT: psrlw $2, %xmm2
	; CHECK-NEXT: pand %xmm0, %xmm2			; CHECK-NEXT: pand %xmm0, %xmm2
	; CHECK-NEXT: paddb %xmm3, %xmm2			; CHECK-NEXT: paddb %xmm3, %xmm2
	; CHECK-NEXT: movdqa %xmm2, %xmm0			; CHECK-NEXT: movdqa %xmm2, %xmm0
	; CHECK-NEXT: psrlw $4, %xmm0			; CHECK-NEXT: psrlw $4, %xmm0
	; CHECK-NEXT: paddb %xmm2, %xmm0			; CHECK-NEXT: paddb %xmm2, %xmm0
	; CHECK-NEXT: pand {{.*}}(%rip), %xmm0			; CHECK-NEXT: pand {{.*}}(%rip), %xmm0
	; CHECK-NEXT: psadbw %xmm1, %xmm0			; CHECK-NEXT: psadbw %xmm1, %xmm0
	; CHECK-NEXT: psubq {{.*}}(%rip), %xmm0			; CHECK-NEXT: paddq {{.*}}(%rip), %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%c = call <2 x i32> @llvm.ctlz.v2i32(<2 x i32> %a, i1 false)			%c = call <2 x i32> @llvm.ctlz.v2i32(<2 x i32> %a, i1 false)
	ret <2 x i32> %c			ret <2 x i32> %c

	}			}

	define <2 x i32> @prompop(<2 x i32> %a) nounwind {			define <2 x i32> @prompop(<2 x i32> %a) nounwind {
	; CHECK-LABEL: prompop:			; CHECK-LABEL: prompop:
	Show All 23 Lines

test/CodeGen/X86/vector-fshl-128.ll

	Show First 20 Lines • Show All 180 Lines • ▼ Show 20 Lines
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vpshldvq %xmm2, %xmm1, %xmm0			; AVX512VLVBMI2-NEXT: vpshldvq %xmm2, %xmm1, %xmm0
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: var_funnnel_v2i64:			; XOPAVX1-LABEL: var_funnnel_v2i64:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; XOPAVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; XOPAVX1-NEXT: vpshlq %xmm2, %xmm0, %xmm3			; XOPAVX1-NEXT: vpshlq %xmm2, %xmm0, %xmm3
	; XOPAVX1-NEXT: vpsubq {{.*}}(%rip), %xmm2, %xmm4			; XOPAVX1-NEXT: vpor {{.*}}(%rip), %xmm2, %xmm4
	; XOPAVX1-NEXT: vpshlq %xmm4, %xmm1, %xmm1			; XOPAVX1-NEXT: vpshlq %xmm4, %xmm1, %xmm1
	; XOPAVX1-NEXT: vpor %xmm1, %xmm3, %xmm1			; XOPAVX1-NEXT: vpor %xmm1, %xmm3, %xmm1
	; XOPAVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; XOPAVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpcomeqq %xmm3, %xmm2, %xmm2			; XOPAVX1-NEXT: vpcomeqq %xmm3, %xmm2, %xmm2
	; XOPAVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0			; XOPAVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: var_funnnel_v2i64:			; XOPAVX2-LABEL: var_funnnel_v2i64:
	▲ Show 20 Lines • Show All 228 Lines • ▼ Show 20 Lines
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vpshldvd %xmm2, %xmm1, %xmm0			; AVX512VLVBMI2-NEXT: vpshldvd %xmm2, %xmm1, %xmm0
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: var_funnnel_v4i32:			; XOPAVX1-LABEL: var_funnnel_v4i32:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; XOPAVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; XOPAVX1-NEXT: vpshld %xmm2, %xmm0, %xmm3			; XOPAVX1-NEXT: vpshld %xmm2, %xmm0, %xmm3
	; XOPAVX1-NEXT: vpsubd {{.*}}(%rip), %xmm2, %xmm4			; XOPAVX1-NEXT: vpor {{.*}}(%rip), %xmm2, %xmm4
	; XOPAVX1-NEXT: vpshld %xmm4, %xmm1, %xmm1			; XOPAVX1-NEXT: vpshld %xmm4, %xmm1, %xmm1
	; XOPAVX1-NEXT: vpor %xmm1, %xmm3, %xmm1			; XOPAVX1-NEXT: vpor %xmm1, %xmm3, %xmm1
	; XOPAVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; XOPAVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpcomeqd %xmm3, %xmm2, %xmm2			; XOPAVX1-NEXT: vpcomeqd %xmm3, %xmm2, %xmm2
	; XOPAVX1-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0			; XOPAVX1-NEXT: vblendvps %xmm2, %xmm0, %xmm1, %xmm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: var_funnnel_v4i32:			; XOPAVX2-LABEL: var_funnnel_v4i32:
	▲ Show 20 Lines • Show All 310 Lines • ▼ Show 20 Lines
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vpshldvw %xmm2, %xmm1, %xmm0			; AVX512VLVBMI2-NEXT: vpshldvw %xmm2, %xmm1, %xmm0
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	;			;
	; XOP-LABEL: var_funnnel_v8i16:			; XOP-LABEL: var_funnnel_v8i16:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; XOP-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; XOP-NEXT: vpshlw %xmm2, %xmm0, %xmm3			; XOP-NEXT: vpshlw %xmm2, %xmm0, %xmm3
	; XOP-NEXT: vpsubw {{.*}}(%rip), %xmm2, %xmm4			; XOP-NEXT: vpor {{.*}}(%rip), %xmm2, %xmm4
	; XOP-NEXT: vpshlw %xmm4, %xmm1, %xmm1			; XOP-NEXT: vpshlw %xmm4, %xmm1, %xmm1
	; XOP-NEXT: vpor %xmm1, %xmm3, %xmm1			; XOP-NEXT: vpor %xmm1, %xmm3, %xmm1
	; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3			; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOP-NEXT: vpcomeqw %xmm3, %xmm2, %xmm2			; XOP-NEXT: vpcomeqw %xmm3, %xmm2, %xmm2
	; XOP-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0			; XOP-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: var_funnnel_v8i16:			; X32-SSE-LABEL: var_funnnel_v8i16:
	▲ Show 20 Lines • Show All 327 Lines • ▼ Show 20 Lines
	; AVX512VLVBMI2-NEXT: vmovdqa %xmm1, %xmm0			; AVX512VLVBMI2-NEXT: vmovdqa %xmm1, %xmm0
	; AVX512VLVBMI2-NEXT: vzeroupper			; AVX512VLVBMI2-NEXT: vzeroupper
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	;			;
	; XOP-LABEL: var_funnnel_v16i8:			; XOP-LABEL: var_funnnel_v16i8:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; XOP-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; XOP-NEXT: vpshlb %xmm2, %xmm0, %xmm3			; XOP-NEXT: vpshlb %xmm2, %xmm0, %xmm3
	; XOP-NEXT: vpsubb {{.*}}(%rip), %xmm2, %xmm4			; XOP-NEXT: vpor {{.*}}(%rip), %xmm2, %xmm4
	; XOP-NEXT: vpshlb %xmm4, %xmm1, %xmm1			; XOP-NEXT: vpshlb %xmm4, %xmm1, %xmm1
	; XOP-NEXT: vpor %xmm1, %xmm3, %xmm1			; XOP-NEXT: vpor %xmm1, %xmm3, %xmm1
	; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3			; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOP-NEXT: vpcomeqb %xmm3, %xmm2, %xmm2			; XOP-NEXT: vpcomeqb %xmm3, %xmm2, %xmm2
	; XOP-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0			; XOP-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X32-SSE-LABEL: var_funnnel_v16i8:			; X32-SSE-LABEL: var_funnnel_v16i8:
	▲ Show 20 Lines • Show All 961 Lines • ▼ Show 20 Lines
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatvar_funnnel_v16i8:			; XOPAVX1-LABEL: splatvar_funnnel_v16i8:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3			; XOPAVX1-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; XOPAVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; XOPAVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; XOPAVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm0, %xmm4			; XOPAVX1-NEXT: vpshlb %xmm2, %xmm0, %xmm4
	; XOPAVX1-NEXT: vpsubb {{.*}}(%rip), %xmm2, %xmm5			; XOPAVX1-NEXT: vpor {{.*}}(%rip), %xmm2, %xmm5
	; XOPAVX1-NEXT: vpshlb %xmm5, %xmm1, %xmm1			; XOPAVX1-NEXT: vpshlb %xmm5, %xmm1, %xmm1
	; XOPAVX1-NEXT: vpor %xmm1, %xmm4, %xmm1			; XOPAVX1-NEXT: vpor %xmm1, %xmm4, %xmm1
	; XOPAVX1-NEXT: vpcomeqb %xmm3, %xmm2, %xmm2			; XOPAVX1-NEXT: vpcomeqb %xmm3, %xmm2, %xmm2
	; XOPAVX1-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0			; XOPAVX1-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: splatvar_funnnel_v16i8:			; XOPAVX2-LABEL: splatvar_funnnel_v16i8:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpbroadcastb %xmm2, %xmm2			; XOPAVX2-NEXT: vpbroadcastb %xmm2, %xmm2
	; XOPAVX2-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; XOPAVX2-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; XOPAVX2-NEXT: vpshlb %xmm2, %xmm0, %xmm3			; XOPAVX2-NEXT: vpshlb %xmm2, %xmm0, %xmm3
	; XOPAVX2-NEXT: vpsubb {{.*}}(%rip), %xmm2, %xmm4			; XOPAVX2-NEXT: vpor {{.*}}(%rip), %xmm2, %xmm4
	; XOPAVX2-NEXT: vpshlb %xmm4, %xmm1, %xmm1			; XOPAVX2-NEXT: vpshlb %xmm4, %xmm1, %xmm1
	; XOPAVX2-NEXT: vpor %xmm1, %xmm3, %xmm1			; XOPAVX2-NEXT: vpor %xmm1, %xmm3, %xmm1
	; XOPAVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3			; XOPAVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; XOPAVX2-NEXT: vpcomeqb %xmm3, %xmm2, %xmm2			; XOPAVX2-NEXT: vpcomeqb %xmm3, %xmm2, %xmm2
	; XOPAVX2-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0			; XOPAVX2-NEXT: vpblendvb %xmm2, %xmm0, %xmm1, %xmm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatvar_funnnel_v16i8:			; X32-SSE-LABEL: splatvar_funnnel_v16i8:
	▲ Show 20 Lines • Show All 910 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-fshl-256.ll

	Show First 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; XOPAVX1-LABEL: var_funnnel_v4i64:			; XOPAVX1-LABEL: var_funnnel_v4i64:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm2, %ymm2			; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm2, %ymm2
	; XOPAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; XOPAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
	; XOPAVX1-NEXT: vpshlq %xmm4, %xmm3, %xmm3			; XOPAVX1-NEXT: vpshlq %xmm4, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpshlq %xmm2, %xmm0, %xmm5			; XOPAVX1-NEXT: vpshlq %xmm2, %xmm0, %xmm5
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3			; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [64,64]			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [18446744073709551552,18446744073709551552]
	; XOPAVX1-NEXT: vpsubq %xmm5, %xmm4, %xmm6			; XOPAVX1-NEXT: vpor %xmm5, %xmm4, %xmm6
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm7			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm7
	; XOPAVX1-NEXT: vpshlq %xmm6, %xmm7, %xmm6			; XOPAVX1-NEXT: vpshlq %xmm6, %xmm7, %xmm6
	; XOPAVX1-NEXT: vpsubq %xmm5, %xmm2, %xmm5			; XOPAVX1-NEXT: vpor %xmm5, %xmm2, %xmm5
	; XOPAVX1-NEXT: vpshlq %xmm5, %xmm1, %xmm1			; XOPAVX1-NEXT: vpshlq %xmm5, %xmm1, %xmm1
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1			; XOPAVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1
	; XOPAVX1-NEXT: vorps %ymm1, %ymm3, %ymm1			; XOPAVX1-NEXT: vorps %ymm1, %ymm3, %ymm1
	; XOPAVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3			; XOPAVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpcomeqq %xmm3, %xmm4, %xmm4			; XOPAVX1-NEXT: vpcomeqq %xmm3, %xmm4, %xmm4
	; XOPAVX1-NEXT: vpcomeqq %xmm3, %xmm2, %xmm2			; XOPAVX1-NEXT: vpcomeqq %xmm3, %xmm2, %xmm2
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2			; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; XOPAVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0			; XOPAVX1-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 160 Lines • ▼ Show 20 Lines
	; XOPAVX1-LABEL: var_funnnel_v8i32:			; XOPAVX1-LABEL: var_funnnel_v8i32:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm2, %ymm2			; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm2, %ymm2
	; XOPAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; XOPAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
	; XOPAVX1-NEXT: vpshld %xmm4, %xmm3, %xmm3			; XOPAVX1-NEXT: vpshld %xmm4, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpshld %xmm2, %xmm0, %xmm5			; XOPAVX1-NEXT: vpshld %xmm2, %xmm0, %xmm5
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3			; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [32,32,32,32]			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [4294967264,4294967264,4294967264,4294967264]
	; XOPAVX1-NEXT: vpsubd %xmm5, %xmm4, %xmm6			; XOPAVX1-NEXT: vpor %xmm5, %xmm4, %xmm6
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm7			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm7
	; XOPAVX1-NEXT: vpshld %xmm6, %xmm7, %xmm6			; XOPAVX1-NEXT: vpshld %xmm6, %xmm7, %xmm6
	; XOPAVX1-NEXT: vpsubd %xmm5, %xmm2, %xmm5			; XOPAVX1-NEXT: vpor %xmm5, %xmm2, %xmm5
	; XOPAVX1-NEXT: vpshld %xmm5, %xmm1, %xmm1			; XOPAVX1-NEXT: vpshld %xmm5, %xmm1, %xmm1
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1			; XOPAVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1
	; XOPAVX1-NEXT: vorps %ymm1, %ymm3, %ymm1			; XOPAVX1-NEXT: vorps %ymm1, %ymm3, %ymm1
	; XOPAVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3			; XOPAVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpcomeqd %xmm3, %xmm4, %xmm4			; XOPAVX1-NEXT: vpcomeqd %xmm3, %xmm4, %xmm4
	; XOPAVX1-NEXT: vpcomeqd %xmm3, %xmm2, %xmm2			; XOPAVX1-NEXT: vpcomeqd %xmm3, %xmm2, %xmm2
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2			; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; XOPAVX1-NEXT: vblendvps %ymm2, %ymm0, %ymm1, %ymm0			; XOPAVX1-NEXT: vblendvps %ymm2, %ymm0, %ymm1, %ymm0
	▲ Show 20 Lines • Show All 203 Lines • ▼ Show 20 Lines
	; XOPAVX1-LABEL: var_funnnel_v16i16:			; XOPAVX1-LABEL: var_funnnel_v16i16:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm2, %ymm2			; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm2, %ymm2
	; XOPAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; XOPAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
	; XOPAVX1-NEXT: vpshlw %xmm4, %xmm3, %xmm3			; XOPAVX1-NEXT: vpshlw %xmm4, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpshlw %xmm2, %xmm0, %xmm5			; XOPAVX1-NEXT: vpshlw %xmm2, %xmm0, %xmm5
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3			; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [16,16,16,16,16,16,16,16]			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [65520,65520,65520,65520,65520,65520,65520,65520]
	; XOPAVX1-NEXT: vpsubw %xmm5, %xmm4, %xmm6			; XOPAVX1-NEXT: vpor %xmm5, %xmm4, %xmm6
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm7			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm7
	; XOPAVX1-NEXT: vpshlw %xmm6, %xmm7, %xmm6			; XOPAVX1-NEXT: vpshlw %xmm6, %xmm7, %xmm6
	; XOPAVX1-NEXT: vpsubw %xmm5, %xmm2, %xmm5			; XOPAVX1-NEXT: vpor %xmm5, %xmm2, %xmm5
	; XOPAVX1-NEXT: vpshlw %xmm5, %xmm1, %xmm1			; XOPAVX1-NEXT: vpshlw %xmm5, %xmm1, %xmm1
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1			; XOPAVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1
	; XOPAVX1-NEXT: vorps %ymm1, %ymm3, %ymm1			; XOPAVX1-NEXT: vorps %ymm1, %ymm3, %ymm1
	; XOPAVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3			; XOPAVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpcomeqw %xmm3, %xmm4, %xmm4			; XOPAVX1-NEXT: vpcomeqw %xmm3, %xmm4, %xmm4
	; XOPAVX1-NEXT: vpcomeqw %xmm3, %xmm2, %xmm2			; XOPAVX1-NEXT: vpcomeqw %xmm3, %xmm2, %xmm2
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2			; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; XOPAVX1-NEXT: vpcmov %ymm2, %ymm1, %ymm0, %ymm0			; XOPAVX1-NEXT: vpcmov %ymm2, %ymm1, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 278 Lines • ▼ Show 20 Lines
	; XOPAVX1-LABEL: var_funnnel_v32i8:			; XOPAVX1-LABEL: var_funnnel_v32i8:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm2, %ymm2			; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm2, %ymm2
	; XOPAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; XOPAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
	; XOPAVX1-NEXT: vpshlb %xmm4, %xmm3, %xmm3			; XOPAVX1-NEXT: vpshlb %xmm4, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm0, %xmm5			; XOPAVX1-NEXT: vpshlb %xmm2, %xmm0, %xmm5
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3			; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm5, %ymm3
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
	; XOPAVX1-NEXT: vpsubb %xmm5, %xmm4, %xmm6			; XOPAVX1-NEXT: vpor %xmm5, %xmm4, %xmm6
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm7			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm7
	; XOPAVX1-NEXT: vpshlb %xmm6, %xmm7, %xmm6			; XOPAVX1-NEXT: vpshlb %xmm6, %xmm7, %xmm6
	; XOPAVX1-NEXT: vpsubb %xmm5, %xmm2, %xmm5			; XOPAVX1-NEXT: vpor %xmm5, %xmm2, %xmm5
	; XOPAVX1-NEXT: vpshlb %xmm5, %xmm1, %xmm1			; XOPAVX1-NEXT: vpshlb %xmm5, %xmm1, %xmm1
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1			; XOPAVX1-NEXT: vinsertf128 $1, %xmm6, %ymm1, %ymm1
	; XOPAVX1-NEXT: vorps %ymm1, %ymm3, %ymm1			; XOPAVX1-NEXT: vorps %ymm1, %ymm3, %ymm1
	; XOPAVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3			; XOPAVX1-NEXT: vxorps %xmm3, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpcomeqb %xmm3, %xmm4, %xmm4			; XOPAVX1-NEXT: vpcomeqb %xmm3, %xmm4, %xmm4
	; XOPAVX1-NEXT: vpcomeqb %xmm3, %xmm2, %xmm2			; XOPAVX1-NEXT: vpcomeqb %xmm3, %xmm2, %xmm2
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2			; XOPAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; XOPAVX1-NEXT: vpcmov %ymm2, %ymm1, %ymm0, %ymm0			; XOPAVX1-NEXT: vpcmov %ymm2, %ymm1, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 768 Lines • ▼ Show 20 Lines
	; XOPAVX1-NEXT: vpshufb %xmm8, %xmm2, %xmm2			; XOPAVX1-NEXT: vpshufb %xmm8, %xmm2, %xmm2
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm2, %ymm2			; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm2, %ymm2
	; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm2, %ymm2			; XOPAVX1-NEXT: vandps {{.*}}(%rip), %ymm2, %ymm2
	; XOPAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; XOPAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm5			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm5
	; XOPAVX1-NEXT: vpshlb %xmm4, %xmm5, %xmm5			; XOPAVX1-NEXT: vpshlb %xmm4, %xmm5, %xmm5
	; XOPAVX1-NEXT: vpshlb %xmm2, %xmm0, %xmm6			; XOPAVX1-NEXT: vpshlb %xmm2, %xmm0, %xmm6
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm5, %ymm6, %ymm5			; XOPAVX1-NEXT: vinsertf128 $1, %xmm5, %ymm6, %ymm5
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
	; XOPAVX1-NEXT: vpsubb %xmm6, %xmm4, %xmm7			; XOPAVX1-NEXT: vpor %xmm6, %xmm4, %xmm7
	; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; XOPAVX1-NEXT: vpshlb %xmm7, %xmm3, %xmm3			; XOPAVX1-NEXT: vpshlb %xmm7, %xmm3, %xmm3
	; XOPAVX1-NEXT: vpsubb %xmm6, %xmm2, %xmm6			; XOPAVX1-NEXT: vpor %xmm6, %xmm2, %xmm6
	; XOPAVX1-NEXT: vpshlb %xmm6, %xmm1, %xmm1			; XOPAVX1-NEXT: vpshlb %xmm6, %xmm1, %xmm1
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; XOPAVX1-NEXT: vorps %ymm1, %ymm5, %ymm1			; XOPAVX1-NEXT: vorps %ymm1, %ymm5, %ymm1
	; XOPAVX1-NEXT: vpcomeqb %xmm8, %xmm4, %xmm3			; XOPAVX1-NEXT: vpcomeqb %xmm8, %xmm4, %xmm3
	; XOPAVX1-NEXT: vpcomeqb %xmm8, %xmm2, %xmm2			; XOPAVX1-NEXT: vpcomeqb %xmm8, %xmm2, %xmm2
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; XOPAVX1-NEXT: vpcmov %ymm2, %ymm1, %ymm0, %ymm0			; XOPAVX1-NEXT: vpcmov %ymm2, %ymm1, %ymm0, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	▲ Show 20 Lines • Show All 875 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-idiv-sdiv-128.ll

	Show First 20 Lines • Show All 176 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psrlw $8, %xmm2			; SSE2-NEXT: psrlw $8, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: psraw $8, %xmm1			; SSE2-NEXT: psraw $8, %xmm1
	; SSE2-NEXT: pmullw %xmm3, %xmm1			; SSE2-NEXT: pmullw %xmm3, %xmm1
	; SSE2-NEXT: psrlw $8, %xmm1			; SSE2-NEXT: psrlw $8, %xmm1
	; SSE2-NEXT: packuswb %xmm2, %xmm1			; SSE2-NEXT: packuswb %xmm2, %xmm1
	; SSE2-NEXT: paddb %xmm0, %xmm1			; SSE2-NEXT: paddb %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: psrlw $2, %xmm0			; SSE2-NEXT: psrlw $7, %xmm0
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm0			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; SSE2-NEXT: psrlw $2, %xmm1
	; SSE2-NEXT: pxor %xmm2, %xmm0
	; SSE2-NEXT: psrlw $7, %xmm1
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm1			; SSE2-NEXT: pand {{.*}}(%rip), %xmm1
				; SSE2-NEXT: pxor {{.*}}(%rip), %xmm1
	; SSE2-NEXT: paddb %xmm0, %xmm1			; SSE2-NEXT: paddb %xmm0, %xmm1
	; SSE2-NEXT: psubb %xmm2, %xmm1			; SSE2-NEXT: paddb {{.*}}(%rip), %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_div7_16i8:			; SSE41-LABEL: test_div7_16i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm1			; SSE41-NEXT: pmovsxbw %xmm0, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; SSE41-NEXT: pmullw %xmm2, %xmm1			; SSE41-NEXT: pmullw %xmm2, %xmm1
	; SSE41-NEXT: psrlw $8, %xmm1			; SSE41-NEXT: psrlw $8, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm3, %xmm3			; SSE41-NEXT: pmovsxbw %xmm3, %xmm3
	; SSE41-NEXT: pmullw %xmm2, %xmm3			; SSE41-NEXT: pmullw %xmm2, %xmm3
	; SSE41-NEXT: psrlw $8, %xmm3			; SSE41-NEXT: psrlw $8, %xmm3
	; SSE41-NEXT: packuswb %xmm3, %xmm1			; SSE41-NEXT: packuswb %xmm3, %xmm1
	; SSE41-NEXT: paddb %xmm0, %xmm1			; SSE41-NEXT: paddb %xmm0, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: psrlw $2, %xmm0			; SSE41-NEXT: psrlw $7, %xmm0
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm0			; SSE41-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; SSE41-NEXT: psrlw $2, %xmm1
	; SSE41-NEXT: pxor %xmm2, %xmm0
	; SSE41-NEXT: psrlw $7, %xmm1
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm1			; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
				; SSE41-NEXT: pxor {{.*}}(%rip), %xmm1
	; SSE41-NEXT: paddb %xmm0, %xmm1			; SSE41-NEXT: paddb %xmm0, %xmm1
	; SSE41-NEXT: psubb %xmm2, %xmm1			; SSE41-NEXT: paddb {{.*}}(%rip), %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_div7_16i8:			; AVX1-LABEL: test_div7_16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3			; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $7, %xmm0, %xmm1
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $7, %xmm0, %xmm0
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
				; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_div7_16i8:			; AVX2NOBW-LABEL: test_div7_16i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1
	; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX2NOBW-NEXT: vpsrlw $2, %xmm0, %xmm1			; AVX2NOBW-NEXT: vpsrlw $7, %xmm0, %xmm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX2NOBW-NEXT: vpsrlw $2, %xmm0, %xmm0
	; AVX2NOBW-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpsrlw $7, %xmm0, %xmm0
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX2NOBW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2NOBW-NEXT: vpsubb %xmm2, %xmm0, %xmm0			; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
				; AVX2NOBW-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2NOBW-NEXT: vzeroupper			; AVX2NOBW-NEXT: vzeroupper
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_div7_16i8:			; AVX512BW-LABEL: test_div7_16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %xmm0, %ymm1			; AVX512BW-NEXT: vpmovsxbw %xmm0, %ymm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX512BW-NEXT: vpsrlw $2, %xmm0, %xmm1			; AVX512BW-NEXT: vpsrlw $7, %xmm0, %xmm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vpsrlw $2, %xmm0, %xmm0
	; AVX512BW-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX512BW-NEXT: vpsrlw $7, %xmm0, %xmm0
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX512BW-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX512BW-NEXT: vpsubb %xmm2, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = sdiv <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = sdiv <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

	;			;
	; sdiv by non-splat constant			; sdiv by non-splat constant
	▲ Show 20 Lines • Show All 352 Lines • ▼ Show 20 Lines
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%res = srem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>			%res = srem <8 x i16> %a, <i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7, i16 7>
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}

	define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {			define <16 x i8> @test_rem7_16i8(<16 x i8> %a) nounwind {
	; SSE2-LABEL: test_rem7_16i8:			; SSE2-LABEL: test_rem7_16i8:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: punpckhbw {{.*#+}} xmm2 = xmm2[8],xmm0[8],xmm2[9],xmm0[9],xmm2[10],xmm0[10],xmm2[11],xmm0[11],xmm2[12],xmm0[12],xmm2[13],xmm0[13],xmm2[14],xmm0[14],xmm2[15],xmm0[15]			; SSE2-NEXT: punpckhbw {{.*#+}} xmm1 = xmm1[8],xmm0[8],xmm1[9],xmm0[9],xmm1[10],xmm0[10],xmm1[11],xmm0[11],xmm1[12],xmm0[12],xmm1[13],xmm0[13],xmm1[14],xmm0[14],xmm1[15],xmm0[15]
	; SSE2-NEXT: psraw $8, %xmm2
	; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; SSE2-NEXT: pmullw %xmm3, %xmm2
	; SSE2-NEXT: psrlw $8, %xmm2
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE2-NEXT: psraw $8, %xmm1			; SSE2-NEXT: psraw $8, %xmm1
	; SSE2-NEXT: pmullw %xmm3, %xmm1			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
				; SSE2-NEXT: pmullw %xmm2, %xmm1
	; SSE2-NEXT: psrlw $8, %xmm1			; SSE2-NEXT: psrlw $8, %xmm1
	; SSE2-NEXT: packuswb %xmm2, %xmm1			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE2-NEXT: paddb %xmm0, %xmm1			; SSE2-NEXT: psraw $8, %xmm3
	; SSE2-NEXT: movdqa %xmm1, %xmm2			; SSE2-NEXT: pmullw %xmm2, %xmm3
	; SSE2-NEXT: psrlw $2, %xmm2			; SSE2-NEXT: psrlw $8, %xmm3
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm2			; SSE2-NEXT: packuswb %xmm1, %xmm3
	; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; SSE2-NEXT: paddb %xmm0, %xmm3
	; SSE2-NEXT: pxor %xmm3, %xmm2			; SSE2-NEXT: movdqa %xmm3, %xmm1
	; SSE2-NEXT: psrlw $7, %xmm1			; SSE2-NEXT: psrlw $7, %xmm1
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm1			; SSE2-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE2-NEXT: paddb %xmm2, %xmm1			; SSE2-NEXT: psrlw $2, %xmm3
	; SSE2-NEXT: psubb %xmm3, %xmm1			; SSE2-NEXT: pand {{.*}}(%rip), %xmm3
	; SSE2-NEXT: movdqa %xmm1, %xmm2			; SSE2-NEXT: pxor {{.*}}(%rip), %xmm3
	; SSE2-NEXT: psllw $3, %xmm2			; SSE2-NEXT: paddb %xmm1, %xmm3
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm2			; SSE2-NEXT: paddb {{.*}}(%rip), %xmm3
	; SSE2-NEXT: psubb %xmm2, %xmm1			; SSE2-NEXT: movdqa %xmm3, %xmm1
	; SSE2-NEXT: paddb %xmm1, %xmm0			; SSE2-NEXT: psllw $3, %xmm1
				; SSE2-NEXT: pand {{.*}}(%rip), %xmm1
				; SSE2-NEXT: psubb %xmm1, %xmm3
				; SSE2-NEXT: paddb %xmm3, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_rem7_16i8:			; SSE41-LABEL: test_rem7_16i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm1			; SSE41-NEXT: pmovsxbw %xmm0, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; SSE41-NEXT: pmullw %xmm2, %xmm1			; SSE41-NEXT: pmullw %xmm2, %xmm1
	; SSE41-NEXT: psrlw $8, %xmm1			; SSE41-NEXT: psrlw $8, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm3, %xmm3			; SSE41-NEXT: pmovsxbw %xmm3, %xmm3
	; SSE41-NEXT: pmullw %xmm2, %xmm3			; SSE41-NEXT: pmullw %xmm2, %xmm3
	; SSE41-NEXT: psrlw $8, %xmm3			; SSE41-NEXT: psrlw $8, %xmm3
	; SSE41-NEXT: packuswb %xmm3, %xmm1			; SSE41-NEXT: packuswb %xmm3, %xmm1
	; SSE41-NEXT: paddb %xmm0, %xmm1			; SSE41-NEXT: paddb %xmm0, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psrlw $2, %xmm2			; SSE41-NEXT: psrlw $7, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; SSE41-NEXT: psrlw $2, %xmm1
	; SSE41-NEXT: pxor %xmm3, %xmm2
	; SSE41-NEXT: psrlw $7, %xmm1
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm1			; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
				; SSE41-NEXT: pxor {{.*}}(%rip), %xmm1
	; SSE41-NEXT: paddb %xmm2, %xmm1			; SSE41-NEXT: paddb %xmm2, %xmm1
	; SSE41-NEXT: psubb %xmm3, %xmm1			; SSE41-NEXT: paddb {{.*}}(%rip), %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psllw $3, %xmm2			; SSE41-NEXT: psllw $3, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: psubb %xmm2, %xmm1			; SSE41-NEXT: psubb %xmm2, %xmm1
	; SSE41-NEXT: paddb %xmm1, %xmm0			; SSE41-NEXT: paddb %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_rem7_16i8:			; AVX1-LABEL: test_rem7_16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3			; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm2			; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm2
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm1
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1
				; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpsllw $3, %xmm1, %xmm2			; AVX1-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_16i8:			; AVX2NOBW-LABEL: test_rem7_16i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1
	; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpsrlw $2, %xmm1, %xmm2			; AVX2NOBW-NEXT: vpsrlw $7, %xmm1, %xmm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX2NOBW-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpsrlw $7, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX2NOBW-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpsubb %xmm3, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpaddb %xmm2, %xmm1, %xmm1
				; AVX2NOBW-NEXT: vpaddb {{.*}}(%rip), %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpsllw $3, %xmm1, %xmm2			; AVX2NOBW-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpsubb %xmm2, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2NOBW-NEXT: vzeroupper			; AVX2NOBW-NEXT: vzeroupper
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_16i8:			; AVX512BW-LABEL: test_rem7_16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %xmm0, %ymm1			; AVX512BW-NEXT: vpmovsxbw %xmm0, %ymm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm1
	; AVX512BW-NEXT: vpsrlw $2, %xmm1, %xmm2			; AVX512BW-NEXT: vpsrlw $7, %xmm1, %xmm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX512BW-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX512BW-NEXT: vpsrlw $7, %xmm1, %xmm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX512BW-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vpsubb %xmm3, %xmm1, %xmm1			; AVX512BW-NEXT: vpaddb %xmm2, %xmm1, %xmm1
				; AVX512BW-NEXT: vpaddb {{.*}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vpsllw $3, %xmm1, %xmm2			; AVX512BW-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX512BW-NEXT: vpsubb %xmm2, %xmm1, %xmm1			; AVX512BW-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX512BW-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = srem <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = srem <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <16 x i8> %res			ret <16 x i8> %res
	▲ Show 20 Lines • Show All 536 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-idiv-sdiv-256.ll

	Show First 20 Lines • Show All 164 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4
	; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm4			; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4			; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
	; AVX1-NEXT: vpackuswb %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpackuswb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm2			; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm8, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX1-NEXT: vpand %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX1-NEXT: vpxor %xmm6, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm6, %xmm1, %xmm1
				; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
				; AVX1-NEXT: vpaddb %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm2			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm2
	; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm7, %xmm7			; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4
	; AVX1-NEXT: vpmullw %xmm3, %xmm7, %xmm3			; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpaddb %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpsrlw $7, %xmm0, %xmm2			; AVX1-NEXT: vpsrlw $7, %xmm0, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm8, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm0			; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm6, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm6, %xmm0, %xmm0
				; AVX1-NEXT: vpaddb %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_div7_32i8:			; AVX2NOBW-LABEL: test_div7_32i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm3			; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm3
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpackuswb %ymm1, %ymm2, %ymm1			; AVX2NOBW-NEXT: vpackuswb %ymm1, %ymm2, %ymm1
	; AVX2NOBW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,1,3]			; AVX2NOBW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,1,3]
	; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm0
	; AVX2NOBW-NEXT: vpsrlw $2, %ymm0, %ymm1			; AVX2NOBW-NEXT: vpsrlw $7, %ymm0, %ymm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX2NOBW-NEXT: vpsrlw $2, %ymm0, %ymm0
	; AVX2NOBW-NEXT: vpxor %ymm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $7, %ymm0, %ymm0
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX2NOBW-NEXT: vpxor {{.*}}(%rip), %ymm0, %ymm0
	; AVX2NOBW-NEXT: vpsubb %ymm2, %ymm0, %ymm0			; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm0, %ymm0
				; AVX2NOBW-NEXT: vpaddb {{.*}}(%rip), %ymm0, %ymm0
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_div7_32i8:			; AVX512BW-LABEL: test_div7_32i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm0
	; AVX512BW-NEXT: vpsrlw $2, %ymm0, %ymm1			; AVX512BW-NEXT: vpsrlw $7, %ymm0, %ymm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vpsrlw $2, %ymm0, %ymm0
	; AVX512BW-NEXT: vpxor %ymm2, %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $7, %ymm0, %ymm0
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX512BW-NEXT: vpxor {{.*}}(%rip), %ymm0, %ymm0
	; AVX512BW-NEXT: vpsubb %ymm2, %ymm0, %ymm0			; AVX512BW-NEXT: vpaddb %ymm1, %ymm0, %ymm0
				; AVX512BW-NEXT: vpaddb {{.*}}(%rip), %ymm0, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = sdiv <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = sdiv <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}

	;			;
	; sdiv by non-splat constant			; sdiv by non-splat constant
	;			;
	▲ Show 20 Lines • Show All 332 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm4			; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4			; AVX1-NEXT: vpsrlw $8, %xmm4, %xmm4
	; AVX1-NEXT: vpackuswb %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpackuswb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm2			; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $7, %xmm2, %xmm4			; AVX1-NEXT: vpsrlw $7, %xmm2, %xmm4
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX1-NEXT: vpand %xmm8, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm8, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm9 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm9, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX1-NEXT: vpxor %xmm7, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm7, %xmm2, %xmm2
				; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
				; AVX1-NEXT: vpaddb %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpaddb %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpaddb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpsllw $3, %xmm2, %xmm4			; AVX1-NEXT: vpsllw $3, %xmm2, %xmm4
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
	; AVX1-NEXT: vpand %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm4
	; AVX1-NEXT: vpsubb %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpsubb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm2			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm2
	; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4
	; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm0, %xmm2, %xmm2			; AVX1-NEXT: vpaddb %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $7, %xmm2, %xmm3			; AVX1-NEXT: vpsrlw $7, %xmm2, %xmm3
	; AVX1-NEXT: vpand %xmm8, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm8, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm9, %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm7, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm7, %xmm2, %xmm2
				; AVX1-NEXT: vpaddb %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpaddb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpsllw $3, %xmm2, %xmm3			; AVX1-NEXT: vpsllw $3, %xmm2, %xmm3
	; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm3
	; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_32i8:			; AVX2NOBW-LABEL: test_rem7_32i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm3			; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm3
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpackuswb %ymm1, %ymm2, %ymm1			; AVX2NOBW-NEXT: vpackuswb %ymm1, %ymm2, %ymm1
	; AVX2NOBW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,1,3]			; AVX2NOBW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,1,3]
	; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $2, %ymm1, %ymm2			; AVX2NOBW-NEXT: vpsrlw $7, %ymm1, %ymm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX2NOBW-NEXT: vpsrlw $2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpsrlw $7, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX2NOBW-NEXT: vpxor {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsubb %ymm3, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpaddb %ymm2, %ymm1, %ymm1
				; AVX2NOBW-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsllw $3, %ymm1, %ymm2			; AVX2NOBW-NEXT: vpsllw $3, %ymm1, %ymm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpsubb %ymm2, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsubb %ymm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_32i8:			; AVX512BW-LABEL: test_rem7_32i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm1			; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $2, %ymm1, %ymm2			; AVX512BW-NEXT: vpsrlw $7, %ymm1, %ymm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vpsrlw $2, %ymm1, %ymm1
	; AVX512BW-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsrlw $7, %ymm1, %ymm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512BW-NEXT: vpxor {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpsubb %ymm3, %ymm1, %ymm1			; AVX512BW-NEXT: vpaddb %ymm2, %ymm1, %ymm1
				; AVX512BW-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpsllw $3, %ymm1, %ymm2			; AVX512BW-NEXT: vpsllw $3, %ymm1, %ymm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX512BW-NEXT: vpsubb %ymm2, %ymm1, %ymm1			; AVX512BW-NEXT: vpsubb %ymm2, %ymm1, %ymm1
	; AVX512BW-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = srem <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = srem <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}
	▲ Show 20 Lines • Show All 152 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-idiv-sdiv-512.ll

	Show First 20 Lines • Show All 140 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpsrlw $7, %ymm0, %ymm2			; AVX512F-NEXT: vpsrlw $7, %ymm0, %ymm2
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX512F-NEXT: vpand %ymm4, %ymm2, %ymm2			; AVX512F-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $2, %ymm0, %ymm0			; AVX512F-NEXT: vpsrlw $2, %ymm0, %ymm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX512F-NEXT: vpand %ymm5, %ymm0, %ymm0			; AVX512F-NEXT: vpand %ymm5, %ymm0, %ymm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512F-NEXT: vpxor %ymm6, %ymm0, %ymm0			; AVX512F-NEXT: vpxor %ymm6, %ymm0, %ymm0
				; AVX512F-NEXT: vmovdqa {{.*#+}} ymm7 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
				; AVX512F-NEXT: vpaddb %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddb %ymm2, %ymm0, %ymm0			; AVX512F-NEXT: vpaddb %ymm2, %ymm0, %ymm0
	; AVX512F-NEXT: vpsubb %ymm6, %ymm0, %ymm0
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm2			; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm2
	; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX512F-NEXT: vpmovsxbw %xmm1, %ymm7			; AVX512F-NEXT: vpmovsxbw %xmm1, %ymm8
	; AVX512F-NEXT: vpmullw %ymm3, %ymm7, %ymm3			; AVX512F-NEXT: vpmullw %ymm3, %ymm8, %ymm3
	; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3			; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3
	; AVX512F-NEXT: vpackuswb %ymm2, %ymm3, %ymm2			; AVX512F-NEXT: vpackuswb %ymm2, %ymm3, %ymm2
	; AVX512F-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]			; AVX512F-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	; AVX512F-NEXT: vpsrlw $7, %ymm1, %ymm2			; AVX512F-NEXT: vpsrlw $7, %ymm1, %ymm2
	; AVX512F-NEXT: vpand %ymm4, %ymm2, %ymm2			; AVX512F-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $2, %ymm1, %ymm1			; AVX512F-NEXT: vpsrlw $2, %ymm1, %ymm1
	; AVX512F-NEXT: vpand %ymm5, %ymm1, %ymm1			; AVX512F-NEXT: vpand %ymm5, %ymm1, %ymm1
	; AVX512F-NEXT: vpxor %ymm6, %ymm1, %ymm1			; AVX512F-NEXT: vpxor %ymm6, %ymm1, %ymm1
				; AVX512F-NEXT: vpaddb %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddb %ymm2, %ymm1, %ymm1			; AVX512F-NEXT: vpaddb %ymm2, %ymm1, %ymm1
	; AVX512F-NEXT: vpsubb %ymm6, %ymm1, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_div7_64i8:			; AVX512BW-LABEL: test_div7_64i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm3			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm3
	; AVX512BW-NEXT: vpmovsxbw %ymm3, %zmm3			; AVX512BW-NEXT: vpmovsxbw %ymm3, %zmm3
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $8, %zmm2, %zmm2			; AVX512BW-NEXT: vpsrlw $8, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmovwb %zmm2, %ymm2			; AVX512BW-NEXT: vpmovwb %zmm2, %ymm2
	; AVX512BW-NEXT: vinserti64x4 $1, %ymm2, %zmm1, %zmm1			; AVX512BW-NEXT: vinserti64x4 $1, %ymm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $7, %zmm0, %zmm1
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpxorq %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $7, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpxorq {{.*}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: vpsubb %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: vpaddb {{.*}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = sdiv <64 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = sdiv <64 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}

	;			;
	; sdiv by non-splat constant			; sdiv by non-splat constant
	;			;
	▲ Show 20 Lines • Show All 281 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpsrlw $7, %ymm2, %ymm4			; AVX512F-NEXT: vpsrlw $7, %ymm2, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX512F-NEXT: vpand %ymm5, %ymm4, %ymm4			; AVX512F-NEXT: vpand %ymm5, %ymm4, %ymm4
	; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX512F-NEXT: vpand %ymm6, %ymm2, %ymm2			; AVX512F-NEXT: vpand %ymm6, %ymm2, %ymm2
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512F-NEXT: vpxor %ymm7, %ymm2, %ymm2			; AVX512F-NEXT: vpxor %ymm7, %ymm2, %ymm2
				; AVX512F-NEXT: vmovdqa {{.*#+}} ymm8 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
				; AVX512F-NEXT: vpaddb %ymm8, %ymm4, %ymm4
	; AVX512F-NEXT: vpaddb %ymm4, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm4, %ymm2, %ymm2
	; AVX512F-NEXT: vpsubb %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm4			; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm8 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm9 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
	; AVX512F-NEXT: vpand %ymm8, %ymm4, %ymm4			; AVX512F-NEXT: vpand %ymm9, %ymm4, %ymm4
	; AVX512F-NEXT: vpsubb %ymm4, %ymm2, %ymm2			; AVX512F-NEXT: vpsubb %ymm4, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddb %ymm2, %ymm0, %ymm0			; AVX512F-NEXT: vpaddb %ymm2, %ymm0, %ymm0
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm2			; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm2
	; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX512F-NEXT: vpmovsxbw %xmm1, %ymm4			; AVX512F-NEXT: vpmovsxbw %xmm1, %ymm4
	; AVX512F-NEXT: vpmullw %ymm3, %ymm4, %ymm3			; AVX512F-NEXT: vpmullw %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3			; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3
	; AVX512F-NEXT: vpackuswb %ymm2, %ymm3, %ymm2			; AVX512F-NEXT: vpackuswb %ymm2, %ymm3, %ymm2
	; AVX512F-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]			; AVX512F-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $7, %ymm2, %ymm3			; AVX512F-NEXT: vpsrlw $7, %ymm2, %ymm3
	; AVX512F-NEXT: vpand %ymm5, %ymm3, %ymm3			; AVX512F-NEXT: vpand %ymm5, %ymm3, %ymm3
	; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2
	; AVX512F-NEXT: vpand %ymm6, %ymm2, %ymm2			; AVX512F-NEXT: vpand %ymm6, %ymm2, %ymm2
	; AVX512F-NEXT: vpxor %ymm7, %ymm2, %ymm2			; AVX512F-NEXT: vpxor %ymm7, %ymm2, %ymm2
				; AVX512F-NEXT: vpaddb %ymm8, %ymm3, %ymm3
	; AVX512F-NEXT: vpaddb %ymm3, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpsubb %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm3			; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm3
	; AVX512F-NEXT: vpand %ymm8, %ymm3, %ymm3			; AVX512F-NEXT: vpand %ymm9, %ymm3, %ymm3
	; AVX512F-NEXT: vpsubb %ymm3, %ymm2, %ymm2			; AVX512F-NEXT: vpsubb %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddb %ymm2, %ymm1, %ymm1			; AVX512F-NEXT: vpaddb %ymm2, %ymm1, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_64i8:			; AVX512BW-LABEL: test_rem7_64i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm3			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm3
	; AVX512BW-NEXT: vpmovsxbw %ymm3, %zmm3			; AVX512BW-NEXT: vpmovsxbw %ymm3, %zmm3
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $8, %zmm2, %zmm2			; AVX512BW-NEXT: vpsrlw $8, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmovwb %zmm2, %ymm2			; AVX512BW-NEXT: vpmovwb %zmm2, %ymm2
	; AVX512BW-NEXT: vinserti64x4 $1, %ymm2, %zmm1, %zmm1			; AVX512BW-NEXT: vinserti64x4 $1, %ymm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $2, %zmm1, %zmm2			; AVX512BW-NEXT: vpsrlw $7, %zmm1, %zmm2
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vpsrlw $2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpxorq %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlw $7, %zmm1, %zmm1
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm2, %zmm1			; AVX512BW-NEXT: vpxorq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vpsubb %zmm3, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddb %zmm2, %zmm1, %zmm1
				; AVX512BW-NEXT: vpaddb {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vpsllw $3, %zmm1, %zmm2			; AVX512BW-NEXT: vpsllw $3, %zmm1, %zmm2
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2
	; AVX512BW-NEXT: vpsubb %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpsubb %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = srem <64 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = srem <64 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}
	▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-lzcnt-128.ll

	Show First 20 Lines • Show All 1,127 Lines • ▼ Show 20 Lines
	; AVX512VLBWDQ-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX512VLBWDQ-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; AVX512VLCD-LABEL: testv8i16:			; AVX512VLCD-LABEL: testv8i16:
	; AVX512VLCD: # %bb.0:			; AVX512VLCD: # %bb.0:
	; AVX512VLCD-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX512VLCD-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX512VLCD-NEXT: vplzcntd %ymm0, %ymm0			; AVX512VLCD-NEXT: vplzcntd %ymm0, %ymm0
	; AVX512VLCD-NEXT: vpmovdw %ymm0, %xmm0			; AVX512VLCD-NEXT: vpmovdw %ymm0, %xmm0
	; AVX512VLCD-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX512VLCD-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512VLCD-NEXT: vzeroupper			; AVX512VLCD-NEXT: vzeroupper
	; AVX512VLCD-NEXT: retq			; AVX512VLCD-NEXT: retq
	;			;
	; AVX512CD-LABEL: testv8i16:			; AVX512CD-LABEL: testv8i16:
	; AVX512CD: # %bb.0:			; AVX512CD: # %bb.0:
	; AVX512CD-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX512CD-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CD-NEXT: vpmovdw %zmm0, %ymm0			; AVX512CD-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512CD-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX512CD-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512CD-NEXT: vzeroupper			; AVX512CD-NEXT: vzeroupper
	; AVX512CD-NEXT: retq			; AVX512CD-NEXT: retq
	;			;
	; X32-SSE-LABEL: testv8i16:			; X32-SSE-LABEL: testv8i16:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; X32-SSE-NEXT: movdqa %xmm2, %xmm3			; X32-SSE-NEXT: movdqa %xmm2, %xmm3
	; X32-SSE-NEXT: pshufb %xmm0, %xmm3			; X32-SSE-NEXT: pshufb %xmm0, %xmm3
	▲ Show 20 Lines • Show All 167 Lines • ▼ Show 20 Lines
	; AVX512VLBWDQ-NEXT: vpaddw %xmm0, %xmm1, %xmm0			; AVX512VLBWDQ-NEXT: vpaddw %xmm0, %xmm1, %xmm0
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; AVX512VLCD-LABEL: testv8i16u:			; AVX512VLCD-LABEL: testv8i16u:
	; AVX512VLCD: # %bb.0:			; AVX512VLCD: # %bb.0:
	; AVX512VLCD-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX512VLCD-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX512VLCD-NEXT: vplzcntd %ymm0, %ymm0			; AVX512VLCD-NEXT: vplzcntd %ymm0, %ymm0
	; AVX512VLCD-NEXT: vpmovdw %ymm0, %xmm0			; AVX512VLCD-NEXT: vpmovdw %ymm0, %xmm0
	; AVX512VLCD-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX512VLCD-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512VLCD-NEXT: vzeroupper			; AVX512VLCD-NEXT: vzeroupper
	; AVX512VLCD-NEXT: retq			; AVX512VLCD-NEXT: retq
	;			;
	; AVX512CD-LABEL: testv8i16u:			; AVX512CD-LABEL: testv8i16u:
	; AVX512CD: # %bb.0:			; AVX512CD: # %bb.0:
	; AVX512CD-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero			; AVX512CD-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CD-NEXT: vpmovdw %zmm0, %ymm0			; AVX512CD-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512CD-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX512CD-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512CD-NEXT: vzeroupper			; AVX512CD-NEXT: vzeroupper
	; AVX512CD-NEXT: retq			; AVX512CD-NEXT: retq
	;			;
	; X32-SSE-LABEL: testv8i16u:			; X32-SSE-LABEL: testv8i16u:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; X32-SSE-NEXT: movdqa %xmm2, %xmm3			; X32-SSE-NEXT: movdqa %xmm2, %xmm3
	; X32-SSE-NEXT: pshufb %xmm0, %xmm3			; X32-SSE-NEXT: pshufb %xmm0, %xmm3
	▲ Show 20 Lines • Show All 139 Lines • ▼ Show 20 Lines
	; AVX512VLBWDQ-NEXT: vpaddb %xmm0, %xmm2, %xmm0			; AVX512VLBWDQ-NEXT: vpaddb %xmm0, %xmm2, %xmm0
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; AVX512-LABEL: testv16i8:			; AVX512-LABEL: testv16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512-NEXT: vplzcntd %zmm0, %zmm0			; AVX512-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; X32-SSE-LABEL: testv16i8:			; X32-SSE-LABEL: testv16i8:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; X32-SSE-NEXT: movdqa %xmm1, %xmm2			; X32-SSE-NEXT: movdqa %xmm1, %xmm2
	; X32-SSE-NEXT: pshufb %xmm0, %xmm2			; X32-SSE-NEXT: pshufb %xmm0, %xmm2
	▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	; AVX512VLBWDQ-NEXT: vpaddb %xmm0, %xmm2, %xmm0			; AVX512VLBWDQ-NEXT: vpaddb %xmm0, %xmm2, %xmm0
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; AVX512-LABEL: testv16i8u:			; AVX512-LABEL: testv16i8u:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512-NEXT: vplzcntd %zmm0, %zmm0			; AVX512-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; X32-SSE-LABEL: testv16i8u:			; X32-SSE-LABEL: testv16i8u:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; X32-SSE-NEXT: movdqa %xmm1, %xmm2			; X32-SSE-NEXT: movdqa %xmm1, %xmm2
	; X32-SSE-NEXT: pshufb %xmm0, %xmm2			; X32-SSE-NEXT: pshufb %xmm0, %xmm2
	▲ Show 20 Lines • Show All 217 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-lzcnt-256.ll

	Show First 20 Lines • Show All 764 Lines • ▼ Show 20 Lines
	; AVX512VLBWDQ-NEXT: vpaddw %ymm0, %ymm1, %ymm0			; AVX512VLBWDQ-NEXT: vpaddw %ymm0, %ymm1, %ymm0
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; AVX512-LABEL: testv16i16:			; AVX512-LABEL: testv16i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512-NEXT: vplzcntd %zmm0, %zmm0			; AVX512-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512-NEXT: vpmovdw %zmm0, %ymm0			; AVX512-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512-NEXT: vpsubw {{.*}}(%rip), %ymm0, %ymm0			; AVX512-NEXT: vpaddw {{.*}}(%rip), %ymm0, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; X32-AVX-LABEL: testv16i16:			; X32-AVX-LABEL: testv16i16:
	; X32-AVX: # %bb.0:			; X32-AVX: # %bb.0:
	; X32-AVX-NEXT: vmovdqa {{.*#+}} ymm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; X32-AVX-NEXT: vmovdqa {{.*#+}} ymm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; X32-AVX-NEXT: vpshufb %ymm0, %ymm1, %ymm2			; X32-AVX-NEXT: vpshufb %ymm0, %ymm1, %ymm2
	; X32-AVX-NEXT: vpsrlw $4, %ymm0, %ymm3			; X32-AVX-NEXT: vpsrlw $4, %ymm0, %ymm3
	; X32-AVX-NEXT: vpand {{\.LCPI.*}}, %ymm3, %ymm3			; X32-AVX-NEXT: vpand {{\.LCPI.*}}, %ymm3, %ymm3
	▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines
	; AVX512VLBWDQ-NEXT: vpaddw %ymm0, %ymm1, %ymm0			; AVX512VLBWDQ-NEXT: vpaddw %ymm0, %ymm1, %ymm0
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; AVX512-LABEL: testv16i16u:			; AVX512-LABEL: testv16i16u:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512-NEXT: vplzcntd %zmm0, %zmm0			; AVX512-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512-NEXT: vpmovdw %zmm0, %ymm0			; AVX512-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512-NEXT: vpsubw {{.*}}(%rip), %ymm0, %ymm0			; AVX512-NEXT: vpaddw {{.*}}(%rip), %ymm0, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; X32-AVX-LABEL: testv16i16u:			; X32-AVX-LABEL: testv16i16u:
	; X32-AVX: # %bb.0:			; X32-AVX: # %bb.0:
	; X32-AVX-NEXT: vmovdqa {{.*#+}} ymm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; X32-AVX-NEXT: vmovdqa {{.*#+}} ymm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; X32-AVX-NEXT: vpshufb %ymm0, %ymm1, %ymm2			; X32-AVX-NEXT: vpshufb %ymm0, %ymm1, %ymm2
	; X32-AVX-NEXT: vpsrlw $4, %ymm0, %ymm3			; X32-AVX-NEXT: vpsrlw $4, %ymm0, %ymm3
	; X32-AVX-NEXT: vpand {{\.LCPI.*}}, %ymm3, %ymm3			; X32-AVX-NEXT: vpand {{\.LCPI.*}}, %ymm3, %ymm3
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; AVX512-LABEL: testv32i8:			; AVX512-LABEL: testv32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero
	; AVX512-NEXT: vplzcntd %zmm1, %zmm1			; AVX512-NEXT: vplzcntd %zmm1, %zmm1
	; AVX512-NEXT: vpmovdb %zmm1, %xmm1			; AVX512-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512-NEXT: vmovdqa {{.*#+}} xmm2 = [24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24]			; AVX512-NEXT: vmovdqa {{.*#+}} xmm2 = [232,232,232,232,232,232,232,232,232,232,232,232,232,232,232,232]
	; AVX512-NEXT: vpsubb %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vpaddb %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512-NEXT: vplzcntd %zmm0, %zmm0			; AVX512-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; X32-AVX-LABEL: testv32i8:			; X32-AVX-LABEL: testv32i8:
	; X32-AVX: # %bb.0:			; X32-AVX: # %bb.0:
	; X32-AVX-NEXT: vmovdqa {{.*#+}} ymm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; X32-AVX-NEXT: vmovdqa {{.*#+}} ymm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; X32-AVX-NEXT: vpshufb %ymm0, %ymm1, %ymm2			; X32-AVX-NEXT: vpshufb %ymm0, %ymm1, %ymm2
	; X32-AVX-NEXT: vpsrlw $4, %ymm0, %ymm0			; X32-AVX-NEXT: vpsrlw $4, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; AVX512VLBWDQ-NEXT: retq			; AVX512VLBWDQ-NEXT: retq
	;			;
	; AVX512-LABEL: testv32i8u:			; AVX512-LABEL: testv32i8u:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero
	; AVX512-NEXT: vplzcntd %zmm1, %zmm1			; AVX512-NEXT: vplzcntd %zmm1, %zmm1
	; AVX512-NEXT: vpmovdb %zmm1, %xmm1			; AVX512-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512-NEXT: vmovdqa {{.*#+}} xmm2 = [24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24]			; AVX512-NEXT: vmovdqa {{.*#+}} xmm2 = [232,232,232,232,232,232,232,232,232,232,232,232,232,232,232,232]
	; AVX512-NEXT: vpsubb %xmm2, %xmm1, %xmm1			; AVX512-NEXT: vpaddb %xmm2, %xmm1, %xmm1
	; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512-NEXT: vplzcntd %zmm0, %zmm0			; AVX512-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb %xmm2, %xmm0, %xmm0			; AVX512-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX512-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; X32-AVX-LABEL: testv32i8u:			; X32-AVX-LABEL: testv32i8u:
	; X32-AVX: # %bb.0:			; X32-AVX: # %bb.0:
	; X32-AVX-NEXT: vmovdqa {{.*#+}} ymm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; X32-AVX-NEXT: vmovdqa {{.*#+}} ymm1 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	; X32-AVX-NEXT: vpshufb %ymm0, %ymm1, %ymm2			; X32-AVX-NEXT: vpshufb %ymm0, %ymm1, %ymm2
	; X32-AVX-NEXT: vpsrlw $4, %ymm0, %ymm0			; X32-AVX-NEXT: vpsrlw $4, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 127 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-lzcnt-512.ll

	Show First 20 Lines • Show All 328 Lines • ▼ Show 20 Lines
	}			}

	define <32 x i16> @testv32i16(<32 x i16> %in) nounwind {			define <32 x i16> @testv32i16(<32 x i16> %in) nounwind {
	; AVX512CD-LABEL: testv32i16:			; AVX512CD-LABEL: testv32i16:
	; AVX512CD: # %bb.0:			; AVX512CD: # %bb.0:
	; AVX512CD-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512CD-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CD-NEXT: vpmovdw %zmm0, %ymm0			; AVX512CD-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512CD-NEXT: vmovdqa {{.*#+}} ymm2 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512CD-NEXT: vmovdqa {{.*#+}} ymm2 = [65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520]
	; AVX512CD-NEXT: vpsubw %ymm2, %ymm0, %ymm0			; AVX512CD-NEXT: vpaddw %ymm2, %ymm0, %ymm0
	; AVX512CD-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero			; AVX512CD-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero
	; AVX512CD-NEXT: vplzcntd %zmm1, %zmm1			; AVX512CD-NEXT: vplzcntd %zmm1, %zmm1
	; AVX512CD-NEXT: vpmovdw %zmm1, %ymm1			; AVX512CD-NEXT: vpmovdw %zmm1, %ymm1
	; AVX512CD-NEXT: vpsubw %ymm2, %ymm1, %ymm1			; AVX512CD-NEXT: vpaddw %ymm2, %ymm1, %ymm1
	; AVX512CD-NEXT: retq			; AVX512CD-NEXT: retq
	;			;
	; AVX512CDBW-LABEL: testv32i16:			; AVX512CDBW-LABEL: testv32i16:
	; AVX512CDBW: # %bb.0:			; AVX512CDBW: # %bb.0:
	; AVX512CDBW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512CDBW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512CDBW-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero			; AVX512CDBW-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero
	; AVX512CDBW-NEXT: vplzcntd %zmm1, %zmm1			; AVX512CDBW-NEXT: vplzcntd %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpmovdw %zmm1, %ymm1			; AVX512CDBW-NEXT: vpmovdw %zmm1, %ymm1
	; AVX512CDBW-NEXT: vmovdqa {{.*#+}} ymm2 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512CDBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520]
	; AVX512CDBW-NEXT: vpsubw %ymm2, %ymm1, %ymm1			; AVX512CDBW-NEXT: vpaddw %ymm2, %ymm1, %ymm1
	; AVX512CDBW-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512CDBW-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpmovdw %zmm0, %ymm0			; AVX512CDBW-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512CDBW-NEXT: vpsubw %ymm2, %ymm0, %ymm0			; AVX512CDBW-NEXT: vpaddw %ymm2, %ymm0, %ymm0
	; AVX512CDBW-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv32i16:			; AVX512BW-LABEL: testv32i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	}			}

	define <32 x i16> @testv32i16u(<32 x i16> %in) nounwind {			define <32 x i16> @testv32i16u(<32 x i16> %in) nounwind {
	; AVX512CD-LABEL: testv32i16u:			; AVX512CD-LABEL: testv32i16u:
	; AVX512CD: # %bb.0:			; AVX512CD: # %bb.0:
	; AVX512CD-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512CD-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CD-NEXT: vpmovdw %zmm0, %ymm0			; AVX512CD-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512CD-NEXT: vmovdqa {{.*#+}} ymm2 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512CD-NEXT: vmovdqa {{.*#+}} ymm2 = [65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520]
	; AVX512CD-NEXT: vpsubw %ymm2, %ymm0, %ymm0			; AVX512CD-NEXT: vpaddw %ymm2, %ymm0, %ymm0
	; AVX512CD-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero			; AVX512CD-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero
	; AVX512CD-NEXT: vplzcntd %zmm1, %zmm1			; AVX512CD-NEXT: vplzcntd %zmm1, %zmm1
	; AVX512CD-NEXT: vpmovdw %zmm1, %ymm1			; AVX512CD-NEXT: vpmovdw %zmm1, %ymm1
	; AVX512CD-NEXT: vpsubw %ymm2, %ymm1, %ymm1			; AVX512CD-NEXT: vpaddw %ymm2, %ymm1, %ymm1
	; AVX512CD-NEXT: retq			; AVX512CD-NEXT: retq
	;			;
	; AVX512CDBW-LABEL: testv32i16u:			; AVX512CDBW-LABEL: testv32i16u:
	; AVX512CDBW: # %bb.0:			; AVX512CDBW: # %bb.0:
	; AVX512CDBW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512CDBW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512CDBW-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero			; AVX512CDBW-NEXT: vpmovzxwd {{.*#+}} zmm1 = ymm1[0],zero,ymm1[1],zero,ymm1[2],zero,ymm1[3],zero,ymm1[4],zero,ymm1[5],zero,ymm1[6],zero,ymm1[7],zero,ymm1[8],zero,ymm1[9],zero,ymm1[10],zero,ymm1[11],zero,ymm1[12],zero,ymm1[13],zero,ymm1[14],zero,ymm1[15],zero
	; AVX512CDBW-NEXT: vplzcntd %zmm1, %zmm1			; AVX512CDBW-NEXT: vplzcntd %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpmovdw %zmm1, %ymm1			; AVX512CDBW-NEXT: vpmovdw %zmm1, %ymm1
	; AVX512CDBW-NEXT: vmovdqa {{.*#+}} ymm2 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512CDBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520,65520]
	; AVX512CDBW-NEXT: vpsubw %ymm2, %ymm1, %ymm1			; AVX512CDBW-NEXT: vpaddw %ymm2, %ymm1, %ymm1
	; AVX512CDBW-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512CDBW-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpmovdw %zmm0, %ymm0			; AVX512CDBW-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512CDBW-NEXT: vpsubw %ymm2, %ymm0, %ymm0			; AVX512CDBW-NEXT: vpaddw %ymm2, %ymm0, %ymm0
	; AVX512CDBW-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv32i16u:			; AVX512BW-LABEL: testv32i16u:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0,4,3,2,2,1,1,1,1,0,0,0,0,0,0,0,0]
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines

	define <64 x i8> @testv64i8(<64 x i8> %in) nounwind {			define <64 x i8> @testv64i8(<64 x i8> %in) nounwind {
	; AVX512CD-LABEL: testv64i8:			; AVX512CD-LABEL: testv64i8:
	; AVX512CD: # %bb.0:			; AVX512CD: # %bb.0:
	; AVX512CD-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX512CD-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero			; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero
	; AVX512CD-NEXT: vplzcntd %zmm2, %zmm2			; AVX512CD-NEXT: vplzcntd %zmm2, %zmm2
	; AVX512CD-NEXT: vpmovdb %zmm2, %xmm2			; AVX512CD-NEXT: vpmovdb %zmm2, %xmm2
	; AVX512CD-NEXT: vmovdqa {{.*#+}} xmm3 = [24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24]			; AVX512CD-NEXT: vmovdqa {{.*#+}} xmm3 = [232,232,232,232,232,232,232,232,232,232,232,232,232,232,232,232]
	; AVX512CD-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX512CD-NEXT: vpaddb %xmm3, %xmm2, %xmm2
	; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CD-NEXT: vpmovdb %zmm0, %xmm0			; AVX512CD-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512CD-NEXT: vpsubb %xmm3, %xmm0, %xmm0			; AVX512CD-NEXT: vpaddb %xmm3, %xmm0, %xmm0
	; AVX512CD-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX512CD-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX512CD-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX512CD-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero			; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero
	; AVX512CD-NEXT: vplzcntd %zmm2, %zmm2			; AVX512CD-NEXT: vplzcntd %zmm2, %zmm2
	; AVX512CD-NEXT: vpmovdb %zmm2, %xmm2			; AVX512CD-NEXT: vpmovdb %zmm2, %xmm2
	; AVX512CD-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX512CD-NEXT: vpaddb %xmm3, %xmm2, %xmm2
	; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero			; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero
	; AVX512CD-NEXT: vplzcntd %zmm1, %zmm1			; AVX512CD-NEXT: vplzcntd %zmm1, %zmm1
	; AVX512CD-NEXT: vpmovdb %zmm1, %xmm1			; AVX512CD-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512CD-NEXT: vpsubb %xmm3, %xmm1, %xmm1			; AVX512CD-NEXT: vpaddb %xmm3, %xmm1, %xmm1
	; AVX512CD-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; AVX512CD-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX512CD-NEXT: retq			; AVX512CD-NEXT: retq
	;			;
	; AVX512CDBW-LABEL: testv64i8:			; AVX512CDBW-LABEL: testv64i8:
	; AVX512CDBW: # %bb.0:			; AVX512CDBW: # %bb.0:
	; AVX512CDBW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512CDBW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512CDBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX512CDBW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero			; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero
	; AVX512CDBW-NEXT: vplzcntd %zmm2, %zmm2			; AVX512CDBW-NEXT: vplzcntd %zmm2, %zmm2
	; AVX512CDBW-NEXT: vpmovdb %zmm2, %xmm2			; AVX512CDBW-NEXT: vpmovdb %zmm2, %xmm2
	; AVX512CDBW-NEXT: vmovdqa {{.*#+}} xmm3 = [24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24]			; AVX512CDBW-NEXT: vmovdqa {{.*#+}} xmm3 = [232,232,232,232,232,232,232,232,232,232,232,232,232,232,232,232]
	; AVX512CDBW-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX512CDBW-NEXT: vpaddb %xmm3, %xmm2, %xmm2
	; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero			; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero
	; AVX512CDBW-NEXT: vplzcntd %zmm1, %zmm1			; AVX512CDBW-NEXT: vplzcntd %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpmovdb %zmm1, %xmm1			; AVX512CDBW-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512CDBW-NEXT: vpsubb %xmm3, %xmm1, %xmm1			; AVX512CDBW-NEXT: vpaddb %xmm3, %xmm1, %xmm1
	; AVX512CDBW-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; AVX512CDBW-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX512CDBW-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX512CDBW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero			; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero
	; AVX512CDBW-NEXT: vplzcntd %zmm2, %zmm2			; AVX512CDBW-NEXT: vplzcntd %zmm2, %zmm2
	; AVX512CDBW-NEXT: vpmovdb %zmm2, %xmm2			; AVX512CDBW-NEXT: vpmovdb %zmm2, %xmm2
	; AVX512CDBW-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX512CDBW-NEXT: vpaddb %xmm3, %xmm2, %xmm2
	; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpmovdb %zmm0, %xmm0			; AVX512CDBW-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512CDBW-NEXT: vpsubb %xmm3, %xmm0, %xmm0			; AVX512CDBW-NEXT: vpaddb %xmm3, %xmm0, %xmm0
	; AVX512CDBW-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX512CDBW-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX512CDBW-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv64i8:			; AVX512BW-LABEL: testv64i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
	Show All 32 Lines

	define <64 x i8> @testv64i8u(<64 x i8> %in) nounwind {			define <64 x i8> @testv64i8u(<64 x i8> %in) nounwind {
	; AVX512CD-LABEL: testv64i8u:			; AVX512CD-LABEL: testv64i8u:
	; AVX512CD: # %bb.0:			; AVX512CD: # %bb.0:
	; AVX512CD-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX512CD-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero			; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero
	; AVX512CD-NEXT: vplzcntd %zmm2, %zmm2			; AVX512CD-NEXT: vplzcntd %zmm2, %zmm2
	; AVX512CD-NEXT: vpmovdb %zmm2, %xmm2			; AVX512CD-NEXT: vpmovdb %zmm2, %xmm2
	; AVX512CD-NEXT: vmovdqa {{.*#+}} xmm3 = [24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24]			; AVX512CD-NEXT: vmovdqa {{.*#+}} xmm3 = [232,232,232,232,232,232,232,232,232,232,232,232,232,232,232,232]
	; AVX512CD-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX512CD-NEXT: vpaddb %xmm3, %xmm2, %xmm2
	; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CD-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CD-NEXT: vpmovdb %zmm0, %xmm0			; AVX512CD-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512CD-NEXT: vpsubb %xmm3, %xmm0, %xmm0			; AVX512CD-NEXT: vpaddb %xmm3, %xmm0, %xmm0
	; AVX512CD-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX512CD-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX512CD-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX512CD-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero			; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero
	; AVX512CD-NEXT: vplzcntd %zmm2, %zmm2			; AVX512CD-NEXT: vplzcntd %zmm2, %zmm2
	; AVX512CD-NEXT: vpmovdb %zmm2, %xmm2			; AVX512CD-NEXT: vpmovdb %zmm2, %xmm2
	; AVX512CD-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX512CD-NEXT: vpaddb %xmm3, %xmm2, %xmm2
	; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero			; AVX512CD-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero
	; AVX512CD-NEXT: vplzcntd %zmm1, %zmm1			; AVX512CD-NEXT: vplzcntd %zmm1, %zmm1
	; AVX512CD-NEXT: vpmovdb %zmm1, %xmm1			; AVX512CD-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512CD-NEXT: vpsubb %xmm3, %xmm1, %xmm1			; AVX512CD-NEXT: vpaddb %xmm3, %xmm1, %xmm1
	; AVX512CD-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; AVX512CD-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX512CD-NEXT: retq			; AVX512CD-NEXT: retq
	;			;
	; AVX512CDBW-LABEL: testv64i8u:			; AVX512CDBW-LABEL: testv64i8u:
	; AVX512CDBW: # %bb.0:			; AVX512CDBW: # %bb.0:
	; AVX512CDBW-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512CDBW-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512CDBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX512CDBW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero			; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero
	; AVX512CDBW-NEXT: vplzcntd %zmm2, %zmm2			; AVX512CDBW-NEXT: vplzcntd %zmm2, %zmm2
	; AVX512CDBW-NEXT: vpmovdb %zmm2, %xmm2			; AVX512CDBW-NEXT: vpmovdb %zmm2, %xmm2
	; AVX512CDBW-NEXT: vmovdqa {{.*#+}} xmm3 = [24,24,24,24,24,24,24,24,24,24,24,24,24,24,24,24]			; AVX512CDBW-NEXT: vmovdqa {{.*#+}} xmm3 = [232,232,232,232,232,232,232,232,232,232,232,232,232,232,232,232]
	; AVX512CDBW-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX512CDBW-NEXT: vpaddb %xmm3, %xmm2, %xmm2
	; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero			; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm1 = xmm1[0],zero,zero,zero,xmm1[1],zero,zero,zero,xmm1[2],zero,zero,zero,xmm1[3],zero,zero,zero,xmm1[4],zero,zero,zero,xmm1[5],zero,zero,zero,xmm1[6],zero,zero,zero,xmm1[7],zero,zero,zero,xmm1[8],zero,zero,zero,xmm1[9],zero,zero,zero,xmm1[10],zero,zero,zero,xmm1[11],zero,zero,zero,xmm1[12],zero,zero,zero,xmm1[13],zero,zero,zero,xmm1[14],zero,zero,zero,xmm1[15],zero,zero,zero
	; AVX512CDBW-NEXT: vplzcntd %zmm1, %zmm1			; AVX512CDBW-NEXT: vplzcntd %zmm1, %zmm1
	; AVX512CDBW-NEXT: vpmovdb %zmm1, %xmm1			; AVX512CDBW-NEXT: vpmovdb %zmm1, %xmm1
	; AVX512CDBW-NEXT: vpsubb %xmm3, %xmm1, %xmm1			; AVX512CDBW-NEXT: vpaddb %xmm3, %xmm1, %xmm1
	; AVX512CDBW-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1			; AVX512CDBW-NEXT: vinserti128 $1, %xmm2, %ymm1, %ymm1
	; AVX512CDBW-NEXT: vextracti128 $1, %ymm0, %xmm2			; AVX512CDBW-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero			; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm2 = xmm2[0],zero,zero,zero,xmm2[1],zero,zero,zero,xmm2[2],zero,zero,zero,xmm2[3],zero,zero,zero,xmm2[4],zero,zero,zero,xmm2[5],zero,zero,zero,xmm2[6],zero,zero,zero,xmm2[7],zero,zero,zero,xmm2[8],zero,zero,zero,xmm2[9],zero,zero,zero,xmm2[10],zero,zero,zero,xmm2[11],zero,zero,zero,xmm2[12],zero,zero,zero,xmm2[13],zero,zero,zero,xmm2[14],zero,zero,zero,xmm2[15],zero,zero,zero
	; AVX512CDBW-NEXT: vplzcntd %zmm2, %zmm2			; AVX512CDBW-NEXT: vplzcntd %zmm2, %zmm2
	; AVX512CDBW-NEXT: vpmovdb %zmm2, %xmm2			; AVX512CDBW-NEXT: vpmovdb %zmm2, %xmm2
	; AVX512CDBW-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX512CDBW-NEXT: vpaddb %xmm3, %xmm2, %xmm2
	; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512CDBW-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0			; AVX512CDBW-NEXT: vplzcntd %zmm0, %zmm0
	; AVX512CDBW-NEXT: vpmovdb %zmm0, %xmm0			; AVX512CDBW-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512CDBW-NEXT: vpsubb %xmm3, %xmm0, %xmm0			; AVX512CDBW-NEXT: vpaddb %xmm3, %xmm0, %xmm0
	; AVX512CDBW-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0			; AVX512CDBW-NEXT: vinserti128 $1, %xmm2, %ymm0, %ymm0
	; AVX512CDBW-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512CDBW-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512CDBW-NEXT: retq			; AVX512CDBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: testv64i8u:			; AVX512BW-LABEL: testv64i8u:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
	Show All 37 Lines

test/CodeGen/X86/vector-shift-ashr-128.ll

Show First 20 Lines • Show All 929 Lines • ▼ Show 20 Lines

define <2 x i64> @constant_shift_v2i64(<2 x i64> %a) nounwind {		define <2 x i64> @constant_shift_v2i64(<2 x i64> %a) nounwind {
; SSE2-LABEL: constant_shift_v2i64:		; SSE2-LABEL: constant_shift_v2i64:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa %xmm0, %xmm1		; SSE2-NEXT: movdqa %xmm0, %xmm1
; SSE2-NEXT: psrlq $1, %xmm1		; SSE2-NEXT: psrlq $1, %xmm1
; SSE2-NEXT: psrlq $7, %xmm0		; SSE2-NEXT: psrlq $7, %xmm0
; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]		; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
; SSE2-NEXT: movapd {{.*#+}} xmm1 = [4611686018427387904,72057594037927936]		; SSE2-NEXT: xorpd {{.*}}(%rip), %xmm0
; SSE2-NEXT: xorpd %xmm1, %xmm0		; SSE2-NEXT: paddq {{.*}}(%rip), %xmm0
; SSE2-NEXT: psubq %xmm1, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: constant_shift_v2i64:		; SSE41-LABEL: constant_shift_v2i64:
; SSE41: # %bb.0:		; SSE41: # %bb.0:
; SSE41-NEXT: movdqa %xmm0, %xmm1		; SSE41-NEXT: movdqa %xmm0, %xmm1
; SSE41-NEXT: psrlq $7, %xmm1		; SSE41-NEXT: psrlq $7, %xmm1
; SSE41-NEXT: psrlq $1, %xmm0		; SSE41-NEXT: psrlq $1, %xmm0
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [4611686018427387904,72057594037927936]		; SSE41-NEXT: pxor {{.*}}(%rip), %xmm0
; SSE41-NEXT: pxor %xmm1, %xmm0		; SSE41-NEXT: paddq {{.*}}(%rip), %xmm0
; SSE41-NEXT: psubq %xmm1, %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX1-LABEL: constant_shift_v2i64:		; AVX1-LABEL: constant_shift_v2i64:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpsrlq $7, %xmm0, %xmm1		; AVX1-NEXT: vpsrlq $7, %xmm0, %xmm1
; AVX1-NEXT: vpsrlq $1, %xmm0, %xmm0		; AVX1-NEXT: vpsrlq $1, %xmm0, %xmm0
; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]		; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [4611686018427387904,72057594037927936]		; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: constant_shift_v2i64:		; AVX2-LABEL: constant_shift_v2i64:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm0, %xmm0		; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm0, %xmm0
; AVX2-NEXT: vmovdqa {{.*#+}} xmm1 = [4611686018427387904,72057594037927936]		; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; XOP-LABEL: constant_shift_v2i64:		; XOP-LABEL: constant_shift_v2i64:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0		; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; AVX512-LABEL: constant_shift_v2i64:		; AVX512-LABEL: constant_shift_v2i64:
▲ Show 20 Lines • Show All 429 Lines • ▼ Show 20 Lines	; X32-SSE-NEXT: retl
ret <8 x i16> %shift		ret <8 x i16> %shift
}		}

define <16 x i8> @splatconstant_shift_v16i8(<16 x i8> %a) nounwind {		define <16 x i8> @splatconstant_shift_v16i8(<16 x i8> %a) nounwind {
; SSE-LABEL: splatconstant_shift_v16i8:		; SSE-LABEL: splatconstant_shift_v16i8:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: psrlw $3, %xmm0		; SSE-NEXT: psrlw $3, %xmm0
; SSE-NEXT: pand {{.*}}(%rip), %xmm0		; SSE-NEXT: pand {{.*}}(%rip), %xmm0
; SSE-NEXT: movdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; SSE-NEXT: pxor {{.*}}(%rip), %xmm0
; SSE-NEXT: pxor %xmm1, %xmm0		; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
; SSE-NEXT: psubb %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: splatconstant_shift_v16i8:		; AVX-LABEL: splatconstant_shift_v16i8:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; XOP-LABEL: splatconstant_shift_v16i8:		; XOP-LABEL: splatconstant_shift_v16i8:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vpshab {{.*}}(%rip), %xmm0, %xmm0		; XOP-NEXT: vpshab {{.*}}(%rip), %xmm0, %xmm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; AVX512-LABEL: splatconstant_shift_v16i8:		; AVX512-LABEL: splatconstant_shift_v16i8:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX512-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
;		;
; AVX512VL-LABEL: splatconstant_shift_v16i8:		; AVX512VL-LABEL: splatconstant_shift_v16i8:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX512VL-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX512VL-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX512VL-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; X32-SSE-LABEL: splatconstant_shift_v16i8:		; X32-SSE-LABEL: splatconstant_shift_v16i8:
; X32-SSE: # %bb.0:		; X32-SSE: # %bb.0:
; X32-SSE-NEXT: psrlw $3, %xmm0		; X32-SSE-NEXT: psrlw $3, %xmm0
; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0		; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; X32-SSE-NEXT: pxor {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: pxor %xmm1, %xmm0		; X32-SSE-NEXT: paddb {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: psubb %xmm1, %xmm0
; X32-SSE-NEXT: retl		; X32-SSE-NEXT: retl
%shift = ashr <16 x i8> %a, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>		%shift = ashr <16 x i8> %a, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>
ret <16 x i8> %shift		ret <16 x i8> %shift
}		}

test/CodeGen/X86/vector-shift-ashr-256.ll

	Show First 20 Lines • Show All 1,006 Lines • ▼ Show 20 Lines

	;			;
	; Constant Shifts			; Constant Shifts
	;			;

	define <4 x i64> @constant_shift_v4i64(<4 x i64> %a) nounwind {			define <4 x i64> @constant_shift_v4i64(<4 x i64> %a) nounwind {
	; AVX1-LABEL: constant_shift_v4i64:			; AVX1-LABEL: constant_shift_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vpsrlq $7, %xmm0, %xmm1
	; AVX1-NEXT: vpsrlq $62, %xmm1, %xmm2			; AVX1-NEXT: vpsrlq $1, %xmm0, %xmm2
	; AVX1-NEXT: vpsrlq $31, %xmm1, %xmm1			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm2[4,5,6,7]			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [4294967296,2]			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpsubq %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpsrlq $62, %xmm0, %xmm2
	; AVX1-NEXT: vpsrlq $7, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $31, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlq $1, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [4611686018427387904,72057594037927936]			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpsubq %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_shift_v4i64:			; AVX2-LABEL: constant_shift_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [4611686018427387904,72057594037927936,4294967296,2]			; AVX2-NEXT: vpxor {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: constant_shift_v4i64:			; XOPAVX1-LABEL: constant_shift_v4i64:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm1			; XOPAVX1-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm1
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOPAVX1-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0			; XOPAVX1-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: constant_shift_v4i64:			; XOPAVX2-LABEL: constant_shift_v4i64:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpsrlvq {{.*}}(%rip), %ymm0, %ymm0			; XOPAVX2-NEXT: vpsrlvq {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [4611686018427387904,72057594037927936,4294967296,2]			; XOPAVX2-NEXT: vpxor {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; XOPAVX2-NEXT: vpaddq {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	;			;
	; AVX512-LABEL: constant_shift_v4i64:			; AVX512-LABEL: constant_shift_v4i64:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512-NEXT: vmovdqa {{.*#+}} ymm1 = [1,7,31,62]			; AVX512-NEXT: vmovdqa {{.*#+}} ymm1 = [1,7,31,62]
	; AVX512-NEXT: vpsravq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpsravq %zmm1, %zmm0, %zmm0
	; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0			; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
	▲ Show 20 Lines • Show All 519 Lines • ▼ Show 20 Lines
	; AVX1-LABEL: splatconstant_shift_v32i8:			; AVX1-LABEL: splatconstant_shift_v32i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpsrlw $3, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $3, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31]
	; AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
				; AVX1-NEXT: vpaddb %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $3, %xmm0, %xmm0			; AVX1-NEXT: vpsrlw $3, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: splatconstant_shift_v32i8:			; AVX2-LABEL: splatconstant_shift_v32i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsrlw $3, %ymm0, %ymm0			; AVX2-NEXT: vpsrlw $3, %ymm0, %ymm0
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX2-NEXT: vpxor {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpaddb {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatconstant_shift_v32i8:			; XOPAVX1-LABEL: splatconstant_shift_v32i8:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253]			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [253,253,253,253,253,253,253,253,253,253,253,253,253,253,253,253]
	; XOPAVX1-NEXT: vpshab %xmm2, %xmm1, %xmm1			; XOPAVX1-NEXT: vpshab %xmm2, %xmm1, %xmm1
	; XOPAVX1-NEXT: vpshab %xmm2, %xmm0, %xmm0			; XOPAVX1-NEXT: vpshab %xmm2, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; XOPAVX1-NEXT: retq			; XOPAVX1-NEXT: retq
	;			;
	; XOPAVX2-LABEL: splatconstant_shift_v32i8:			; XOPAVX2-LABEL: splatconstant_shift_v32i8:
	; XOPAVX2: # %bb.0:			; XOPAVX2: # %bb.0:
	; XOPAVX2-NEXT: vpsrlw $3, %ymm0, %ymm0			; XOPAVX2-NEXT: vpsrlw $3, %ymm0, %ymm0
	; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; XOPAVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; XOPAVX2-NEXT: vpxor {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; XOPAVX2-NEXT: vpaddb {{.*}}(%rip), %ymm0, %ymm0
	; XOPAVX2-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; XOPAVX2-NEXT: retq			; XOPAVX2-NEXT: retq
	;			;
	; AVX512-LABEL: splatconstant_shift_v32i8:			; AVX512-LABEL: splatconstant_shift_v32i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpsrlw $3, %ymm0, %ymm0			; AVX512-NEXT: vpsrlw $3, %ymm0, %ymm0
	; AVX512-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX512-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX512-NEXT: vmovdqa {{.*#+}} ymm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512-NEXT: vpxor {{.*}}(%rip), %ymm0, %ymm0
	; AVX512-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512-NEXT: vpaddb {{.*}}(%rip), %ymm0, %ymm0
	; AVX512-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; AVX512VL-LABEL: splatconstant_shift_v32i8:			; AVX512VL-LABEL: splatconstant_shift_v32i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpsrlw $3, %ymm0, %ymm0			; AVX512VL-NEXT: vpsrlw $3, %ymm0, %ymm0
	; AVX512VL-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX512VL-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512VL-NEXT: vpxor {{.*}}(%rip), %ymm0, %ymm0
	; AVX512VL-NEXT: vpxor %ymm1, %ymm0, %ymm0			; AVX512VL-NEXT: vpaddb {{.*}}(%rip), %ymm0, %ymm0
	; AVX512VL-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-AVX1-LABEL: splatconstant_shift_v32i8:			; X32-AVX1-LABEL: splatconstant_shift_v32i8:
	; X32-AVX1: # %bb.0:			; X32-AVX1: # %bb.0:
	; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; X32-AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; X32-AVX1-NEXT: vpsrlw $3, %xmm1, %xmm1			; X32-AVX1-NEXT: vpsrlw $3, %xmm1, %xmm1
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31]
	; X32-AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1			; X32-AVX1-NEXT: vpand %xmm2, %xmm1, %xmm1
	; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; X32-AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1			; X32-AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1
	; X32-AVX1-NEXT: vpsubb %xmm3, %xmm1, %xmm1			; X32-AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
				; X32-AVX1-NEXT: vpaddb %xmm4, %xmm1, %xmm1
	; X32-AVX1-NEXT: vpsrlw $3, %xmm0, %xmm0			; X32-AVX1-NEXT: vpsrlw $3, %xmm0, %xmm0
	; X32-AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0			; X32-AVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; X32-AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0			; X32-AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0
	; X32-AVX1-NEXT: vpsubb %xmm3, %xmm0, %xmm0			; X32-AVX1-NEXT: vpaddb %xmm4, %xmm0, %xmm0
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; X32-AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; X32-AVX1-NEXT: retl			; X32-AVX1-NEXT: retl
	;			;
	; X32-AVX2-LABEL: splatconstant_shift_v32i8:			; X32-AVX2-LABEL: splatconstant_shift_v32i8:
	; X32-AVX2: # %bb.0:			; X32-AVX2: # %bb.0:
	; X32-AVX2-NEXT: vpsrlw $3, %ymm0, %ymm0			; X32-AVX2-NEXT: vpsrlw $3, %ymm0, %ymm0
	; X32-AVX2-NEXT: vpand {{\.LCPI.*}}, %ymm0, %ymm0			; X32-AVX2-NEXT: vpand {{\.LCPI.*}}, %ymm0, %ymm0
	; X32-AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; X32-AVX2-NEXT: vpxor {{\.LCPI.*}}, %ymm0, %ymm0
	; X32-AVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0			; X32-AVX2-NEXT: vpaddb {{\.LCPI.*}}, %ymm0, %ymm0
	; X32-AVX2-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; X32-AVX2-NEXT: retl			; X32-AVX2-NEXT: retl
	%shift = ashr <32 x i8> %a, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>			%shift = ashr <32 x i8> %a, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>
	ret <32 x i8> %shift			ret <32 x i8> %shift
	}			}

test/CodeGen/X86/vector-shift-ashr-512.ll

	Show First 20 Lines • Show All 341 Lines • ▼ Show 20 Lines
	define <64 x i8> @splatconstant_shift_v64i8(<64 x i8> %a) nounwind {			define <64 x i8> @splatconstant_shift_v64i8(<64 x i8> %a) nounwind {
	; AVX512DQ-LABEL: splatconstant_shift_v64i8:			; AVX512DQ-LABEL: splatconstant_shift_v64i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpsrlw $3, %ymm0, %ymm0			; AVX512DQ-NEXT: vpsrlw $3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm2 = [31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31]			; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm2 = [31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31,31]
	; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0			; AVX512DQ-NEXT: vpand %ymm2, %ymm0, %ymm0
	; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm3 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]
	; AVX512DQ-NEXT: vpxor %ymm3, %ymm0, %ymm0			; AVX512DQ-NEXT: vpxor %ymm3, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpsubb %ymm3, %ymm0, %ymm0			; AVX512DQ-NEXT: vmovdqa {{.*#+}} ymm4 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
				; AVX512DQ-NEXT: vpaddb %ymm4, %ymm0, %ymm0
	; AVX512DQ-NEXT: vpsrlw $3, %ymm1, %ymm1			; AVX512DQ-NEXT: vpsrlw $3, %ymm1, %ymm1
	; AVX512DQ-NEXT: vpand %ymm2, %ymm1, %ymm1			; AVX512DQ-NEXT: vpand %ymm2, %ymm1, %ymm1
	; AVX512DQ-NEXT: vpxor %ymm3, %ymm1, %ymm1			; AVX512DQ-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; AVX512DQ-NEXT: vpsubb %ymm3, %ymm1, %ymm1			; AVX512DQ-NEXT: vpaddb %ymm4, %ymm1, %ymm1
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	;			;
	; AVX512BW-LABEL: splatconstant_shift_v64i8:			; AVX512BW-LABEL: splatconstant_shift_v64i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsrlw $3, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $3, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]			; AVX512BW-NEXT: vpxorq {{.*}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: vpxorq %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb {{.*}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: vpsubb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%shift = ashr <64 x i8> %a, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>			%shift = ashr <64 x i8> %a, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>
	ret <64 x i8> %shift			ret <64 x i8> %shift
	}			}

	define <64 x i8> @ashr_const7_v64i8(<64 x i8> %a) {			define <64 x i8> @ashr_const7_v64i8(<64 x i8> %a) {
	; AVX512DQ-LABEL: ashr_const7_v64i8:			; AVX512DQ-LABEL: ashr_const7_v64i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	Show All 13 Lines

test/CodeGen/X86/vector-shift-ashr-sub128-widen.ll

Show First 20 Lines • Show All 2,317 Lines • ▼ Show 20 Lines	; X32-SSE-NEXT: retl
ret <2 x i16> %shift		ret <2 x i16> %shift
}		}

define <8 x i8> @splatconstant_shift_v8i8(<8 x i8> %a) nounwind {		define <8 x i8> @splatconstant_shift_v8i8(<8 x i8> %a) nounwind {
; SSE-LABEL: splatconstant_shift_v8i8:		; SSE-LABEL: splatconstant_shift_v8i8:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: psrlw $3, %xmm0		; SSE-NEXT: psrlw $3, %xmm0
; SSE-NEXT: pand {{.*}}(%rip), %xmm0		; SSE-NEXT: pand {{.*}}(%rip), %xmm0
; SSE-NEXT: movdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; SSE-NEXT: pxor {{.*}}(%rip), %xmm0
; SSE-NEXT: pxor %xmm1, %xmm0		; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
; SSE-NEXT: psubb %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: splatconstant_shift_v8i8:		; AVX-LABEL: splatconstant_shift_v8i8:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; XOP-LABEL: splatconstant_shift_v8i8:		; XOP-LABEL: splatconstant_shift_v8i8:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vpshab {{.*}}(%rip), %xmm0, %xmm0		; XOP-NEXT: vpshab {{.*}}(%rip), %xmm0, %xmm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; AVX512-LABEL: splatconstant_shift_v8i8:		; AVX512-LABEL: splatconstant_shift_v8i8:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX512-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
;		;
; AVX512VL-LABEL: splatconstant_shift_v8i8:		; AVX512VL-LABEL: splatconstant_shift_v8i8:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX512VL-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX512VL-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX512VL-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; X32-SSE-LABEL: splatconstant_shift_v8i8:		; X32-SSE-LABEL: splatconstant_shift_v8i8:
; X32-SSE: # %bb.0:		; X32-SSE: # %bb.0:
; X32-SSE-NEXT: psrlw $3, %xmm0		; X32-SSE-NEXT: psrlw $3, %xmm0
; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0		; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; X32-SSE-NEXT: pxor {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: pxor %xmm1, %xmm0		; X32-SSE-NEXT: paddb {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: psubb %xmm1, %xmm0
; X32-SSE-NEXT: retl		; X32-SSE-NEXT: retl
%shift = ashr <8 x i8> %a, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>		%shift = ashr <8 x i8> %a, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>
ret <8 x i8> %shift		ret <8 x i8> %shift
}		}

define <4 x i8> @splatconstant_shift_v4i8(<4 x i8> %a) nounwind {		define <4 x i8> @splatconstant_shift_v4i8(<4 x i8> %a) nounwind {
; SSE-LABEL: splatconstant_shift_v4i8:		; SSE-LABEL: splatconstant_shift_v4i8:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: psrlw $3, %xmm0		; SSE-NEXT: psrlw $3, %xmm0
; SSE-NEXT: pand {{.*}}(%rip), %xmm0		; SSE-NEXT: pand {{.*}}(%rip), %xmm0
; SSE-NEXT: movdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; SSE-NEXT: pxor {{.*}}(%rip), %xmm0
; SSE-NEXT: pxor %xmm1, %xmm0		; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
; SSE-NEXT: psubb %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: splatconstant_shift_v4i8:		; AVX-LABEL: splatconstant_shift_v4i8:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; XOP-LABEL: splatconstant_shift_v4i8:		; XOP-LABEL: splatconstant_shift_v4i8:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vpshab {{.*}}(%rip), %xmm0, %xmm0		; XOP-NEXT: vpshab {{.*}}(%rip), %xmm0, %xmm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; AVX512-LABEL: splatconstant_shift_v4i8:		; AVX512-LABEL: splatconstant_shift_v4i8:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX512-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
;		;
; AVX512VL-LABEL: splatconstant_shift_v4i8:		; AVX512VL-LABEL: splatconstant_shift_v4i8:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX512VL-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX512VL-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX512VL-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; X32-SSE-LABEL: splatconstant_shift_v4i8:		; X32-SSE-LABEL: splatconstant_shift_v4i8:
; X32-SSE: # %bb.0:		; X32-SSE: # %bb.0:
; X32-SSE-NEXT: psrlw $3, %xmm0		; X32-SSE-NEXT: psrlw $3, %xmm0
; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0		; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; X32-SSE-NEXT: pxor {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: pxor %xmm1, %xmm0		; X32-SSE-NEXT: paddb {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: psubb %xmm1, %xmm0
; X32-SSE-NEXT: retl		; X32-SSE-NEXT: retl
%shift = ashr <4 x i8> %a, <i8 3, i8 3, i8 3, i8 3>		%shift = ashr <4 x i8> %a, <i8 3, i8 3, i8 3, i8 3>
ret <4 x i8> %shift		ret <4 x i8> %shift
}		}

define <2 x i8> @splatconstant_shift_v2i8(<2 x i8> %a) nounwind {		define <2 x i8> @splatconstant_shift_v2i8(<2 x i8> %a) nounwind {
; SSE-LABEL: splatconstant_shift_v2i8:		; SSE-LABEL: splatconstant_shift_v2i8:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: psrlw $3, %xmm0		; SSE-NEXT: psrlw $3, %xmm0
; SSE-NEXT: pand {{.*}}(%rip), %xmm0		; SSE-NEXT: pand {{.*}}(%rip), %xmm0
; SSE-NEXT: movdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; SSE-NEXT: pxor {{.*}}(%rip), %xmm0
; SSE-NEXT: pxor %xmm1, %xmm0		; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
; SSE-NEXT: psubb %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: splatconstant_shift_v2i8:		; AVX-LABEL: splatconstant_shift_v2i8:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; XOP-LABEL: splatconstant_shift_v2i8:		; XOP-LABEL: splatconstant_shift_v2i8:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vpshab {{.*}}(%rip), %xmm0, %xmm0		; XOP-NEXT: vpshab {{.*}}(%rip), %xmm0, %xmm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; AVX512-LABEL: splatconstant_shift_v2i8:		; AVX512-LABEL: splatconstant_shift_v2i8:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX512-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX512-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX512-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX512-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
;		;
; AVX512VL-LABEL: splatconstant_shift_v2i8:		; AVX512VL-LABEL: splatconstant_shift_v2i8:
; AVX512VL: # %bb.0:		; AVX512VL: # %bb.0:
; AVX512VL-NEXT: vpsrlw $3, %xmm0, %xmm0		; AVX512VL-NEXT: vpsrlw $3, %xmm0, %xmm0
; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vmovdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; AVX512VL-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vpxor %xmm1, %xmm0, %xmm0		; AVX512VL-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; AVX512VL-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; AVX512VL-NEXT: retq		; AVX512VL-NEXT: retq
;		;
; X32-SSE-LABEL: splatconstant_shift_v2i8:		; X32-SSE-LABEL: splatconstant_shift_v2i8:
; X32-SSE: # %bb.0:		; X32-SSE: # %bb.0:
; X32-SSE-NEXT: psrlw $3, %xmm0		; X32-SSE-NEXT: psrlw $3, %xmm0
; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0		; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; X32-SSE-NEXT: pxor {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: pxor %xmm1, %xmm0		; X32-SSE-NEXT: paddb {{\.LCPI.*}}, %xmm0
; X32-SSE-NEXT: psubb %xmm1, %xmm0
; X32-SSE-NEXT: retl		; X32-SSE-NEXT: retl
%shift = ashr <2 x i8> %a, <i8 3, i8 3>		%shift = ashr <2 x i8> %a, <i8 3, i8 3>
ret <2 x i8> %shift		ret <2 x i8> %shift
}		}

test/CodeGen/X86/vector-shift-ashr-sub128.ll

	Show First 20 Lines • Show All 1,883 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,3,2,3]
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: psrlq $4, %xmm0			; SSE2-NEXT: psrlq $4, %xmm0
	; SSE2-NEXT: psrlq $5, %xmm1			; SSE2-NEXT: psrlq $5, %xmm1
	; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm0[0],xmm1[1]			; SSE2-NEXT: movsd {{.*#+}} xmm1 = xmm0[0],xmm1[1]
	; SSE2-NEXT: movapd {{.*#+}} xmm0 = [576460752303423488,288230376151711744]			; SSE2-NEXT: xorpd {{.*}}(%rip), %xmm1
	; SSE2-NEXT: xorpd %xmm0, %xmm1			; SSE2-NEXT: paddq {{.*}}(%rip), %xmm1
	; SSE2-NEXT: psubq %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: constant_shift_v2i32:			; SSE41-LABEL: constant_shift_v2i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psllq $32, %xmm1			; SSE41-NEXT: psllq $32, %xmm1
	; SSE41-NEXT: psrad $31, %xmm1			; SSE41-NEXT: psrad $31, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: psrlq $5, %xmm0			; SSE41-NEXT: psrlq $5, %xmm0
	; SSE41-NEXT: psrlq $4, %xmm1			; SSE41-NEXT: psrlq $4, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm0[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm0[4,5,6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [576460752303423488,288230376151711744]			; SSE41-NEXT: pxor {{.*}}(%rip), %xmm1
	; SSE41-NEXT: pxor %xmm0, %xmm1			; SSE41-NEXT: paddq {{.*}}(%rip), %xmm1
	; SSE41-NEXT: psubq %xmm0, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: constant_shift_v2i32:			; AVX1-LABEL: constant_shift_v2i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm1			; AVX1-NEXT: vpsllq $32, %xmm0, %xmm1
	; AVX1-NEXT: vpsrad $31, %xmm1, %xmm1			; AVX1-NEXT: vpsrad $31, %xmm1, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; AVX1-NEXT: vpsrlq $5, %xmm0, %xmm1			; AVX1-NEXT: vpsrlq $5, %xmm0, %xmm1
	; AVX1-NEXT: vpsrlq $4, %xmm0, %xmm0			; AVX1-NEXT: vpsrlq $4, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [576460752303423488,288230376151711744]			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_shift_v2i32:			; AVX2-LABEL: constant_shift_v2i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllq $32, %xmm0, %xmm1			; AVX2-NEXT: vpsllq $32, %xmm0, %xmm1
	; AVX2-NEXT: vpsrad $31, %xmm1, %xmm1			; AVX2-NEXT: vpsrad $31, %xmm1, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
	; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm1 = [576460752303423488,288230376151711744]			; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: constant_shift_v2i32:			; XOP-LABEL: constant_shift_v2i32:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpsllq $32, %xmm0, %xmm0			; XOP-NEXT: vpsllq $32, %xmm0, %xmm0
	; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	▲ Show 20 Lines • Show All 142 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
	; SSE2-NEXT: psrad $16, %xmm0			; SSE2-NEXT: psrad $16, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psrlq $2, %xmm1			; SSE2-NEXT: psrlq $2, %xmm1
	; SSE2-NEXT: psrlq $3, %xmm0			; SSE2-NEXT: psrlq $3, %xmm0
	; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; SSE2-NEXT: movapd {{.*#+}} xmm1 = [2305843009213693952,1152921504606846976]			; SSE2-NEXT: xorpd {{.*}}(%rip), %xmm0
	; SSE2-NEXT: xorpd %xmm1, %xmm0			; SSE2-NEXT: paddq {{.*}}(%rip), %xmm0
	; SSE2-NEXT: psubq %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: constant_shift_v2i16:			; SSE41-LABEL: constant_shift_v2i16:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: psllq $48, %xmm0			; SSE41-NEXT: psllq $48, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psrad $31, %xmm1			; SSE41-NEXT: psrad $31, %xmm1
	; SSE41-NEXT: psrad $16, %xmm0			; SSE41-NEXT: psrad $16, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psrlq $3, %xmm1			; SSE41-NEXT: psrlq $3, %xmm1
	; SSE41-NEXT: psrlq $2, %xmm0			; SSE41-NEXT: psrlq $2, %xmm0
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [2305843009213693952,1152921504606846976]			; SSE41-NEXT: pxor {{.*}}(%rip), %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: paddq {{.*}}(%rip), %xmm0
	; SSE41-NEXT: psubq %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: constant_shift_v2i16:			; AVX1-LABEL: constant_shift_v2i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $48, %xmm0, %xmm0			; AVX1-NEXT: vpsllq $48, %xmm0, %xmm0
	; AVX1-NEXT: vpsrad $31, %xmm0, %xmm1			; AVX1-NEXT: vpsrad $31, %xmm0, %xmm1
	; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0			; AVX1-NEXT: vpsrad $16, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; AVX1-NEXT: vpsrlq $3, %xmm0, %xmm1			; AVX1-NEXT: vpsrlq $3, %xmm0, %xmm1
	; AVX1-NEXT: vpsrlq $2, %xmm0, %xmm0			; AVX1-NEXT: vpsrlq $2, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [2305843009213693952,1152921504606846976]			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_shift_v2i16:			; AVX2-LABEL: constant_shift_v2i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllq $48, %xmm0, %xmm0			; AVX2-NEXT: vpsllq $48, %xmm0, %xmm0
	; AVX2-NEXT: vpsrad $31, %xmm0, %xmm1			; AVX2-NEXT: vpsrad $31, %xmm0, %xmm1
	; AVX2-NEXT: vpsrad $16, %xmm0, %xmm0			; AVX2-NEXT: vpsrad $16, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
	; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm1 = [2305843009213693952,1152921504606846976]			; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: constant_shift_v2i16:			; XOP-LABEL: constant_shift_v2i16:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpsllq $48, %xmm0, %xmm0			; XOP-NEXT: vpsllq $48, %xmm0, %xmm0
	; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	▲ Show 20 Lines • Show All 254 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
	; SSE2-NEXT: psrad $24, %xmm0			; SSE2-NEXT: psrad $24, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psrlq $2, %xmm1			; SSE2-NEXT: psrlq $2, %xmm1
	; SSE2-NEXT: psrlq $3, %xmm0			; SSE2-NEXT: psrlq $3, %xmm0
	; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; SSE2-NEXT: movapd {{.*#+}} xmm1 = [2305843009213693952,1152921504606846976]			; SSE2-NEXT: xorpd {{.*}}(%rip), %xmm0
	; SSE2-NEXT: xorpd %xmm1, %xmm0			; SSE2-NEXT: paddq {{.*}}(%rip), %xmm0
	; SSE2-NEXT: psubq %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: constant_shift_v2i8:			; SSE41-LABEL: constant_shift_v2i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: psllq $56, %xmm0			; SSE41-NEXT: psllq $56, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psrad $31, %xmm1			; SSE41-NEXT: psrad $31, %xmm1
	; SSE41-NEXT: psrad $24, %xmm0			; SSE41-NEXT: psrad $24, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psrlq $3, %xmm1			; SSE41-NEXT: psrlq $3, %xmm1
	; SSE41-NEXT: psrlq $2, %xmm0			; SSE41-NEXT: psrlq $2, %xmm0
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [2305843009213693952,1152921504606846976]			; SSE41-NEXT: pxor {{.*}}(%rip), %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: paddq {{.*}}(%rip), %xmm0
	; SSE41-NEXT: psubq %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: constant_shift_v2i8:			; AVX1-LABEL: constant_shift_v2i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $56, %xmm0, %xmm0			; AVX1-NEXT: vpsllq $56, %xmm0, %xmm0
	; AVX1-NEXT: vpsrad $31, %xmm0, %xmm1			; AVX1-NEXT: vpsrad $31, %xmm0, %xmm1
	; AVX1-NEXT: vpsrad $24, %xmm0, %xmm0			; AVX1-NEXT: vpsrad $24, %xmm0, %xmm0
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3],xmm0[4,5],xmm1[6,7]
	; AVX1-NEXT: vpsrlq $3, %xmm0, %xmm1			; AVX1-NEXT: vpsrlq $3, %xmm0, %xmm1
	; AVX1-NEXT: vpsrlq $2, %xmm0, %xmm0			; AVX1-NEXT: vpsrlq $2, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [2305843009213693952,1152921504606846976]			; AVX1-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_shift_v2i8:			; AVX2-LABEL: constant_shift_v2i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllq $56, %xmm0, %xmm0			; AVX2-NEXT: vpsllq $56, %xmm0, %xmm0
	; AVX2-NEXT: vpsrad $31, %xmm0, %xmm1			; AVX2-NEXT: vpsrad $31, %xmm0, %xmm1
	; AVX2-NEXT: vpsrad $24, %xmm0, %xmm0			; AVX2-NEXT: vpsrad $24, %xmm0, %xmm0
	; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; AVX2-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]			; AVX2-NEXT: vpblendd {{.*#+}} xmm0 = xmm0[0],xmm1[1],xmm0[2],xmm1[3]
	; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpsrlvq {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm1 = [2305843009213693952,1152921504606846976]			; AVX2-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vpxor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpaddq {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOP-LABEL: constant_shift_v2i8:			; XOP-LABEL: constant_shift_v2i8:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vpsllq $56, %xmm0, %xmm0			; XOP-NEXT: vpsllq $56, %xmm0, %xmm0
	; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpshaq {{.*}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	▲ Show 20 Lines • Show All 444 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-trunc-math-widen.ll

	Show First 20 Lines • Show All 1,322 Lines • ▼ Show 20 Lines
	;			;
	; sub to constant			; sub to constant
	;			;

	define <4 x i32> @trunc_sub_const_v4i64_v4i32(<4 x i64> %a0) nounwind {			define <4 x i32> @trunc_sub_const_v4i64_v4i32(<4 x i64> %a0) nounwind {
	; SSE-LABEL: trunc_sub_const_v4i64_v4i32:			; SSE-LABEL: trunc_sub_const_v4i64_v4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: psubd {{.*}}(%rip), %xmm0			; SSE-NEXT: paddd {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX1-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	; AVX2-FAST-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX512-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <4 x i64> %a0, <i64 0, i64 1, i64 2, i64 3>			%1 = sub <4 x i64> %a0, <i64 0, i64 1, i64 2, i64 3>
	%2 = trunc <4 x i64> %1 to <4 x i32>			%2 = trunc <4 x i64> %1 to <4 x i32>
	ret <4 x i32> %2			ret <4 x i32> %2
	}			}

	define <8 x i16> @trunc_sub_const_v8i64_v8i16(<8 x i64> %a0) nounwind {			define <8 x i16> @trunc_sub_const_v8i64_v8i16(<8 x i64> %a0) nounwind {
	; SSE-LABEL: trunc_sub_const_v8i64_v8i16:			; SSE-LABEL: trunc_sub_const_v8i64_v8i16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE-NEXT: pshuflw {{.*#+}} xmm4 = xmm0[0,2,2,3,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm4 = xmm0[0,2,2,3,4,5,6,7]
	; SSE-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,2,2,3]
	; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm0[0,1,0,2,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm0[0,1,0,2,4,5,6,7]
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,1,0,2,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,1,0,2,4,5,6,7]
	; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE-NEXT: movsd {{.*#+}} xmm0 = xmm4[0],xmm0[1]			; SSE-NEXT: movsd {{.*#+}} xmm0 = xmm4[0],xmm0[1]
	; SSE-NEXT: psubw {{.*}}(%rip), %xmm0			; SSE-NEXT: paddw {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX1-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [65535,65535,65535,65535]			; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [65535,65535,65535,65535]
	; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX512-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>			%1 = sub <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>
	%2 = trunc <8 x i64> %1 to <8 x i16>			%2 = trunc <8 x i64> %1 to <8 x i16>
	ret <8 x i16> %2			ret <8 x i16> %2
	}			}

	define <8 x i16> @trunc_sub_const_v8i32_v8i16(<8 x i32> %a0) nounwind {			define <8 x i16> @trunc_sub_const_v8i32_v8i16(<8 x i32> %a0) nounwind {
	; SSE-LABEL: trunc_sub_const_v8i32_v8i16:			; SSE-LABEL: trunc_sub_const_v8i32_v8i16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pslld $16, %xmm1			; SSE-NEXT: pslld $16, %xmm1
	; SSE-NEXT: psrad $16, %xmm1			; SSE-NEXT: psrad $16, %xmm1
	; SSE-NEXT: pslld $16, %xmm0			; SSE-NEXT: pslld $16, %xmm0
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: psubw {{.*}}(%rip), %xmm0			; SSE-NEXT: paddw {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v8i32_v8i16:			; AVX1-LABEL: trunc_sub_const_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_const_v8i32_v8i16:			; AVX2-LABEL: trunc_sub_const_v8i32_v8i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v8i32_v8i16:			; AVX512-LABEL: trunc_sub_const_v8i32_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512-NEXT: vpmovdw %zmm0, %ymm0			; AVX512-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <8 x i32> %a0, <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%1 = sub <8 x i32> %a0, <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	%2 = trunc <8 x i32> %1 to <8 x i16>			%2 = trunc <8 x i32> %1 to <8 x i16>
	ret <8 x i16> %2			ret <8 x i16> %2
	}			}

	define <16 x i8> @trunc_sub_const_v16i64_v16i8(<16 x i64> %a0) nounwind {			define <16 x i8> @trunc_sub_const_v16i64_v16i8(<16 x i64> %a0) nounwind {
	Show All 10 Lines
	; SSE-NEXT: pand %xmm8, %xmm3			; SSE-NEXT: pand %xmm8, %xmm3
	; SSE-NEXT: pand %xmm8, %xmm2			; SSE-NEXT: pand %xmm8, %xmm2
	; SSE-NEXT: packuswb %xmm3, %xmm2			; SSE-NEXT: packuswb %xmm3, %xmm2
	; SSE-NEXT: pand %xmm8, %xmm1			; SSE-NEXT: pand %xmm8, %xmm1
	; SSE-NEXT: pand %xmm8, %xmm0			; SSE-NEXT: pand %xmm8, %xmm0
	; SSE-NEXT: packuswb %xmm1, %xmm0			; SSE-NEXT: packuswb %xmm1, %xmm0
	; SSE-NEXT: packuswb %xmm2, %xmm0			; SSE-NEXT: packuswb %xmm2, %xmm0
	; SSE-NEXT: packuswb %xmm4, %xmm0			; SSE-NEXT: packuswb %xmm4, %xmm0
	; SSE-NEXT: psubb {{.*}}(%rip), %xmm0			; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX1-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovaps {{.*#+}} ymm4 = [255,255,255,255]			; AVX1-NEXT: vmovaps {{.*#+}} ymm4 = [255,255,255,255]
	; AVX1-NEXT: vandps %ymm4, %ymm3, %ymm3			; AVX1-NEXT: vandps %ymm4, %ymm3, %ymm3
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5
	; AVX1-NEXT: vpackusdw %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpackusdw %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vandps %ymm4, %ymm2, %ymm2			; AVX1-NEXT: vandps %ymm4, %ymm2, %ymm2
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5
	; AVX1-NEXT: vpackusdw %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpackusdw %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vandps %ymm4, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm4, %ymm1, %ymm1
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm4, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm4, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2			; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3			; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2			; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1			; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX512-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqd %zmm1, %ymm1
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>			%1 = sub <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_sub_const_v16i32_v16i8(<16 x i32> %a0) nounwind {			define <16 x i8> @trunc_sub_const_v16i32_v16i8(<16 x i32> %a0) nounwind {
	; SSE-LABEL: trunc_sub_const_v16i32_v16i8:			; SSE-LABEL: trunc_sub_const_v16i32_v16i8:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]			; SSE-NEXT: movdqa {{.*#+}} xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
	; SSE-NEXT: pand %xmm4, %xmm3			; SSE-NEXT: pand %xmm4, %xmm3
	; SSE-NEXT: pand %xmm4, %xmm2			; SSE-NEXT: pand %xmm4, %xmm2
	; SSE-NEXT: packuswb %xmm3, %xmm2			; SSE-NEXT: packuswb %xmm3, %xmm2
	; SSE-NEXT: pand %xmm4, %xmm1			; SSE-NEXT: pand %xmm4, %xmm1
	; SSE-NEXT: pand %xmm4, %xmm0			; SSE-NEXT: pand %xmm4, %xmm0
	; SSE-NEXT: packuswb %xmm1, %xmm0			; SSE-NEXT: packuswb %xmm1, %xmm0
	; SSE-NEXT: packuswb %xmm2, %xmm0			; SSE-NEXT: packuswb %xmm2, %xmm0
	; SSE-NEXT: psubb {{.*}}(%rip), %xmm0			; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v16i32_v16i8:			; AVX1-LABEL: trunc_sub_const_v16i32_v16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_const_v16i32_v16i8:			; AVX2-LABEL: trunc_sub_const_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v16i32_v16i8:			; AVX512-LABEL: trunc_sub_const_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <16 x i32> %a0, <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%1 = sub <16 x i32> %a0, <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%2 = trunc <16 x i32> %1 to <16 x i8>			%2 = trunc <16 x i32> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_sub_const_v16i16_v16i8(<16 x i16> %a0) nounwind {			define <16 x i8> @trunc_sub_const_v16i16_v16i8(<16 x i16> %a0) nounwind {
	; SSE-LABEL: trunc_sub_const_v16i16_v16i8:			; SSE-LABEL: trunc_sub_const_v16i16_v16i8:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
	; SSE-NEXT: pand %xmm2, %xmm1			; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: pand %xmm2, %xmm0			; SSE-NEXT: pand %xmm2, %xmm0
	; SSE-NEXT: packuswb %xmm1, %xmm0			; SSE-NEXT: packuswb %xmm1, %xmm0
	; SSE-NEXT: psubb {{.*}}(%rip), %xmm0			; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v16i16_v16i8:			; AVX1-LABEL: trunc_sub_const_v16i16_v16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_const_v16i16_v16i8:			; AVX2-LABEL: trunc_sub_const_v16i16_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_sub_const_v16i16_v16i8:			; AVX512F-LABEL: trunc_sub_const_v16i16_v16i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512F-NEXT: vpmovdb %zmm0, %xmm0			; AVX512F-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512F-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512F-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc_sub_const_v16i16_v16i8:			; AVX512BW-LABEL: trunc_sub_const_v16i16_v16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0			; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512BW-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512BW-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512DQ-LABEL: trunc_sub_const_v16i16_v16i8:			; AVX512DQ-LABEL: trunc_sub_const_v16i16_v16i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512DQ-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0			; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512DQ-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512DQ-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	%1 = sub <16 x i16> %a0, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>			%1 = sub <16 x i16> %a0, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>
	%2 = trunc <16 x i16> %1 to <16 x i8>			%2 = trunc <16 x i16> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_ext_sub_const_rhs_v16i16_v16i8(<16 x i8> %x) {			define <16 x i8> @trunc_ext_sub_const_rhs_v16i16_v16i8(<16 x i8> %x) {
	; SSE-LABEL: trunc_ext_sub_const_rhs_v16i16_v16i8:			; SSE-LABEL: trunc_ext_sub_const_rhs_v16i16_v16i8:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: psubb {{.*}}(%rip), %xmm0			; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: trunc_ext_sub_const_rhs_v16i16_v16i8:			; AVX-LABEL: trunc_ext_sub_const_rhs_v16i16_v16i8:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a = zext <16 x i8> %x to <16 x i16>			%a = zext <16 x i8> %x to <16 x i16>
	%b = sub <16 x i16> %a, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>			%b = sub <16 x i16> %a, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>
	%c = trunc <16 x i16> %b to <16 x i8>			%c = trunc <16 x i16> %b to <16 x i8>
	ret <16 x i8> %c			ret <16 x i8> %c
	}			}

	define <16 x i8> @trunc_ext_sub_const_lhs_v16i16_v16i8(<16 x i8> %x) {			define <16 x i8> @trunc_ext_sub_const_lhs_v16i16_v16i8(<16 x i8> %x) {
	▲ Show 20 Lines • Show All 3,487 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-trunc-math.ll

	Show First 20 Lines • Show All 1,322 Lines • ▼ Show 20 Lines
	;			;
	; sub to constant			; sub to constant
	;			;

	define <4 x i32> @trunc_sub_const_v4i64_v4i32(<4 x i64> %a0) nounwind {			define <4 x i32> @trunc_sub_const_v4i64_v4i32(<4 x i64> %a0) nounwind {
	; SSE-LABEL: trunc_sub_const_v4i64_v4i32:			; SSE-LABEL: trunc_sub_const_v4i64_v4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; SSE-NEXT: psubd {{.*}}(%rip), %xmm0			; SSE-NEXT: paddd {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX1-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX1-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX2-SLOW-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm1[0,2]
	; AVX2-SLOW-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX2-FAST-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm1 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm1, %ymm0
	; AVX2-FAST-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v4i64_v4i32:			; AVX512-LABEL: trunc_sub_const_v4i64_v4i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512-NEXT: vpsubd {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddd {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <4 x i64> %a0, <i64 0, i64 1, i64 2, i64 3>			%1 = sub <4 x i64> %a0, <i64 0, i64 1, i64 2, i64 3>
	%2 = trunc <4 x i64> %1 to <4 x i32>			%2 = trunc <4 x i64> %1 to <4 x i32>
	ret <4 x i32> %2			ret <4 x i32> %2
	}			}

	define <8 x i16> @trunc_sub_const_v8i64_v8i16(<8 x i64> %a0) nounwind {			define <8 x i16> @trunc_sub_const_v8i64_v8i16(<8 x i64> %a0) nounwind {
	; SSE-LABEL: trunc_sub_const_v8i64_v8i16:			; SSE-LABEL: trunc_sub_const_v8i64_v8i16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
	; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm1[0,2,2,3,4,5,6,7]
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,2,2,3]
	; SSE-NEXT: pshuflw {{.*#+}} xmm4 = xmm0[0,2,2,3,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm4 = xmm0[0,2,2,3,4,5,6,7]
	; SSE-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1]
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,2,2,3]
	; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm0[0,1,0,2,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm1 = xmm0[0,1,0,2,4,5,6,7]
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,2,2,3]
	; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,1,0,2,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,1,0,2,4,5,6,7]
	; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE-NEXT: movsd {{.*#+}} xmm0 = xmm4[0],xmm0[1]			; SSE-NEXT: movsd {{.*#+}} xmm0 = xmm4[0],xmm0[1]
	; SSE-NEXT: psubw {{.*}}(%rip), %xmm0			; SSE-NEXT: paddw {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX1-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [65535,65535,65535,65535]			; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [65535,65535,65535,65535]
	; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX2-SLOW-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm2[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX2-FAST-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm2 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm2, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1			; AVX2-FAST-NEXT: vpermd %ymm1, %ymm2, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-FAST-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v8i64_v8i16:			; AVX512-LABEL: trunc_sub_const_v8i64_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqw %zmm0, %xmm0			; AVX512-NEXT: vpmovqw %zmm0, %xmm0
	; AVX512-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>			%1 = sub <8 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7>
	%2 = trunc <8 x i64> %1 to <8 x i16>			%2 = trunc <8 x i64> %1 to <8 x i16>
	ret <8 x i16> %2			ret <8 x i16> %2
	}			}

	define <8 x i16> @trunc_sub_const_v8i32_v8i16(<8 x i32> %a0) nounwind {			define <8 x i16> @trunc_sub_const_v8i32_v8i16(<8 x i32> %a0) nounwind {
	; SSE-LABEL: trunc_sub_const_v8i32_v8i16:			; SSE-LABEL: trunc_sub_const_v8i32_v8i16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pslld $16, %xmm1			; SSE-NEXT: pslld $16, %xmm1
	; SSE-NEXT: psrad $16, %xmm1			; SSE-NEXT: psrad $16, %xmm1
	; SSE-NEXT: pslld $16, %xmm0			; SSE-NEXT: pslld $16, %xmm0
	; SSE-NEXT: psrad $16, %xmm0			; SSE-NEXT: psrad $16, %xmm0
	; SSE-NEXT: packssdw %xmm1, %xmm0			; SSE-NEXT: packssdw %xmm1, %xmm0
	; SSE-NEXT: psubw {{.*}}(%rip), %xmm0			; SSE-NEXT: paddw {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v8i32_v8i16:			; AVX1-LABEL: trunc_sub_const_v8i32_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
	; AVX1-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_const_v8i32_v8i16:			; AVX2-LABEL: trunc_sub_const_v8i32_v8i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v8i32_v8i16:			; AVX512-LABEL: trunc_sub_const_v8i32_v8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512-NEXT: vpmovdw %zmm0, %ymm0			; AVX512-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512-NEXT: vpsubw {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <8 x i32> %a0, <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%1 = sub <8 x i32> %a0, <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	%2 = trunc <8 x i32> %1 to <8 x i16>			%2 = trunc <8 x i32> %1 to <8 x i16>
	ret <8 x i16> %2			ret <8 x i16> %2
	}			}

	define <16 x i8> @trunc_sub_const_v16i64_v16i8(<16 x i64> %a0) nounwind {			define <16 x i8> @trunc_sub_const_v16i64_v16i8(<16 x i64> %a0) nounwind {
	Show All 10 Lines
	; SSE-NEXT: pand %xmm8, %xmm3			; SSE-NEXT: pand %xmm8, %xmm3
	; SSE-NEXT: pand %xmm8, %xmm2			; SSE-NEXT: pand %xmm8, %xmm2
	; SSE-NEXT: packuswb %xmm3, %xmm2			; SSE-NEXT: packuswb %xmm3, %xmm2
	; SSE-NEXT: pand %xmm8, %xmm1			; SSE-NEXT: pand %xmm8, %xmm1
	; SSE-NEXT: pand %xmm8, %xmm0			; SSE-NEXT: pand %xmm8, %xmm0
	; SSE-NEXT: packuswb %xmm1, %xmm0			; SSE-NEXT: packuswb %xmm1, %xmm0
	; SSE-NEXT: packuswb %xmm2, %xmm0			; SSE-NEXT: packuswb %xmm2, %xmm0
	; SSE-NEXT: packuswb %xmm4, %xmm0			; SSE-NEXT: packuswb %xmm4, %xmm0
	; SSE-NEXT: psubb {{.*}}(%rip), %xmm0			; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX1-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovaps {{.*#+}} ymm4 = [255,255,255,255]			; AVX1-NEXT: vmovaps {{.*#+}} ymm4 = [255,255,255,255]
	; AVX1-NEXT: vandps %ymm4, %ymm3, %ymm3			; AVX1-NEXT: vandps %ymm4, %ymm3, %ymm3
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5
	; AVX1-NEXT: vpackusdw %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpackusdw %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vandps %ymm4, %ymm2, %ymm2			; AVX1-NEXT: vandps %ymm4, %ymm2, %ymm2
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm5
	; AVX1-NEXT: vpackusdw %xmm5, %xmm2, %xmm2			; AVX1-NEXT: vpackusdw %xmm5, %xmm2, %xmm2
	; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vandps %ymm4, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm4, %ymm1, %ymm1
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm4, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm4, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm3, %xmm4
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm2, %xmm4
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]			; AVX2-SLOW-NEXT: vmovdqa {{.*#+}} xmm4 = [255,255,255,255,255,255,255,255]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm1 = xmm1[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5			; AVX2-SLOW-NEXT: vextractf128 $1, %ymm0, %xmm5
	; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]			; AVX2-SLOW-NEXT: vshufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
	; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-SLOW-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-SLOW-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-SLOW-NEXT: vzeroupper			; AVX2-SLOW-NEXT: vzeroupper
	; AVX2-SLOW-NEXT: retq			; AVX2-SLOW-NEXT: retq
	;			;
	; AVX2-FAST-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX2-FAST-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX2-FAST: # %bb.0:			; AVX2-FAST: # %bb.0:
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm4 = [0,2,4,6,4,6,6,7]
	; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2			; AVX2-FAST-NEXT: vpermd %ymm2, %ymm4, %ymm2
	; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3			; AVX2-FAST-NEXT: vpermd %ymm3, %ymm4, %ymm3
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; AVX2-FAST-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} ymm3 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2			; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm2, %ymm2
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]			; AVX2-FAST-NEXT: vmovdqa {{.*#+}} xmm5 = [255,255,255,255,255,255,255,255]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2			; AVX2-FAST-NEXT: vpand %xmm5, %xmm2, %xmm2
	; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0			; AVX2-FAST-NEXT: vpermd %ymm0, %ymm4, %ymm0
	; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1			; AVX2-FAST-NEXT: vpermd %ymm1, %ymm4, %ymm1
	; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0			; AVX2-FAST-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0			; AVX2-FAST-NEXT: vpshufb %ymm3, %ymm0, %ymm0
	; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-FAST-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-FAST-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-FAST-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-FAST-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-FAST-NEXT: vzeroupper			; AVX2-FAST-NEXT: vzeroupper
	; AVX2-FAST-NEXT: retq			; AVX2-FAST-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v16i64_v16i8:			; AVX512-LABEL: trunc_sub_const_v16i64_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovqd %zmm0, %ymm0			; AVX512-NEXT: vpmovqd %zmm0, %ymm0
	; AVX512-NEXT: vpmovqd %zmm1, %ymm1			; AVX512-NEXT: vpmovqd %zmm1, %ymm1
	; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>			%1 = sub <16 x i64> %a0, <i64 0, i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8, i64 9, i64 10, i64 11, i64 12, i64 13, i64 14, i64 15>
	%2 = trunc <16 x i64> %1 to <16 x i8>			%2 = trunc <16 x i64> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_sub_const_v16i32_v16i8(<16 x i32> %a0) nounwind {			define <16 x i8> @trunc_sub_const_v16i32_v16i8(<16 x i32> %a0) nounwind {
	; SSE-LABEL: trunc_sub_const_v16i32_v16i8:			; SSE-LABEL: trunc_sub_const_v16i32_v16i8:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]			; SSE-NEXT: movdqa {{.*#+}} xmm4 = [255,0,0,0,255,0,0,0,255,0,0,0,255,0,0,0]
	; SSE-NEXT: pand %xmm4, %xmm3			; SSE-NEXT: pand %xmm4, %xmm3
	; SSE-NEXT: pand %xmm4, %xmm2			; SSE-NEXT: pand %xmm4, %xmm2
	; SSE-NEXT: packuswb %xmm3, %xmm2			; SSE-NEXT: packuswb %xmm3, %xmm2
	; SSE-NEXT: pand %xmm4, %xmm1			; SSE-NEXT: pand %xmm4, %xmm1
	; SSE-NEXT: pand %xmm4, %xmm0			; SSE-NEXT: pand %xmm4, %xmm0
	; SSE-NEXT: packuswb %xmm1, %xmm0			; SSE-NEXT: packuswb %xmm1, %xmm0
	; SSE-NEXT: packuswb %xmm2, %xmm0			; SSE-NEXT: packuswb %xmm2, %xmm0
	; SSE-NEXT: psubb {{.*}}(%rip), %xmm0			; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v16i32_v16i8:			; AVX1-LABEL: trunc_sub_const_v16i32_v16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]			; AVX1-NEXT: vmovaps {{.*#+}} ymm2 = [255,255,255,255,255,255,255,255]
	; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1			; AVX1-NEXT: vandps %ymm2, %ymm1, %ymm1
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0			; AVX1-NEXT: vandps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_const_v16i32_v16i8:			; AVX2-LABEL: trunc_sub_const_v16i32_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15,16,17,20,21,24,25,28,29,24,25,28,29,28,29,30,31]
	; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1			; AVX2-NEXT: vpshufb %ymm2, %ymm1, %ymm1
	; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,2,3]
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm3 = [255,255,255,255,255,255,255,255]
	; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1			; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm1
	; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; AVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]			; AVX2-NEXT: vpermq {{.*#+}} ymm0 = ymm0[0,2,2,3]
	; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_sub_const_v16i32_v16i8:			; AVX512-LABEL: trunc_sub_const_v16i32_v16i8:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovdb %zmm0, %xmm0			; AVX512-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = sub <16 x i32> %a0, <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%1 = sub <16 x i32> %a0, <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%2 = trunc <16 x i32> %1 to <16 x i8>			%2 = trunc <16 x i32> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_sub_const_v16i16_v16i8(<16 x i16> %a0) nounwind {			define <16 x i8> @trunc_sub_const_v16i16_v16i8(<16 x i16> %a0) nounwind {
	; SSE-LABEL: trunc_sub_const_v16i16_v16i8:			; SSE-LABEL: trunc_sub_const_v16i16_v16i8:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255]
	; SSE-NEXT: pand %xmm2, %xmm1			; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: pand %xmm2, %xmm0			; SSE-NEXT: pand %xmm2, %xmm0
	; SSE-NEXT: packuswb %xmm1, %xmm0			; SSE-NEXT: packuswb %xmm1, %xmm0
	; SSE-NEXT: psubb {{.*}}(%rip), %xmm0			; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_sub_const_v16i16_v16i8:			; AVX1-LABEL: trunc_sub_const_v16i16_v16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_sub_const_v16i16_v16i8:			; AVX2-LABEL: trunc_sub_const_v16i16_v16i8:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: trunc_sub_const_v16i16_v16i8:			; AVX512F-LABEL: trunc_sub_const_v16i16_v16i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512F-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512F-NEXT: vpmovdb %zmm0, %xmm0			; AVX512F-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512F-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512F-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: trunc_sub_const_v16i16_v16i8:			; AVX512BW-LABEL: trunc_sub_const_v16i16_v16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0			; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512BW-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512BW-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512DQ-LABEL: trunc_sub_const_v16i16_v16i8:			; AVX512DQ-LABEL: trunc_sub_const_v16i16_v16i8:
	; AVX512DQ: # %bb.0:			; AVX512DQ: # %bb.0:
	; AVX512DQ-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero			; AVX512DQ-NEXT: vpmovzxwd {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero
	; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0			; AVX512DQ-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512DQ-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX512DQ-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX512DQ-NEXT: vzeroupper			; AVX512DQ-NEXT: vzeroupper
	; AVX512DQ-NEXT: retq			; AVX512DQ-NEXT: retq
	%1 = sub <16 x i16> %a0, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>			%1 = sub <16 x i16> %a0, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>
	%2 = trunc <16 x i16> %1 to <16 x i8>			%2 = trunc <16 x i16> %1 to <16 x i8>
	ret <16 x i8> %2			ret <16 x i8> %2
	}			}

	define <16 x i8> @trunc_ext_sub_const_rhs_v16i16_v16i8(<16 x i8> %x) {			define <16 x i8> @trunc_ext_sub_const_rhs_v16i16_v16i8(<16 x i8> %x) {
	; SSE-LABEL: trunc_ext_sub_const_rhs_v16i16_v16i8:			; SSE-LABEL: trunc_ext_sub_const_rhs_v16i16_v16i8:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: psubb {{.*}}(%rip), %xmm0			; SSE-NEXT: paddb {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: trunc_ext_sub_const_rhs_v16i16_v16i8:			; AVX-LABEL: trunc_ext_sub_const_rhs_v16i16_v16i8:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpsubb {{.*}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%a = zext <16 x i8> %x to <16 x i16>			%a = zext <16 x i8> %x to <16 x i16>
	%b = sub <16 x i16> %a, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>			%b = sub <16 x i16> %a, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>
	%c = trunc <16 x i16> %b to <16 x i8>			%c = trunc <16 x i16> %b to <16 x i8>
	ret <16 x i8> %c			ret <16 x i8> %c
	}			}

	define <16 x i8> @trunc_ext_sub_const_lhs_v16i16_v16i8(<16 x i8> %x) {			define <16 x i8> @trunc_ext_sub_const_lhs_v16i16_v16i8(<16 x i8> %x) {
	▲ Show 20 Lines • Show All 3,487 Lines • Show Last 20 Lines

test/CodeGen/X86/vector_splat-const-shift-of-constmasked.ll

Show First 20 Lines • Show All 436 Lines • ▼ Show 20 Lines	; X64-SSE2AVX-NEXT: retq
ret <16 x i8> %t1		ret <16 x i8> %t1
}		}

define <16 x i8> @test_128_i8_x_16_224_mask_ashr_1(<16 x i8> %a0) {		define <16 x i8> @test_128_i8_x_16_224_mask_ashr_1(<16 x i8> %a0) {
; X32-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_1:		; X32-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_1:
; X32-SSE2ONLY: # %bb.0:		; X32-SSE2ONLY: # %bb.0:
; X32-SSE2ONLY-NEXT: pand {{\.LCPI.*}}, %xmm0		; X32-SSE2ONLY-NEXT: pand {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: psrlw $1, %xmm0		; X32-SSE2ONLY-NEXT: psrlw $1, %xmm0
; X32-SSE2ONLY-NEXT: movdqa {{.*#+}} xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]		; X32-SSE2ONLY-NEXT: pxor {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: pxor %xmm1, %xmm0		; X32-SSE2ONLY-NEXT: paddb {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: psubb %xmm1, %xmm0
; X32-SSE2ONLY-NEXT: retl		; X32-SSE2ONLY-NEXT: retl
;		;
; X32-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_1:		; X32-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_1:
; X32-SSE2AVX: # %bb.0:		; X32-SSE2AVX: # %bb.0:
; X32-SSE2AVX-NEXT: vpand {{\.LCPI.*}}, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpand {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpsrlw $1, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpsrlw $1, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]		; X32-SSE2AVX-NEXT: vpxor {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpaddb {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: retl		; X32-SSE2AVX-NEXT: retl
;		;
; X64-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_1:		; X64-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_1:
; X64-SSE2ONLY: # %bb.0:		; X64-SSE2ONLY: # %bb.0:
; X64-SSE2ONLY-NEXT: pand {{.*}}(%rip), %xmm0		; X64-SSE2ONLY-NEXT: pand {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: psrlw $1, %xmm0		; X64-SSE2ONLY-NEXT: psrlw $1, %xmm0
; X64-SSE2ONLY-NEXT: movdqa {{.*#+}} xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]		; X64-SSE2ONLY-NEXT: pxor {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: pxor %xmm1, %xmm0		; X64-SSE2ONLY-NEXT: paddb {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: psubb %xmm1, %xmm0
; X64-SSE2ONLY-NEXT: retq		; X64-SSE2ONLY-NEXT: retq
;		;
; X64-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_1:		; X64-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_1:
; X64-SSE2AVX: # %bb.0:		; X64-SSE2AVX: # %bb.0:
; X64-SSE2AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpsrlw $1, %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpsrlw $1, %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]		; X64-SSE2AVX-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; X64-SSE2AVX-NEXT: retq		; X64-SSE2AVX-NEXT: retq
%t0 = and <16 x i8> %a0, <i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224>		%t0 = and <16 x i8> %a0, <i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224>
%t1 = ashr <16 x i8> %t0, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>		%t1 = ashr <16 x i8> %t0, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>
ret <16 x i8> %t1		ret <16 x i8> %t1
}		}
define <16 x i8> @test_128_i8_x_16_224_mask_ashr_4(<16 x i8> %a0) {		define <16 x i8> @test_128_i8_x_16_224_mask_ashr_4(<16 x i8> %a0) {
; X32-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_4:		; X32-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_4:
; X32-SSE2ONLY: # %bb.0:		; X32-SSE2ONLY: # %bb.0:
; X32-SSE2ONLY-NEXT: pand {{\.LCPI.*}}, %xmm0		; X32-SSE2ONLY-NEXT: pand {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: psrlw $4, %xmm0		; X32-SSE2ONLY-NEXT: psrlw $4, %xmm0
; X32-SSE2ONLY-NEXT: movdqa {{.*#+}} xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]		; X32-SSE2ONLY-NEXT: pxor {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: pxor %xmm1, %xmm0		; X32-SSE2ONLY-NEXT: paddb {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: psubb %xmm1, %xmm0
; X32-SSE2ONLY-NEXT: retl		; X32-SSE2ONLY-NEXT: retl
;		;
; X32-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_4:		; X32-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_4:
; X32-SSE2AVX: # %bb.0:		; X32-SSE2AVX: # %bb.0:
; X32-SSE2AVX-NEXT: vpand {{\.LCPI.*}}, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpand {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpsrlw $4, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpsrlw $4, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]		; X32-SSE2AVX-NEXT: vpxor {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpaddb {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: retl		; X32-SSE2AVX-NEXT: retl
;		;
; X64-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_4:		; X64-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_4:
; X64-SSE2ONLY: # %bb.0:		; X64-SSE2ONLY: # %bb.0:
; X64-SSE2ONLY-NEXT: pand {{.*}}(%rip), %xmm0		; X64-SSE2ONLY-NEXT: pand {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: psrlw $4, %xmm0		; X64-SSE2ONLY-NEXT: psrlw $4, %xmm0
; X64-SSE2ONLY-NEXT: movdqa {{.*#+}} xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]		; X64-SSE2ONLY-NEXT: pxor {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: pxor %xmm1, %xmm0		; X64-SSE2ONLY-NEXT: paddb {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: psubb %xmm1, %xmm0
; X64-SSE2ONLY-NEXT: retq		; X64-SSE2ONLY-NEXT: retq
;		;
; X64-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_4:		; X64-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_4:
; X64-SSE2AVX: # %bb.0:		; X64-SSE2AVX: # %bb.0:
; X64-SSE2AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpsrlw $4, %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpsrlw $4, %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]		; X64-SSE2AVX-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; X64-SSE2AVX-NEXT: retq		; X64-SSE2AVX-NEXT: retq
%t0 = and <16 x i8> %a0, <i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224>		%t0 = and <16 x i8> %a0, <i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224>
%t1 = ashr <16 x i8> %t0, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>		%t1 = ashr <16 x i8> %t0, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
ret <16 x i8> %t1		ret <16 x i8> %t1
}		}
define <16 x i8> @test_128_i8_x_16_224_mask_ashr_5(<16 x i8> %a0) {		define <16 x i8> @test_128_i8_x_16_224_mask_ashr_5(<16 x i8> %a0) {
; X32-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_5:		; X32-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_5:
; X32-SSE2ONLY: # %bb.0:		; X32-SSE2ONLY: # %bb.0:
; X32-SSE2ONLY-NEXT: psrlw $5, %xmm0		; X32-SSE2ONLY-NEXT: psrlw $5, %xmm0
; X32-SSE2ONLY-NEXT: pand {{\.LCPI.*}}, %xmm0		; X32-SSE2ONLY-NEXT: pand {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: movdqa {{.*#+}} xmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]		; X32-SSE2ONLY-NEXT: pxor {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: pxor %xmm1, %xmm0		; X32-SSE2ONLY-NEXT: paddb {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: psubb %xmm1, %xmm0
; X32-SSE2ONLY-NEXT: retl		; X32-SSE2ONLY-NEXT: retl
;		;
; X32-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_5:		; X32-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_5:
; X32-SSE2AVX: # %bb.0:		; X32-SSE2AVX: # %bb.0:
; X32-SSE2AVX-NEXT: vpsrlw $5, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpsrlw $5, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpand {{\.LCPI.*}}, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpand {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]		; X32-SSE2AVX-NEXT: vpxor {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpaddb {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: retl		; X32-SSE2AVX-NEXT: retl
;		;
; X64-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_5:		; X64-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_5:
; X64-SSE2ONLY: # %bb.0:		; X64-SSE2ONLY: # %bb.0:
; X64-SSE2ONLY-NEXT: psrlw $5, %xmm0		; X64-SSE2ONLY-NEXT: psrlw $5, %xmm0
; X64-SSE2ONLY-NEXT: pand {{.*}}(%rip), %xmm0		; X64-SSE2ONLY-NEXT: pand {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: movdqa {{.*#+}} xmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]		; X64-SSE2ONLY-NEXT: pxor {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: pxor %xmm1, %xmm0		; X64-SSE2ONLY-NEXT: paddb {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: psubb %xmm1, %xmm0
; X64-SSE2ONLY-NEXT: retq		; X64-SSE2ONLY-NEXT: retq
;		;
; X64-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_5:		; X64-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_5:
; X64-SSE2AVX: # %bb.0:		; X64-SSE2AVX: # %bb.0:
; X64-SSE2AVX-NEXT: vpsrlw $5, %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpsrlw $5, %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4]		; X64-SSE2AVX-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; X64-SSE2AVX-NEXT: retq		; X64-SSE2AVX-NEXT: retq
%t0 = and <16 x i8> %a0, <i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224>		%t0 = and <16 x i8> %a0, <i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224>
%t1 = ashr <16 x i8> %t0, <i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5>		%t1 = ashr <16 x i8> %t0, <i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5>
ret <16 x i8> %t1		ret <16 x i8> %t1
}		}
define <16 x i8> @test_128_i8_x_16_224_mask_ashr_6(<16 x i8> %a0) {		define <16 x i8> @test_128_i8_x_16_224_mask_ashr_6(<16 x i8> %a0) {
; X32-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_6:		; X32-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_6:
; X32-SSE2ONLY: # %bb.0:		; X32-SSE2ONLY: # %bb.0:
; X32-SSE2ONLY-NEXT: psrlw $6, %xmm0		; X32-SSE2ONLY-NEXT: psrlw $6, %xmm0
; X32-SSE2ONLY-NEXT: pand {{\.LCPI.*}}, %xmm0		; X32-SSE2ONLY-NEXT: pand {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: movdqa {{.*#+}} xmm1 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]		; X32-SSE2ONLY-NEXT: pxor {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: pxor %xmm1, %xmm0		; X32-SSE2ONLY-NEXT: paddb {{\.LCPI.*}}, %xmm0
; X32-SSE2ONLY-NEXT: psubb %xmm1, %xmm0
; X32-SSE2ONLY-NEXT: retl		; X32-SSE2ONLY-NEXT: retl
;		;
; X32-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_6:		; X32-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_6:
; X32-SSE2AVX: # %bb.0:		; X32-SSE2AVX: # %bb.0:
; X32-SSE2AVX-NEXT: vpsrlw $6, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpsrlw $6, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpand {{\.LCPI.*}}, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpand {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]		; X32-SSE2AVX-NEXT: vpxor {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; X32-SSE2AVX-NEXT: vpaddb {{\.LCPI.*}}, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; X32-SSE2AVX-NEXT: retl		; X32-SSE2AVX-NEXT: retl
;		;
; X64-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_6:		; X64-SSE2ONLY-LABEL: test_128_i8_x_16_224_mask_ashr_6:
; X64-SSE2ONLY: # %bb.0:		; X64-SSE2ONLY: # %bb.0:
; X64-SSE2ONLY-NEXT: psrlw $6, %xmm0		; X64-SSE2ONLY-NEXT: psrlw $6, %xmm0
; X64-SSE2ONLY-NEXT: pand {{.*}}(%rip), %xmm0		; X64-SSE2ONLY-NEXT: pand {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: movdqa {{.*#+}} xmm1 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]		; X64-SSE2ONLY-NEXT: pxor {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: pxor %xmm1, %xmm0		; X64-SSE2ONLY-NEXT: paddb {{.*}}(%rip), %xmm0
; X64-SSE2ONLY-NEXT: psubb %xmm1, %xmm0
; X64-SSE2ONLY-NEXT: retq		; X64-SSE2ONLY-NEXT: retq
;		;
; X64-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_6:		; X64-SSE2AVX-LABEL: test_128_i8_x_16_224_mask_ashr_6:
; X64-SSE2AVX: # %bb.0:		; X64-SSE2AVX: # %bb.0:
; X64-SSE2AVX-NEXT: vpsrlw $6, %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpsrlw $6, %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vmovdqa {{.*#+}} xmm1 = [2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2]		; X64-SSE2AVX-NEXT: vpxor {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpxor %xmm1, %xmm0, %xmm0		; X64-SSE2AVX-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; X64-SSE2AVX-NEXT: vpsubb %xmm1, %xmm0, %xmm0
; X64-SSE2AVX-NEXT: retq		; X64-SSE2AVX-NEXT: retq
%t0 = and <16 x i8> %a0, <i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224>		%t0 = and <16 x i8> %a0, <i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224, i8 224>
%t1 = ashr <16 x i8> %t0, <i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6>		%t1 = ashr <16 x i8> %t0, <i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6>
ret <16 x i8> %t1		ret <16 x i8> %t1
}		}

; shl		; shl

▲ Show 20 Lines • Show All 2,934 Lines • Show Last 20 Lines

test/CodeGen/X86/widen_arith-4.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=CHECK,SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=CHECK,SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefixes=CHECK,SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefixes=CHECK,SSE41

	; Widen a v5i16 to v8i16 to do a vector sub and multiple			; Widen a v5i16 to v8i16 to do a vector sub and multiple

	define void @update(<5 x i16>* %dst, <5 x i16>* %src, i32 %n) nounwind {			define void @update(<5 x i16>* %dst, <5 x i16>* %src, i32 %n) nounwind {
	; SSE2-LABEL: update:			; SSE2-LABEL: update:
	; SSE2: # %bb.0: # %entry			; SSE2: # %bb.0: # %entry
	; SSE2-NEXT: movq %rdi, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movq %rdi, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movq %rsi, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movq %rsi, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movl %edx, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movl %edx, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movabsq $4295032833, %rax # imm = 0x100010001			; SSE2-NEXT: movabsq $4295032833, %rax # imm = 0x100010001
	; SSE2-NEXT: movq %rax, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movq %rax, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movw $0, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movw $0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movl $0, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movl $0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movdqa {{.*#+}} xmm0 = <271,271,271,271,271,u,u,u>			; SSE2-NEXT: movdqa {{.*#+}} xmm0 = <2,4,2,2,2,u,u,u>
	; SSE2-NEXT: movdqa {{.*#+}} xmm1 = <2,4,2,2,2,u,u,u>			; SSE2-NEXT: movdqa {{.*#+}} xmm1 = <64994,64452,64994,64994,64994,u,u,u>
	; SSE2-NEXT: jmp .LBB0_1			; SSE2-NEXT: jmp .LBB0_1
	; SSE2-NEXT: .p2align 4, 0x90			; SSE2-NEXT: .p2align 4, 0x90
	; SSE2-NEXT: .LBB0_2: # %forbody			; SSE2-NEXT: .LBB0_2: # %forbody
	; SSE2-NEXT: # in Loop: Header=BB0_1 Depth=1			; SSE2-NEXT: # in Loop: Header=BB0_1 Depth=1
	; SSE2-NEXT: movslq -{{[0-9]+}}(%rsp), %rax			; SSE2-NEXT: movslq -{{[0-9]+}}(%rsp), %rax
	; SSE2-NEXT: movq -{{[0-9]+}}(%rsp), %rcx			; SSE2-NEXT: movq -{{[0-9]+}}(%rsp), %rcx
	; SSE2-NEXT: shlq $4, %rax			; SSE2-NEXT: shlq $4, %rax
	; SSE2-NEXT: movq -{{[0-9]+}}(%rsp), %rdx			; SSE2-NEXT: movq -{{[0-9]+}}(%rsp), %rdx
	; SSE2-NEXT: movdqa (%rdx,%rax), %xmm2			; SSE2-NEXT: movdqa (%rdx,%rax), %xmm2
	; SSE2-NEXT: psubw %xmm0, %xmm2			; SSE2-NEXT: pmullw %xmm0, %xmm2
	; SSE2-NEXT: pmullw %xmm1, %xmm2			; SSE2-NEXT: paddw %xmm1, %xmm2
	; SSE2-NEXT: movq %xmm2, (%rcx,%rax)			; SSE2-NEXT: movq %xmm2, (%rcx,%rax)
	; SSE2-NEXT: pextrw $4, %xmm2, %edx			; SSE2-NEXT: pextrw $4, %xmm2, %edx
	; SSE2-NEXT: movw %dx, 8(%rcx,%rax)			; SSE2-NEXT: movw %dx, 8(%rcx,%rax)
	; SSE2-NEXT: incl -{{[0-9]+}}(%rsp)			; SSE2-NEXT: incl -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: .LBB0_1: # %forcond			; SSE2-NEXT: .LBB0_1: # %forcond
	; SSE2-NEXT: # =>This Inner Loop Header: Depth=1			; SSE2-NEXT: # =>This Inner Loop Header: Depth=1
	; SSE2-NEXT: movl -{{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movl -{{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: cmpl -{{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: cmpl -{{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: jl .LBB0_2			; SSE2-NEXT: jl .LBB0_2
	; SSE2-NEXT: # %bb.3: # %afterfor			; SSE2-NEXT: # %bb.3: # %afterfor
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: update:			; SSE41-LABEL: update:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: movq %rdi, -{{[0-9]+}}(%rsp)			; SSE41-NEXT: movq %rdi, -{{[0-9]+}}(%rsp)
	; SSE41-NEXT: movq %rsi, -{{[0-9]+}}(%rsp)			; SSE41-NEXT: movq %rsi, -{{[0-9]+}}(%rsp)
	; SSE41-NEXT: movl %edx, -{{[0-9]+}}(%rsp)			; SSE41-NEXT: movl %edx, -{{[0-9]+}}(%rsp)
	; SSE41-NEXT: movabsq $4295032833, %rax # imm = 0x100010001			; SSE41-NEXT: movabsq $4295032833, %rax # imm = 0x100010001
	; SSE41-NEXT: movq %rax, -{{[0-9]+}}(%rsp)			; SSE41-NEXT: movq %rax, -{{[0-9]+}}(%rsp)
	; SSE41-NEXT: movw $0, -{{[0-9]+}}(%rsp)			; SSE41-NEXT: movw $0, -{{[0-9]+}}(%rsp)
	; SSE41-NEXT: movl $0, -{{[0-9]+}}(%rsp)			; SSE41-NEXT: movl $0, -{{[0-9]+}}(%rsp)
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = <271,271,271,271,271,u,u,u>			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = <64994,64452,64994,64994,64994,u,u,u>
	; SSE41-NEXT: jmp .LBB0_1			; SSE41-NEXT: jmp .LBB0_1
	; SSE41-NEXT: .p2align 4, 0x90			; SSE41-NEXT: .p2align 4, 0x90
	; SSE41-NEXT: .LBB0_2: # %forbody			; SSE41-NEXT: .LBB0_2: # %forbody
	; SSE41-NEXT: # in Loop: Header=BB0_1 Depth=1			; SSE41-NEXT: # in Loop: Header=BB0_1 Depth=1
	; SSE41-NEXT: movslq -{{[0-9]+}}(%rsp), %rax			; SSE41-NEXT: movslq -{{[0-9]+}}(%rsp), %rax
	; SSE41-NEXT: movq -{{[0-9]+}}(%rsp), %rcx			; SSE41-NEXT: movq -{{[0-9]+}}(%rsp), %rcx
	; SSE41-NEXT: shlq $4, %rax			; SSE41-NEXT: shlq $4, %rax
	; SSE41-NEXT: movq -{{[0-9]+}}(%rsp), %rdx			; SSE41-NEXT: movq -{{[0-9]+}}(%rsp), %rdx
	; SSE41-NEXT: movdqa (%rdx,%rax), %xmm1			; SSE41-NEXT: movdqa (%rdx,%rax), %xmm1
	; SSE41-NEXT: psubw %xmm0, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psllw $2, %xmm2			; SSE41-NEXT: psllw $2, %xmm2
	; SSE41-NEXT: psllw $1, %xmm1			; SSE41-NEXT: psllw $1, %xmm1
	; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0],xmm2[1],xmm1[2,3,4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2,3,4,5,6,7]
				; SSE41-NEXT: paddw %xmm0, %xmm1
	; SSE41-NEXT: pextrw $4, %xmm1, 8(%rcx,%rax)			; SSE41-NEXT: pextrw $4, %xmm1, 8(%rcx,%rax)
	; SSE41-NEXT: movq %xmm2, (%rcx,%rax)			; SSE41-NEXT: movq %xmm1, (%rcx,%rax)
	; SSE41-NEXT: incl -{{[0-9]+}}(%rsp)			; SSE41-NEXT: incl -{{[0-9]+}}(%rsp)
	; SSE41-NEXT: .LBB0_1: # %forcond			; SSE41-NEXT: .LBB0_1: # %forcond
	; SSE41-NEXT: # =>This Inner Loop Header: Depth=1			; SSE41-NEXT: # =>This Inner Loop Header: Depth=1
	; SSE41-NEXT: movl -{{[0-9]+}}(%rsp), %eax			; SSE41-NEXT: movl -{{[0-9]+}}(%rsp), %eax
	; SSE41-NEXT: cmpl -{{[0-9]+}}(%rsp), %eax			; SSE41-NEXT: cmpl -{{[0-9]+}}(%rsp), %eax
	; SSE41-NEXT: jl .LBB0_2			; SSE41-NEXT: jl .LBB0_2
	; SSE41-NEXT: # %bb.3: # %afterfor			; SSE41-NEXT: # %bb.3: # %afterfor
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	▲ Show 20 Lines • Show All 42 Lines • Show Last 20 Lines

test/CodeGen/X86/widen_arith-5.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 \| FileCheck %s

	; widen a v3i32 to v4i32 to do a vector multiple and a subtraction			; widen a v3i32 to v4i32 to do a vector multiple and a subtraction

	define void @update(<3 x i32>* %dst, <3 x i32>* %src, i32 %n) nounwind {			define void @update(<3 x i32>* %dst, <3 x i32>* %src, i32 %n) nounwind {
	; CHECK-LABEL: update:			; CHECK-LABEL: update:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: movq %rdi, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: movq %rdi, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: movq %rsi, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: movq %rsi, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: movl %edx, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: movl %edx, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: movabsq $4294967297, %rax # imm = 0x100000001			; CHECK-NEXT: movabsq $4294967297, %rax # imm = 0x100000001
	; CHECK-NEXT: movq %rax, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: movq %rax, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: movl $1, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: movl $1, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: movl $0, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: movl $0, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: movdqa {{.*#+}} xmm0 = <3,3,3,u>			; CHECK-NEXT: movdqa {{.*#+}} xmm0 = <4294967293,4294967293,4294967293,u>
	; CHECK-NEXT: jmp .LBB0_1			; CHECK-NEXT: jmp .LBB0_1
	; CHECK-NEXT: .p2align 4, 0x90			; CHECK-NEXT: .p2align 4, 0x90
	; CHECK-NEXT: .LBB0_2: # %forbody			; CHECK-NEXT: .LBB0_2: # %forbody
	; CHECK-NEXT: # in Loop: Header=BB0_1 Depth=1			; CHECK-NEXT: # in Loop: Header=BB0_1 Depth=1
	; CHECK-NEXT: movslq -{{[0-9]+}}(%rsp), %rax			; CHECK-NEXT: movslq -{{[0-9]+}}(%rsp), %rax
	; CHECK-NEXT: movq -{{[0-9]+}}(%rsp), %rcx			; CHECK-NEXT: movq -{{[0-9]+}}(%rsp), %rcx
	; CHECK-NEXT: shlq $4, %rax			; CHECK-NEXT: shlq $4, %rax
	; CHECK-NEXT: movq -{{[0-9]+}}(%rsp), %rdx			; CHECK-NEXT: movq -{{[0-9]+}}(%rsp), %rdx
	; CHECK-NEXT: movdqa (%rdx,%rax), %xmm1			; CHECK-NEXT: movdqa (%rdx,%rax), %xmm1
	; CHECK-NEXT: pslld $2, %xmm1			; CHECK-NEXT: pslld $2, %xmm1
	; CHECK-NEXT: psubd %xmm0, %xmm1			; CHECK-NEXT: paddd %xmm0, %xmm1
	; CHECK-NEXT: pextrd $2, %xmm1, 8(%rcx,%rax)			; CHECK-NEXT: pextrd $2, %xmm1, 8(%rcx,%rax)
	; CHECK-NEXT: movq %xmm1, (%rcx,%rax)			; CHECK-NEXT: movq %xmm1, (%rcx,%rax)
	; CHECK-NEXT: incl -{{[0-9]+}}(%rsp)			; CHECK-NEXT: incl -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: .LBB0_1: # %forcond			; CHECK-NEXT: .LBB0_1: # %forcond
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: movl -{{[0-9]+}}(%rsp), %eax			; CHECK-NEXT: movl -{{[0-9]+}}(%rsp), %eax
	; CHECK-NEXT: cmpl -{{[0-9]+}}(%rsp), %eax			; CHECK-NEXT: cmpl -{{[0-9]+}}(%rsp), %eax
	; CHECK-NEXT: jl .LBB0_2			; CHECK-NEXT: jl .LBB0_2
	▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

test/CodeGen/X86/widen_cast-4.ll

	Show All 40 Lines
	;			;
	; WIDE-LABEL: update:			; WIDE-LABEL: update:
	; WIDE: # %bb.0: # %entry			; WIDE: # %bb.0: # %entry
	; WIDE-NEXT: subl $12, %esp			; WIDE-NEXT: subl $12, %esp
	; WIDE-NEXT: movl $0, (%esp)			; WIDE-NEXT: movl $0, (%esp)
	; WIDE-NEXT: pcmpeqd %xmm0, %xmm0			; WIDE-NEXT: pcmpeqd %xmm0, %xmm0
	; WIDE-NEXT: movdqa {{.*#+}} xmm1 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; WIDE-NEXT: movdqa {{.*#+}} xmm1 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; WIDE-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; WIDE-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
				; WIDE-NEXT: movdqa {{.*#+}} xmm3 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]
	; WIDE-NEXT: jmp .LBB0_1			; WIDE-NEXT: jmp .LBB0_1
	; WIDE-NEXT: .p2align 4, 0x90			; WIDE-NEXT: .p2align 4, 0x90
	; WIDE-NEXT: .LBB0_2: # %forbody			; WIDE-NEXT: .LBB0_2: # %forbody
	; WIDE-NEXT: # in Loop: Header=BB0_1 Depth=1			; WIDE-NEXT: # in Loop: Header=BB0_1 Depth=1
	; WIDE-NEXT: movl (%esp), %eax			; WIDE-NEXT: movl (%esp), %eax
	; WIDE-NEXT: leal (,%eax,8), %ecx			; WIDE-NEXT: leal (,%eax,8), %ecx
	; WIDE-NEXT: movl {{[0-9]+}}(%esp), %edx			; WIDE-NEXT: movl {{[0-9]+}}(%esp), %edx
	; WIDE-NEXT: addl %ecx, %edx			; WIDE-NEXT: addl %ecx, %edx
	; WIDE-NEXT: movl %edx, {{[0-9]+}}(%esp)			; WIDE-NEXT: movl %edx, {{[0-9]+}}(%esp)
	; WIDE-NEXT: addl {{[0-9]+}}(%esp), %ecx			; WIDE-NEXT: addl {{[0-9]+}}(%esp), %ecx
	; WIDE-NEXT: movl %ecx, {{[0-9]+}}(%esp)			; WIDE-NEXT: movl %ecx, {{[0-9]+}}(%esp)
	; WIDE-NEXT: movq {{.*#+}} xmm3 = mem[0],zero			; WIDE-NEXT: movq {{.*#+}} xmm4 = mem[0],zero
	; WIDE-NEXT: psubb %xmm0, %xmm3			; WIDE-NEXT: psubb %xmm0, %xmm4
	; WIDE-NEXT: psrlw $2, %xmm3			; WIDE-NEXT: psrlw $2, %xmm4
	; WIDE-NEXT: pand %xmm1, %xmm3			; WIDE-NEXT: pand %xmm1, %xmm4
	; WIDE-NEXT: pxor %xmm2, %xmm3			; WIDE-NEXT: pxor %xmm2, %xmm4
	; WIDE-NEXT: psubb %xmm2, %xmm3			; WIDE-NEXT: paddb %xmm3, %xmm4
	; WIDE-NEXT: movq %xmm3, (%edx,%eax,8)			; WIDE-NEXT: movq %xmm4, (%edx,%eax,8)
	; WIDE-NEXT: incl (%esp)			; WIDE-NEXT: incl (%esp)
	; WIDE-NEXT: .LBB0_1: # %forcond			; WIDE-NEXT: .LBB0_1: # %forcond
	; WIDE-NEXT: # =>This Inner Loop Header: Depth=1			; WIDE-NEXT: # =>This Inner Loop Header: Depth=1
	; WIDE-NEXT: movl (%esp), %eax			; WIDE-NEXT: movl (%esp), %eax
	; WIDE-NEXT: cmpl {{[0-9]+}}(%esp), %eax			; WIDE-NEXT: cmpl {{[0-9]+}}(%esp), %eax
	; WIDE-NEXT: jl .LBB0_2			; WIDE-NEXT: jl .LBB0_2
	; WIDE-NEXT: # %bb.3: # %afterfor			; WIDE-NEXT: # %bb.3: # %afterfor
	; WIDE-NEXT: addl $12, %esp			; WIDE-NEXT: addl $12, %esp
	▲ Show 20 Lines • Show All 53 Lines • Show Last 20 Lines

test/CodeGen/X86/x86-shifts.ll

Show First 20 Lines • Show All 347 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
ret <16 x i8> %B		ret <16 x i8> %B
}		}

define <16 x i8> @sra_v16i8(<16 x i8> %A) nounwind {		define <16 x i8> @sra_v16i8(<16 x i8> %A) nounwind {
; X32-LABEL: sra_v16i8:		; X32-LABEL: sra_v16i8:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: psrlw $3, %xmm0		; X32-NEXT: psrlw $3, %xmm0
; X32-NEXT: pand {{\.LCPI.*}}, %xmm0		; X32-NEXT: pand {{\.LCPI.*}}, %xmm0
; X32-NEXT: movdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; X32-NEXT: pxor {{\.LCPI.*}}, %xmm0
; X32-NEXT: pxor %xmm1, %xmm0		; X32-NEXT: paddb {{\.LCPI.*}}, %xmm0
; X32-NEXT: psubb %xmm1, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: sra_v16i8:		; X64-LABEL: sra_v16i8:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: psrlw $3, %xmm0		; X64-NEXT: psrlw $3, %xmm0
; X64-NEXT: pand {{.*}}(%rip), %xmm0		; X64-NEXT: pand {{.*}}(%rip), %xmm0
; X64-NEXT: movdqa {{.*#+}} xmm1 = [16,16,16,16,16,16,16,16,16,16,16,16,16,16,16,16]		; X64-NEXT: pxor {{.*}}(%rip), %xmm0
; X64-NEXT: pxor %xmm1, %xmm0		; X64-NEXT: paddb {{.*}}(%rip), %xmm0
; X64-NEXT: psubb %xmm1, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%B = ashr <16 x i8> %A, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>		%B = ashr <16 x i8> %A, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>
ret <16 x i8> %B		ret <16 x i8> %B
}		}

This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombine][X86][AArch64][AMDGPU][MIPS][PPC] (sub x, c) -> (add x, -c) vector edition.AbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 201043

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

test/CodeGen/AArch64/sink-addsub-of-const.ll

test/CodeGen/AArch64/vec_cttz.ll

test/CodeGen/AMDGPU/sub.v2i16.ll

test/CodeGen/Mips/msa/arithmetic.ll

test/CodeGen/Mips/msa/i5-s.ll

test/CodeGen/PowerPC/vec_add_sub_doubleword.ll

test/CodeGen/PowerPC/vec_add_sub_quadword.ll

test/CodeGen/PowerPC/vec_splat.ll

test/CodeGen/X86/avx-shift.ll

test/CodeGen/X86/avx2-shift.ll

test/CodeGen/X86/combine-sdiv.ll

test/CodeGen/X86/combine-sub.ll

test/CodeGen/X86/known-signbits-vector.ll

test/CodeGen/X86/packss.ll

test/CodeGen/X86/prefer-avx256-lzcnt.ll

test/CodeGen/X86/sadd_sat_vec.ll

test/CodeGen/X86/sink-addsub-of-const.ll

test/CodeGen/X86/ssub_sat_vec.ll

test/CodeGen/X86/vec_ctbits.ll

test/CodeGen/X86/vector-fshl-128.ll

test/CodeGen/X86/vector-fshl-256.ll

test/CodeGen/X86/vector-idiv-sdiv-128.ll

test/CodeGen/X86/vector-idiv-sdiv-256.ll

test/CodeGen/X86/vector-idiv-sdiv-512.ll

test/CodeGen/X86/vector-lzcnt-128.ll

test/CodeGen/X86/vector-lzcnt-256.ll

test/CodeGen/X86/vector-lzcnt-512.ll

test/CodeGen/X86/vector-shift-ashr-128.ll

test/CodeGen/X86/vector-shift-ashr-256.ll

test/CodeGen/X86/vector-shift-ashr-512.ll

test/CodeGen/X86/vector-shift-ashr-sub128-widen.ll

test/CodeGen/X86/vector-shift-ashr-sub128.ll

test/CodeGen/X86/vector-trunc-math-widen.ll

test/CodeGen/X86/vector-trunc-math.ll

test/CodeGen/X86/vector_splat-const-shift-of-constmasked.ll

test/CodeGen/X86/widen_arith-4.ll

test/CodeGen/X86/widen_arith-5.ll

test/CodeGen/X86/widen_cast-4.ll

test/CodeGen/X86/x86-shifts.ll

[DAGCombine][X86][AArch64][AMDGPU][MIPS][PPC] (sub x, c) -> (add x, -c) vector edition.
AbandonedPublic