This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/trunk/
-
trunk/
-
lib/CodeGen/SelectionDAG/
-
CodeGen/
-
SelectionDAG/
-
DAGCombiner.cpp
-
test/CodeGen/
-
CodeGen/
-
AArch64/
-
sink-addsub-of-const.ll
-
X86/
-
sink-addsub-of-const.ll
-
vector-idiv-sdiv-128.ll
-
vector-idiv-sdiv-256.ll
-
vector-idiv-sdiv-512.ll

Differential D62257

[DAGCombiner][X86][AArch64] (x - C) + y -> (x + y) - C fold
ClosedPublic

Authored by lebedev.ri on May 22 2019, 8:10 AM.

Download Raw Diff

Details

Reviewers

RKSimon
craig.topper
spatel

Commits

rGa4e3b50e2651: [DAGCombiner][X86][AArch64] (x - C) + y -> (x + y) - C fold. Try 2
rL362146: [DAGCombiner][X86][AArch64] (x - C) + y -> (x + y) - C fold. Try 2
rG6a24c9b9abd0: [DAGCombiner][X86][AArch64] (x - C) + y -> (x + y) - C fold
rL361854: [DAGCombiner][X86][AArch64] (x - C) + y -> (x + y) - C fold

Summary

Only vector tests are being affected here,
since subtraction by scalar constant is rewritten
as addition by negated constant.

No surprising test changes.

https://rise4fun.com/Alive/pbT

Diff Detail

Repository: rL LLVM

Event Timeline

lebedev.ri created this revision.May 22 2019, 8:10 AM

Herald added subscribers: kristof.beyls, javed.absar. · View Herald TranscriptMay 22 2019, 8:10 AM

lebedev.ri added a parent revision: D62252: [DAGCombiner][X86][AArch64][SPARC][SystemZ] y - (x + C) -> (y - x) - C fold.May 22 2019, 8:10 AM

Its rather annoying that the DAGCombiner::visitSUB limits the (sub x, c) -> (add x, -c) fold to non-vectors

In D62257#1512176, @RKSimon wrote:

Its rather annoying that the DAGCombiner::visitSUB limits the (sub x, c) -> (add x, -c) fold to non-vectors

I suppose i could take a look at that, but i'd like to cram out the remaining patches for sink-addsub-of-const.ll.
And the follow-ups - preservation of neg, creation of neg (no new ISD opcode), thus fixing PR41952.

lebedev.ri added a child revision: D62263: [DAGCombine][X86][AArch64][AMDGPU] (x - y) + -1 -> add (xor y, -1), x fold.May 22 2019, 10:33 AM

LGTM with one minor

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
2457 ↗	(On Diff #200751)	Add a comment explaining that this is necessary because SUB(X,C) -> ADD(X,-C) doesn't work for vectors.

This revision is now accepted and ready to land.May 26 2019, 6:16 AM

Rebased, NFC.

Closed by commit rL361854: [DAGCombiner][X86][AArch64] (x - C) + y -> (x + y) - C fold (authored by lebedevri). · Explain WhyMay 28 2019, 10:51 AM

This revision was automatically updated to reflect the committed changes.

One of the patches seems to have introduced a hang in test-suite, reverted.

This revision is now accepted and ready to land.May 28 2019, 12:04 PM

This particular patch appears to be the culprit, it's parent patches are fine.

lebedev.ri mentioned this in D62266: [DAGCombine][X86][AArch64][ARM] (C - x) + y -> (y - x) + C fold.May 29 2019, 1:48 PM

In D62257#1519873, @lebedev.ri wrote:

This particular patch appears to be the culprit, it's parent patches are fine.

And reduced test-suite/MultiSource/Benchmarks/TSVC/ControlFlow-dbl/tsc.c to

; ModuleID = 'bugpoint-reduced-simplified.bc'
source_filename = "input.c"
target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-unknown-linux-gnu"

define dso_local <4 x i32> @b(<4 x i64> %arg) local_unnamed_addr #0 {
  %t0 = add <4 x i64> %arg, <i64 8, i64 8, i64 8, i64 8>
  %t1 = trunc <4 x i64> %t0 to <4 x i32>
  %t2 = add <4 x i32> %t1, <i32 1, i32 1, i32 1, i32 1>
  %t3 = and <4 x i32> %t2, <i32 3, i32 3, i32 3, i32 3>
  ret <4 x i32> %t3
}

attributes #0 = { "use-soft-float"="false" }

!llvm.ident = !{!0}

!0 = !{!"clang version 9.0.0 (trunk 362014) (llvm/trunk 362022)"}

Hmm yeah, i should have seen it coming.
These patches will expose a lot of missing constant folds.
And by expose i mean it will stumble into cases like

; ((%arg0 + 8) - (-1))
%t0 = add %arg0, 8 ; 8 is constant, so hoist binop
%t1 = sub %t0, -1

and will change that to

; ((%arg0 - (-1)) + 8)
%t0 = sub %arg0, -1 ; -1 is constant, so hoist binop
%t1 = add %t0, 8

and then the complementary fold will undo that, if we fail to constant-fold inbetween.

Diffusion mentioned this in rL362093: [NFC][Codegen] Add add+sub/sub+add constant-fold tests for from D62257.May 30 2019, 6:03 AM

lebedev.ri mentioned this in rG8f220a5d2c85: [NFC][Codegen] Add add+sub/sub+add constant-fold tests for from D62257.May 30 2019, 6:03 AM

lebedev.ri mentioned this in D62662: [DAGCombine] ((A-c1)+c2) -> (A+(c2-c1)) constant-fold.May 30 2019, 7:11 AM

lebedev.ri mentioned this in D62664: [DAGCombine] (A+C1)-C2 -> A+(C1-C2) constant-fold.May 30 2019, 7:14 AM

lebedev.ri added a parent revision: D62664: [DAGCombine] (A+C1)-C2 -> A+(C1-C2) constant-fold.

lebedev.ri removed a parent revision: D62664: [DAGCombine] (A+C1)-C2 -> A+(C1-C2) constant-fold.May 30 2019, 9:36 AM

Diffusion mentioned this in rL362131: [DAGCombine] ((A-c1)+c2) -> (A+(c2-c1)) constant-fold.May 30 2019, 12:25 PM

Diffusion mentioned this in rL362133: [DAGCombine] (A+C1)-C2 -> A+(C1-C2) constant-fold.

lebedev.ri mentioned this in rGcc9a9cf23784: [DAGCombine] ((A-c1)+c2) -> (A+(c2-c1)) constant-fold.May 30 2019, 12:25 PM

lebedev.ri mentioned this in rG0a3dbbcdfb54: [DAGCombine] (A+C1)-C2 -> A+(C1-C2) constant-fold.

lebedev.ri removed a child revision: D62263: [DAGCombine][X86][AArch64][AMDGPU] (x - y) + -1 -> add (xor y, -1), x fold.May 30 2019, 1:21 PM

lebedev.ri removed a parent revision: D62252: [DAGCombiner][X86][AArch64][SPARC][SystemZ] y - (x + C) -> (y - x) - C fold.

lebedev.ri added a parent revision: D62294: [DAGCombine] (x - C) - y -> (x - y) - C fold.

lebedev.ri added a child revision: D62266: [DAGCombine][X86][AArch64][ARM] (C - x) + y -> (y - x) + C fold.May 30 2019, 1:24 PM

Closed by commit rL362146: [DAGCombiner][X86][AArch64] (x - C) + y -> (x + y) - C fold. Try 2 (authored by lebedevri). · Explain WhyMay 30 2019, 1:36 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

8 lines

test/

CodeGen/

AArch64/

sink-addsub-of-const.ll

6 lines

X86/

sink-addsub-of-const.ll

12 lines

vector-idiv-sdiv-128.ll

20 lines

vector-idiv-sdiv-256.ll

16 lines

vector-idiv-sdiv-512.ll

12 lines

Diff 202290

llvm/trunk/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,464 Lines • ▼ Show 20 Lines	if (N1.getOpcode() == ISD::SHL && N1.getOperand(0).getOpcode() == ISD::SUB &&
return DAG.getNode(ISD::SUB, DL, VT, N0,		return DAG.getNode(ISD::SUB, DL, VT, N0,
DAG.getNode(ISD::SHL, DL, VT,		DAG.getNode(ISD::SHL, DL, VT,
N1.getOperand(0).getOperand(1),		N1.getOperand(0).getOperand(1),
N1.getOperand(1)));		N1.getOperand(1)));

if (SDValue V = foldAddSubMasked1(true, N0, N1, DAG, DL))		if (SDValue V = foldAddSubMasked1(true, N0, N1, DAG, DL))
return V;		return V;

		// Hoist one-use subtraction by constant: (x - C) + y -> (x + y) - C
		// This is necessary because SUB(X,C) -> ADD(X,-C) doesn't work for vectors.
		if (N0.hasOneUse() && N0.getOpcode() == ISD::SUB &&
		isConstantOrConstantVector(N0.getOperand(1))) {
		SDValue Add = DAG.getNode(ISD::ADD, DL, VT, N0.getOperand(0), N1);
		return DAG.getNode(ISD::SUB, DL, VT, Add, N0.getOperand(1));
		}

// If the target's bool is represented as 0/1, prefer to make this 'sub 0/1'		// If the target's bool is represented as 0/1, prefer to make this 'sub 0/1'
// rather than 'add 0/-1' (the zext should get folded).		// rather than 'add 0/-1' (the zext should get folded).
// add (sext i1 Y), X --> sub X, (zext i1 Y)		// add (sext i1 Y), X --> sub X, (zext i1 Y)
if (N0.getOpcode() == ISD::SIGN_EXTEND &&		if (N0.getOpcode() == ISD::SIGN_EXTEND &&
N0.getOperand(0).getScalarValueSizeInBits() == 1 &&		N0.getOperand(0).getScalarValueSizeInBits() == 1 &&
TLI.getBooleanContents(VT) == TargetLowering::ZeroOrOneBooleanContent) {		TLI.getBooleanContents(VT) == TargetLowering::ZeroOrOneBooleanContent) {
SDValue ZExt = DAG.getNode(ISD::ZERO_EXTEND, DL, VT, N0.getOperand(0));		SDValue ZExt = DAG.getNode(ISD::ZERO_EXTEND, DL, VT, N0.getOperand(0));
return DAG.getNode(ISD::SUB, DL, VT, N1, ZExt);		return DAG.getNode(ISD::SUB, DL, VT, N1, ZExt);
▲ Show 20 Lines • Show All 17,790 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AArch64/sink-addsub-of-const.ll

Show First 20 Lines • Show All 212 Lines • ▼ Show 20 Lines
; Outer 'add' is commutative - 2 variants.		; Outer 'add' is commutative - 2 variants.

define <4 x i32> @vec_sink_sub_of_const_to_add0(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_sub_of_const_to_add0(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; CHECK-LABEL: vec_sink_sub_of_const_to_add0:		; CHECK-LABEL: vec_sink_sub_of_const_to_add0:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: adrp x8, .LCPI14_0		; CHECK-NEXT: adrp x8, .LCPI14_0
; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI14_0]		; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI14_0]
; CHECK-NEXT: add v0.4s, v0.4s, v1.4s		; CHECK-NEXT: add v0.4s, v0.4s, v1.4s
; CHECK-NEXT: sub v0.4s, v0.4s, v3.4s
; CHECK-NEXT: add v0.4s, v0.4s, v2.4s		; CHECK-NEXT: add v0.4s, v0.4s, v2.4s
		; CHECK-NEXT: sub v0.4s, v0.4s, v3.4s
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%t0 = add <4 x i32> %a, %b		%t0 = add <4 x i32> %a, %b
%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>		%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>
%r = add <4 x i32> %t1, %c		%r = add <4 x i32> %t1, %c
ret <4 x i32> %r		ret <4 x i32> %r
}		}
define <4 x i32> @vec_sink_sub_of_const_to_add1(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_sub_of_const_to_add1(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; CHECK-LABEL: vec_sink_sub_of_const_to_add1:		; CHECK-LABEL: vec_sink_sub_of_const_to_add1:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: adrp x8, .LCPI15_0		; CHECK-NEXT: adrp x8, .LCPI15_0
; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI15_0]		; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI15_0]
; CHECK-NEXT: add v0.4s, v0.4s, v1.4s		; CHECK-NEXT: add v0.4s, v0.4s, v1.4s
		; CHECK-NEXT: add v0.4s, v0.4s, v2.4s
; CHECK-NEXT: sub v0.4s, v0.4s, v3.4s		; CHECK-NEXT: sub v0.4s, v0.4s, v3.4s
; CHECK-NEXT: add v0.4s, v2.4s, v0.4s
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%t0 = add <4 x i32> %a, %b		%t0 = add <4 x i32> %a, %b
%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>		%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>
%r = add <4 x i32> %c, %t1		%r = add <4 x i32> %c, %t1
ret <4 x i32> %r		ret <4 x i32> %r
}		}

; add (sub C, %x), %y		; add (sub C, %x), %y
▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
ret <4 x i32> %r		ret <4 x i32> %r
}		}
define <4 x i32> @vec_sink_sub_from_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_sub_from_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; CHECK-LABEL: vec_sink_sub_from_const_to_sub2:		; CHECK-LABEL: vec_sink_sub_from_const_to_sub2:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: adrp x8, .LCPI23_0		; CHECK-NEXT: adrp x8, .LCPI23_0
; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI23_0]		; CHECK-NEXT: ldr q3, [x8, :lo12:.LCPI23_0]
; CHECK-NEXT: sub v0.4s, v0.4s, v1.4s		; CHECK-NEXT: sub v0.4s, v0.4s, v1.4s
		; CHECK-NEXT: add v0.4s, v0.4s, v2.4s
; CHECK-NEXT: sub v0.4s, v0.4s, v3.4s		; CHECK-NEXT: sub v0.4s, v0.4s, v3.4s
; CHECK-NEXT: add v0.4s, v2.4s, v0.4s
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%t0 = sub <4 x i32> %a, %b		%t0 = sub <4 x i32> %a, %b
%t1 = sub <4 x i32> <i32 42, i32 24, i32 undef, i32 46>, %t0		%t1 = sub <4 x i32> <i32 42, i32 24, i32 undef, i32 46>, %t0
%r = sub <4 x i32> %c, %t1		%r = sub <4 x i32> %c, %t1
ret <4 x i32> %r		ret <4 x i32> %r
}		}

llvm/trunk/test/CodeGen/X86/sink-addsub-of-const.ll

Show First 20 Lines • Show All 335 Lines • ▼ Show 20 Lines
}		}

; add (sub %x, C), %y		; add (sub %x, C), %y
; Outer 'add' is commutative - 2 variants.		; Outer 'add' is commutative - 2 variants.

define <4 x i32> @vec_sink_sub_of_const_to_add0(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_sub_of_const_to_add0(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; X32-LABEL: vec_sink_sub_of_const_to_add0:		; X32-LABEL: vec_sink_sub_of_const_to_add0:
; X32: # %bb.0:		; X32: # %bb.0:
		; X32-NEXT: paddd %xmm2, %xmm1
; X32-NEXT: paddd %xmm1, %xmm0		; X32-NEXT: paddd %xmm1, %xmm0
; X32-NEXT: psubd {{\.LCPI.*}}, %xmm0		; X32-NEXT: psubd {{\.LCPI.*}}, %xmm0
; X32-NEXT: paddd %xmm2, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: vec_sink_sub_of_const_to_add0:		; X64-LABEL: vec_sink_sub_of_const_to_add0:
; X64: # %bb.0:		; X64: # %bb.0:
		; X64-NEXT: paddd %xmm2, %xmm1
; X64-NEXT: paddd %xmm1, %xmm0		; X64-NEXT: paddd %xmm1, %xmm0
; X64-NEXT: psubd {{.*}}(%rip), %xmm0		; X64-NEXT: psubd {{.*}}(%rip), %xmm0
; X64-NEXT: paddd %xmm2, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%t0 = add <4 x i32> %a, %b		%t0 = add <4 x i32> %a, %b
%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>		%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>
%r = add <4 x i32> %t1, %c		%r = add <4 x i32> %t1, %c
ret <4 x i32> %r		ret <4 x i32> %r
}		}
define <4 x i32> @vec_sink_sub_of_const_to_add1(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_sub_of_const_to_add1(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; X32-LABEL: vec_sink_sub_of_const_to_add1:		; X32-LABEL: vec_sink_sub_of_const_to_add1:
; X32: # %bb.0:		; X32: # %bb.0:
		; X32-NEXT: paddd %xmm2, %xmm1
; X32-NEXT: paddd %xmm1, %xmm0		; X32-NEXT: paddd %xmm1, %xmm0
; X32-NEXT: psubd {{\.LCPI.*}}, %xmm0		; X32-NEXT: psubd {{\.LCPI.*}}, %xmm0
; X32-NEXT: paddd %xmm2, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: vec_sink_sub_of_const_to_add1:		; X64-LABEL: vec_sink_sub_of_const_to_add1:
; X64: # %bb.0:		; X64: # %bb.0:
		; X64-NEXT: paddd %xmm2, %xmm1
; X64-NEXT: paddd %xmm1, %xmm0		; X64-NEXT: paddd %xmm1, %xmm0
; X64-NEXT: psubd {{.*}}(%rip), %xmm0		; X64-NEXT: psubd {{.*}}(%rip), %xmm0
; X64-NEXT: paddd %xmm2, %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%t0 = add <4 x i32> %a, %b		%t0 = add <4 x i32> %a, %b
%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>		%t1 = sub <4 x i32> %t0, <i32 42, i32 24, i32 undef, i32 46>
%r = add <4 x i32> %c, %t1		%r = add <4 x i32> %c, %t1
ret <4 x i32> %r		ret <4 x i32> %r
}		}

; add (sub C, %x), %y		; add (sub C, %x), %y
▲ Show 20 Lines • Show All 139 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%t1 = sub <4 x i32> <i32 42, i32 24, i32 undef, i32 46>, %t0		%t1 = sub <4 x i32> <i32 42, i32 24, i32 undef, i32 46>, %t0
%r = sub <4 x i32> %t1, %c		%r = sub <4 x i32> %t1, %c
ret <4 x i32> %r		ret <4 x i32> %r
}		}
define <4 x i32> @vec_sink_sub_from_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {		define <4 x i32> @vec_sink_sub_from_const_to_sub2(<4 x i32> %a, <4 x i32> %b, <4 x i32> %c) {
; X32-LABEL: vec_sink_sub_from_const_to_sub2:		; X32-LABEL: vec_sink_sub_from_const_to_sub2:
; X32: # %bb.0:		; X32: # %bb.0:
; X32-NEXT: psubd %xmm1, %xmm0		; X32-NEXT: psubd %xmm1, %xmm0
; X32-NEXT: psubd {{\.LCPI.*}}, %xmm0
; X32-NEXT: paddd %xmm2, %xmm0		; X32-NEXT: paddd %xmm2, %xmm0
		; X32-NEXT: psubd {{\.LCPI.*}}, %xmm0
; X32-NEXT: retl		; X32-NEXT: retl
;		;
; X64-LABEL: vec_sink_sub_from_const_to_sub2:		; X64-LABEL: vec_sink_sub_from_const_to_sub2:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: psubd %xmm1, %xmm0		; X64-NEXT: psubd %xmm1, %xmm0
; X64-NEXT: psubd {{.*}}(%rip), %xmm0
; X64-NEXT: paddd %xmm2, %xmm0		; X64-NEXT: paddd %xmm2, %xmm0
		; X64-NEXT: psubd {{.*}}(%rip), %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
%t0 = sub <4 x i32> %a, %b		%t0 = sub <4 x i32> %a, %b
%t1 = sub <4 x i32> <i32 42, i32 24, i32 undef, i32 46>, %t0		%t1 = sub <4 x i32> <i32 42, i32 24, i32 undef, i32 46>, %t0
%r = sub <4 x i32> %c, %t1		%r = sub <4 x i32> %c, %t1
ret <4 x i32> %r		ret <4 x i32> %r
}		}

llvm/trunk/test/CodeGen/X86/vector-idiv-sdiv-128.ll

	Show First 20 Lines • Show All 180 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psrlw $8, %xmm1			; SSE2-NEXT: psrlw $8, %xmm1
	; SSE2-NEXT: packuswb %xmm2, %xmm1			; SSE2-NEXT: packuswb %xmm2, %xmm1
	; SSE2-NEXT: paddb %xmm0, %xmm1			; SSE2-NEXT: paddb %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: psrlw $2, %xmm0			; SSE2-NEXT: psrlw $2, %xmm0
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm0			; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; SSE2-NEXT: pxor %xmm2, %xmm0			; SSE2-NEXT: pxor %xmm2, %xmm0
	; SSE2-NEXT: psubb %xmm2, %xmm0
	; SSE2-NEXT: psrlw $7, %xmm1			; SSE2-NEXT: psrlw $7, %xmm1
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm1			; SSE2-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE2-NEXT: paddb %xmm0, %xmm1			; SSE2-NEXT: paddb %xmm0, %xmm1
				; SSE2-NEXT: psubb %xmm2, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm0			; SSE2-NEXT: movdqa %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_div7_16i8:			; SSE41-LABEL: test_div7_16i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm1			; SSE41-NEXT: pmovsxbw %xmm0, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; SSE41-NEXT: pmullw %xmm2, %xmm1			; SSE41-NEXT: pmullw %xmm2, %xmm1
	; SSE41-NEXT: psrlw $8, %xmm1			; SSE41-NEXT: psrlw $8, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm3, %xmm3			; SSE41-NEXT: pmovsxbw %xmm3, %xmm3
	; SSE41-NEXT: pmullw %xmm2, %xmm3			; SSE41-NEXT: pmullw %xmm2, %xmm3
	; SSE41-NEXT: psrlw $8, %xmm3			; SSE41-NEXT: psrlw $8, %xmm3
	; SSE41-NEXT: packuswb %xmm3, %xmm1			; SSE41-NEXT: packuswb %xmm3, %xmm1
	; SSE41-NEXT: paddb %xmm0, %xmm1			; SSE41-NEXT: paddb %xmm0, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: psrlw $2, %xmm0			; SSE41-NEXT: psrlw $2, %xmm0
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm0			; SSE41-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm2, %xmm0
	; SSE41-NEXT: psubb %xmm2, %xmm0
	; SSE41-NEXT: psrlw $7, %xmm1			; SSE41-NEXT: psrlw $7, %xmm1
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm1			; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE41-NEXT: paddb %xmm0, %xmm1			; SSE41-NEXT: paddb %xmm0, %xmm1
				; SSE41-NEXT: psubb %xmm2, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_div7_16i8:			; AVX1-LABEL: test_div7_16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3			; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm1			; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm1
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $7, %xmm0, %xmm0			; AVX1-NEXT: vpsrlw $7, %xmm0, %xmm0
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm0
				; AVX1-NEXT: vpsubb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_div7_16i8:			; AVX2NOBW-LABEL: test_div7_16i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1
	; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX2NOBW-NEXT: vpsrlw $2, %xmm0, %xmm1			; AVX2NOBW-NEXT: vpsrlw $2, %xmm0, %xmm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX2NOBW-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpsrlw $7, %xmm0, %xmm0			; AVX2NOBW-NEXT: vpsrlw $7, %xmm0, %xmm0
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm0
				; AVX2NOBW-NEXT: vpsubb %xmm2, %xmm0, %xmm0
	; AVX2NOBW-NEXT: vzeroupper			; AVX2NOBW-NEXT: vzeroupper
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_div7_16i8:			; AVX512BW-LABEL: test_div7_16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %xmm0, %ymm1			; AVX512BW-NEXT: vpmovsxbw %xmm0, %ymm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm0
	; AVX512BW-NEXT: vpsrlw $2, %xmm0, %xmm1			; AVX512BW-NEXT: vpsrlw $2, %xmm0, %xmm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512BW-NEXT: vpxor %xmm2, %xmm1, %xmm1			; AVX512BW-NEXT: vpxor %xmm2, %xmm1, %xmm1
	; AVX512BW-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX512BW-NEXT: vpsrlw $7, %xmm0, %xmm0			; AVX512BW-NEXT: vpsrlw $7, %xmm0, %xmm0
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm0			; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm0
				; AVX512BW-NEXT: vpsubb %xmm2, %xmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = sdiv <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = sdiv <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}

	;			;
	; sdiv by non-splat constant			; sdiv by non-splat constant
	▲ Show 20 Lines • Show All 368 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psrlw $8, %xmm1			; SSE2-NEXT: psrlw $8, %xmm1
	; SSE2-NEXT: packuswb %xmm2, %xmm1			; SSE2-NEXT: packuswb %xmm2, %xmm1
	; SSE2-NEXT: paddb %xmm0, %xmm1			; SSE2-NEXT: paddb %xmm0, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm2			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: psrlw $2, %xmm2			; SSE2-NEXT: psrlw $2, %xmm2
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm2			; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; SSE2-NEXT: pxor %xmm3, %xmm2			; SSE2-NEXT: pxor %xmm3, %xmm2
	; SSE2-NEXT: psubb %xmm3, %xmm2
	; SSE2-NEXT: psrlw $7, %xmm1			; SSE2-NEXT: psrlw $7, %xmm1
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm1			; SSE2-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE2-NEXT: paddb %xmm2, %xmm1			; SSE2-NEXT: paddb %xmm2, %xmm1
				; SSE2-NEXT: psubb %xmm3, %xmm1
	; SSE2-NEXT: movdqa %xmm1, %xmm2			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: psllw $3, %xmm2			; SSE2-NEXT: psllw $3, %xmm2
	; SSE2-NEXT: pand {{.*}}(%rip), %xmm2			; SSE2-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE2-NEXT: psubb %xmm2, %xmm1			; SSE2-NEXT: psubb %xmm2, %xmm1
	; SSE2-NEXT: paddb %xmm1, %xmm0			; SSE2-NEXT: paddb %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_rem7_16i8:			; SSE41-LABEL: test_rem7_16i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: pmovsxbw %xmm0, %xmm1			; SSE41-NEXT: pmovsxbw %xmm0, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; SSE41-NEXT: pmullw %xmm2, %xmm1			; SSE41-NEXT: pmullw %xmm2, %xmm1
	; SSE41-NEXT: psrlw $8, %xmm1			; SSE41-NEXT: psrlw $8, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; SSE41-NEXT: pmovsxbw %xmm3, %xmm3			; SSE41-NEXT: pmovsxbw %xmm3, %xmm3
	; SSE41-NEXT: pmullw %xmm2, %xmm3			; SSE41-NEXT: pmullw %xmm2, %xmm3
	; SSE41-NEXT: psrlw $8, %xmm3			; SSE41-NEXT: psrlw $8, %xmm3
	; SSE41-NEXT: packuswb %xmm3, %xmm1			; SSE41-NEXT: packuswb %xmm3, %xmm1
	; SSE41-NEXT: paddb %xmm0, %xmm1			; SSE41-NEXT: paddb %xmm0, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psrlw $2, %xmm2			; SSE41-NEXT: psrlw $2, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; SSE41-NEXT: pxor %xmm3, %xmm2			; SSE41-NEXT: pxor %xmm3, %xmm2
	; SSE41-NEXT: psubb %xmm3, %xmm2
	; SSE41-NEXT: psrlw $7, %xmm1			; SSE41-NEXT: psrlw $7, %xmm1
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm1			; SSE41-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE41-NEXT: paddb %xmm2, %xmm1			; SSE41-NEXT: paddb %xmm2, %xmm1
				; SSE41-NEXT: psubb %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm2			; SSE41-NEXT: movdqa %xmm1, %xmm2
	; SSE41-NEXT: psllw $3, %xmm2			; SSE41-NEXT: psllw $3, %xmm2
	; SSE41-NEXT: pand {{.*}}(%rip), %xmm2			; SSE41-NEXT: pand {{.*}}(%rip), %xmm2
	; SSE41-NEXT: psubb %xmm2, %xmm1			; SSE41-NEXT: psubb %xmm2, %xmm1
	; SSE41-NEXT: paddb %xmm1, %xmm0			; SSE41-NEXT: paddb %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_rem7_16i8:			; AVX1-LABEL: test_rem7_16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpmullw %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $8, %xmm1, %xmm1
	; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3			; AVX1-NEXT: vpmovsxbw %xmm3, %xmm3
	; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpmullw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm0, %xmm1, %xmm1
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm2			; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm2
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm1
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpaddb %xmm1, %xmm2, %xmm1
				; AVX1-NEXT: vpsubb %xmm3, %xmm1, %xmm1
	; AVX1-NEXT: vpsllw $3, %xmm1, %xmm2			; AVX1-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_16i8:			; AVX2NOBW-LABEL: test_rem7_16i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm1
	; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2NOBW-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpackuswb %xmm2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpaddb %xmm0, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpsrlw $2, %xmm1, %xmm2			; AVX2NOBW-NEXT: vpsrlw $2, %xmm1, %xmm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX2NOBW-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX2NOBW-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpsrlw $7, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpsrlw $7, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm2, %xmm1
				; AVX2NOBW-NEXT: vpsubb %xmm3, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpsllw $3, %xmm1, %xmm2			; AVX2NOBW-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX2NOBW-NEXT: vpsubb %xmm2, %xmm1, %xmm1			; AVX2NOBW-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX2NOBW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX2NOBW-NEXT: vzeroupper			; AVX2NOBW-NEXT: vzeroupper
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_16i8:			; AVX512BW-LABEL: test_rem7_16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %xmm0, %ymm1			; AVX512BW-NEXT: vpmovsxbw %xmm0, %ymm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512BW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm1			; AVX512BW-NEXT: vpaddb %xmm0, %xmm1, %xmm1
	; AVX512BW-NEXT: vpsrlw $2, %xmm1, %xmm2			; AVX512BW-NEXT: vpsrlw $2, %xmm1, %xmm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512BW-NEXT: vpxor %xmm3, %xmm2, %xmm2			; AVX512BW-NEXT: vpxor %xmm3, %xmm2, %xmm2
	; AVX512BW-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX512BW-NEXT: vpsrlw $7, %xmm1, %xmm1			; AVX512BW-NEXT: vpsrlw $7, %xmm1, %xmm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vpaddb %xmm1, %xmm2, %xmm1			; AVX512BW-NEXT: vpaddb %xmm1, %xmm2, %xmm1
				; AVX512BW-NEXT: vpsubb %xmm3, %xmm1, %xmm1
	; AVX512BW-NEXT: vpsllw $3, %xmm1, %xmm2			; AVX512BW-NEXT: vpsllw $3, %xmm1, %xmm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %xmm2, %xmm2
	; AVX512BW-NEXT: vpsubb %xmm2, %xmm1, %xmm1			; AVX512BW-NEXT: vpsubb %xmm2, %xmm1, %xmm1
	; AVX512BW-NEXT: vpaddb %xmm1, %xmm0, %xmm0			; AVX512BW-NEXT: vpaddb %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = srem <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = srem <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <16 x i8> %res			ret <16 x i8> %res
	▲ Show 20 Lines • Show All 536 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-idiv-sdiv-256.ll

	Show First 20 Lines • Show All 171 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm2			; AVX1-NEXT: vpsrlw $7, %xmm1, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1			; AVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX1-NEXT: vpand %xmm5, %xmm1, %xmm1			; AVX1-NEXT: vpand %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX1-NEXT: vpxor %xmm6, %xmm1, %xmm1			; AVX1-NEXT: vpxor %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpsubb %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1
				; AVX1-NEXT: vpsubb %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm2			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm2
	; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm7 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm7, %xmm7			; AVX1-NEXT: vpmovsxbw %xmm7, %xmm7
	; AVX1-NEXT: vpmullw %xmm3, %xmm7, %xmm3			; AVX1-NEXT: vpmullw %xmm3, %xmm7, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpaddb %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpsrlw $7, %xmm0, %xmm2			; AVX1-NEXT: vpsrlw $7, %xmm0, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm0			; AVX1-NEXT: vpsrlw $2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm5, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpxor %xmm6, %xmm0, %xmm0			; AVX1-NEXT: vpxor %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vpsubb %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
				; AVX1-NEXT: vpsubb %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_div7_32i8:			; AVX2NOBW-LABEL: test_div7_32i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm3			; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm3
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpackuswb %ymm1, %ymm2, %ymm1			; AVX2NOBW-NEXT: vpackuswb %ymm1, %ymm2, %ymm1
	; AVX2NOBW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,1,3]			; AVX2NOBW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,1,3]
	; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm0
	; AVX2NOBW-NEXT: vpsrlw $2, %ymm0, %ymm1			; AVX2NOBW-NEXT: vpsrlw $2, %ymm0, %ymm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX2NOBW-NEXT: vpxor %ymm2, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpxor %ymm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsubb %ymm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $7, %ymm0, %ymm0			; AVX2NOBW-NEXT: vpsrlw $7, %ymm0, %ymm0
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm0
				; AVX2NOBW-NEXT: vpsubb %ymm2, %ymm0, %ymm0
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_div7_32i8:			; AVX512BW-LABEL: test_div7_32i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm0
	; AVX512BW-NEXT: vpsrlw $2, %ymm0, %ymm1			; AVX512BW-NEXT: vpsrlw $2, %ymm0, %ymm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512BW-NEXT: vpxor %ymm2, %ymm1, %ymm1			; AVX512BW-NEXT: vpxor %ymm2, %ymm1, %ymm1
	; AVX512BW-NEXT: vpsubb %ymm2, %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $7, %ymm0, %ymm0			; AVX512BW-NEXT: vpsrlw $7, %ymm0, %ymm0
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm0, %ymm0
	; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm0			; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm0
				; AVX512BW-NEXT: vpsubb %ymm2, %ymm0, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = sdiv <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = sdiv <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}

	;			;
	; sdiv by non-splat constant			; sdiv by non-splat constant
	;			;
	▲ Show 20 Lines • Show All 336 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpsrlw $7, %xmm2, %xmm4			; AVX1-NEXT: vpsrlw $7, %xmm2, %xmm4
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX1-NEXT: vpand %xmm8, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm8, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX1-NEXT: vpxor %xmm7, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpaddb %xmm4, %xmm2, %xmm2
				; AVX1-NEXT: vpsubb %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpsllw $3, %xmm2, %xmm4			; AVX1-NEXT: vpsllw $3, %xmm2, %xmm4
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
	; AVX1-NEXT: vpand %xmm5, %xmm4, %xmm4			; AVX1-NEXT: vpand %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpsubb %xmm4, %xmm2, %xmm2			; AVX1-NEXT: vpsubb %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpaddb %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpmovsxbw %xmm0, %xmm2			; AVX1-NEXT: vpmovsxbw %xmm0, %xmm2
	; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpmullw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $8, %xmm2, %xmm2
	; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]			; AVX1-NEXT: vpshufd {{.*#+}} xmm4 = xmm0[2,3,0,1]
	; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4			; AVX1-NEXT: vpmovsxbw %xmm4, %xmm4
	; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm3			; AVX1-NEXT: vpmullw %xmm3, %xmm4, %xmm3
	; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3			; AVX1-NEXT: vpsrlw $8, %xmm3, %xmm3
	; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpackuswb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm0, %xmm2, %xmm2			; AVX1-NEXT: vpaddb %xmm0, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlw $7, %xmm2, %xmm3			; AVX1-NEXT: vpsrlw $7, %xmm2, %xmm3
	; AVX1-NEXT: vpand %xmm8, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm8, %xmm3, %xmm3
	; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2			; AVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpxor %xmm7, %xmm2, %xmm2			; AVX1-NEXT: vpxor %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpsubb %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpaddb %xmm3, %xmm2, %xmm2
				; AVX1-NEXT: vpsubb %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpsllw $3, %xmm2, %xmm3			; AVX1-NEXT: vpsllw $3, %xmm2, %xmm3
	; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm5, %xmm3, %xmm3
	; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpsubb %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpaddb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2NOBW-LABEL: test_rem7_32i8:			; AVX2NOBW-LABEL: test_rem7_32i8:
	; AVX2NOBW: # %bb.0:			; AVX2NOBW: # %bb.0:
	; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1			; AVX2NOBW-NEXT: vextracti128 $1, %ymm0, %xmm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1			; AVX2NOBW-NEXT: vpmovsxbw %xmm1, %ymm1
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm3			; AVX2NOBW-NEXT: vpmovsxbw %xmm0, %ymm3
	; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2			; AVX2NOBW-NEXT: vpmullw %ymm2, %ymm3, %ymm2
	; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX2NOBW-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpackuswb %ymm1, %ymm2, %ymm1			; AVX2NOBW-NEXT: vpackuswb %ymm1, %ymm2, %ymm1
	; AVX2NOBW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,1,3]			; AVX2NOBW-NEXT: vpermq {{.*#+}} ymm1 = ymm1[0,2,1,3]
	; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpaddb %ymm0, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsrlw $2, %ymm1, %ymm2			; AVX2NOBW-NEXT: vpsrlw $2, %ymm1, %ymm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX2NOBW-NEXT: vmovdqa {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX2NOBW-NEXT: vpxor %ymm3, %ymm2, %ymm2			; AVX2NOBW-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpsubb %ymm3, %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpsrlw $7, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsrlw $7, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm2, %ymm1
				; AVX2NOBW-NEXT: vpsubb %ymm3, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpsllw $3, %ymm1, %ymm2			; AVX2NOBW-NEXT: vpsllw $3, %ymm1, %ymm2
	; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX2NOBW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX2NOBW-NEXT: vpsubb %ymm2, %ymm1, %ymm1			; AVX2NOBW-NEXT: vpsubb %ymm2, %ymm1, %ymm1
	; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX2NOBW-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX2NOBW-NEXT: retq			; AVX2NOBW-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_32i8:			; AVX512BW-LABEL: test_rem7_32i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1
	; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm1			; AVX512BW-NEXT: vpaddb %ymm0, %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $2, %ymm1, %ymm2			; AVX512BW-NEXT: vpsrlw $2, %ymm1, %ymm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512BW-NEXT: vpxor %ymm3, %ymm2, %ymm2			; AVX512BW-NEXT: vpxor %ymm3, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsubb %ymm3, %ymm2, %ymm2
	; AVX512BW-NEXT: vpsrlw $7, %ymm1, %ymm1			; AVX512BW-NEXT: vpsrlw $7, %ymm1, %ymm1
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512BW-NEXT: vpaddb %ymm1, %ymm2, %ymm1
				; AVX512BW-NEXT: vpsubb %ymm3, %ymm1, %ymm1
	; AVX512BW-NEXT: vpsllw $3, %ymm1, %ymm2			; AVX512BW-NEXT: vpsllw $3, %ymm1, %ymm2
	; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2			; AVX512BW-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; AVX512BW-NEXT: vpsubb %ymm2, %ymm1, %ymm1			; AVX512BW-NEXT: vpsubb %ymm2, %ymm1, %ymm1
	; AVX512BW-NEXT: vpaddb %ymm1, %ymm0, %ymm0			; AVX512BW-NEXT: vpaddb %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = srem <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = srem <32 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}
	▲ Show 20 Lines • Show All 152 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-idiv-sdiv-512.ll

	Show First 20 Lines • Show All 140 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpsrlw $7, %ymm0, %ymm2			; AVX512F-NEXT: vpsrlw $7, %ymm0, %ymm2
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX512F-NEXT: vpand %ymm4, %ymm2, %ymm2			; AVX512F-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $2, %ymm0, %ymm0			; AVX512F-NEXT: vpsrlw $2, %ymm0, %ymm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX512F-NEXT: vpand %ymm5, %ymm0, %ymm0			; AVX512F-NEXT: vpand %ymm5, %ymm0, %ymm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512F-NEXT: vpxor %ymm6, %ymm0, %ymm0			; AVX512F-NEXT: vpxor %ymm6, %ymm0, %ymm0
	; AVX512F-NEXT: vpsubb %ymm6, %ymm0, %ymm0
	; AVX512F-NEXT: vpaddb %ymm2, %ymm0, %ymm0			; AVX512F-NEXT: vpaddb %ymm2, %ymm0, %ymm0
				; AVX512F-NEXT: vpsubb %ymm6, %ymm0, %ymm0
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm2			; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm2
	; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX512F-NEXT: vpmovsxbw %xmm1, %ymm7			; AVX512F-NEXT: vpmovsxbw %xmm1, %ymm7
	; AVX512F-NEXT: vpmullw %ymm3, %ymm7, %ymm3			; AVX512F-NEXT: vpmullw %ymm3, %ymm7, %ymm3
	; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3			; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3
	; AVX512F-NEXT: vpackuswb %ymm2, %ymm3, %ymm2			; AVX512F-NEXT: vpackuswb %ymm2, %ymm3, %ymm2
	; AVX512F-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]			; AVX512F-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm1			; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm1
	; AVX512F-NEXT: vpsrlw $7, %ymm1, %ymm2			; AVX512F-NEXT: vpsrlw $7, %ymm1, %ymm2
	; AVX512F-NEXT: vpand %ymm4, %ymm2, %ymm2			; AVX512F-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $2, %ymm1, %ymm1			; AVX512F-NEXT: vpsrlw $2, %ymm1, %ymm1
	; AVX512F-NEXT: vpand %ymm5, %ymm1, %ymm1			; AVX512F-NEXT: vpand %ymm5, %ymm1, %ymm1
	; AVX512F-NEXT: vpxor %ymm6, %ymm1, %ymm1			; AVX512F-NEXT: vpxor %ymm6, %ymm1, %ymm1
	; AVX512F-NEXT: vpsubb %ymm6, %ymm1, %ymm1
	; AVX512F-NEXT: vpaddb %ymm2, %ymm1, %ymm1			; AVX512F-NEXT: vpaddb %ymm2, %ymm1, %ymm1
				; AVX512F-NEXT: vpsubb %ymm6, %ymm1, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_div7_64i8:			; AVX512BW-LABEL: test_div7_64i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm3			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm3
	; AVX512BW-NEXT: vpmovsxbw %ymm3, %zmm3			; AVX512BW-NEXT: vpmovsxbw %ymm3, %zmm3
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $8, %zmm2, %zmm2			; AVX512BW-NEXT: vpsrlw $8, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmovwb %zmm2, %ymm2			; AVX512BW-NEXT: vpmovwb %zmm2, %ymm2
	; AVX512BW-NEXT: vinserti64x4 $1, %ymm2, %zmm1, %zmm1			; AVX512BW-NEXT: vinserti64x4 $1, %ymm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0
	; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $2, %zmm0, %zmm1
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512BW-NEXT: vpxorq %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpxorq %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsubb %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $7, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $7, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm0
				; AVX512BW-NEXT: vpsubb %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = sdiv <64 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = sdiv <64 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}

	;			;
	; sdiv by non-splat constant			; sdiv by non-splat constant
	;			;
	▲ Show 20 Lines • Show All 281 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpsrlw $7, %ymm2, %ymm4			; AVX512F-NEXT: vpsrlw $7, %ymm2, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX512F-NEXT: vpand %ymm5, %ymm4, %ymm4			; AVX512F-NEXT: vpand %ymm5, %ymm4, %ymm4
	; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; AVX512F-NEXT: vpand %ymm6, %ymm2, %ymm2			; AVX512F-NEXT: vpand %ymm6, %ymm2, %ymm2
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm7 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512F-NEXT: vpxor %ymm7, %ymm2, %ymm2			; AVX512F-NEXT: vpxor %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpsubb %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddb %ymm4, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm4, %ymm2, %ymm2
				; AVX512F-NEXT: vpsubb %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm4			; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm8 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm8 = [248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248,248]
	; AVX512F-NEXT: vpand %ymm8, %ymm4, %ymm4			; AVX512F-NEXT: vpand %ymm8, %ymm4, %ymm4
	; AVX512F-NEXT: vpsubb %ymm4, %ymm2, %ymm2			; AVX512F-NEXT: vpsubb %ymm4, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddb %ymm2, %ymm0, %ymm0			; AVX512F-NEXT: vpaddb %ymm2, %ymm0, %ymm0
	; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX512F-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm2			; AVX512F-NEXT: vpmovsxbw %xmm2, %ymm2
	; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2			; AVX512F-NEXT: vpmullw %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $8, %ymm2, %ymm2
	; AVX512F-NEXT: vpmovsxbw %xmm1, %ymm4			; AVX512F-NEXT: vpmovsxbw %xmm1, %ymm4
	; AVX512F-NEXT: vpmullw %ymm3, %ymm4, %ymm3			; AVX512F-NEXT: vpmullw %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3			; AVX512F-NEXT: vpsrlw $8, %ymm3, %ymm3
	; AVX512F-NEXT: vpackuswb %ymm2, %ymm3, %ymm2			; AVX512F-NEXT: vpackuswb %ymm2, %ymm3, %ymm2
	; AVX512F-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]			; AVX512F-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,1,3]
	; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm1, %ymm2, %ymm2
	; AVX512F-NEXT: vpsrlw $7, %ymm2, %ymm3			; AVX512F-NEXT: vpsrlw $7, %ymm2, %ymm3
	; AVX512F-NEXT: vpand %ymm5, %ymm3, %ymm3			; AVX512F-NEXT: vpand %ymm5, %ymm3, %ymm3
	; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $2, %ymm2, %ymm2
	; AVX512F-NEXT: vpand %ymm6, %ymm2, %ymm2			; AVX512F-NEXT: vpand %ymm6, %ymm2, %ymm2
	; AVX512F-NEXT: vpxor %ymm7, %ymm2, %ymm2			; AVX512F-NEXT: vpxor %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpsubb %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddb %ymm3, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm3, %ymm2, %ymm2
				; AVX512F-NEXT: vpsubb %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm3			; AVX512F-NEXT: vpsllw $3, %ymm2, %ymm3
	; AVX512F-NEXT: vpand %ymm8, %ymm3, %ymm3			; AVX512F-NEXT: vpand %ymm8, %ymm3, %ymm3
	; AVX512F-NEXT: vpsubb %ymm3, %ymm2, %ymm2			; AVX512F-NEXT: vpsubb %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddb %ymm2, %ymm1, %ymm1			; AVX512F-NEXT: vpaddb %ymm2, %ymm1, %ymm1
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_rem7_64i8:			; AVX512BW-LABEL: test_rem7_64i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1			; AVX512BW-NEXT: vpmovsxbw %ymm0, %zmm1
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm2 = [65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427,65427]
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpmullw %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $8, %zmm1, %zmm1
	; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1			; AVX512BW-NEXT: vpmovwb %zmm1, %ymm1
	; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm3			; AVX512BW-NEXT: vextracti64x4 $1, %zmm0, %ymm3
	; AVX512BW-NEXT: vpmovsxbw %ymm3, %zmm3			; AVX512BW-NEXT: vpmovsxbw %ymm3, %zmm3
	; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2			; AVX512BW-NEXT: vpmullw %zmm2, %zmm3, %zmm2
	; AVX512BW-NEXT: vpsrlw $8, %zmm2, %zmm2			; AVX512BW-NEXT: vpsrlw $8, %zmm2, %zmm2
	; AVX512BW-NEXT: vpmovwb %zmm2, %ymm2			; AVX512BW-NEXT: vpmovwb %zmm2, %ymm2
	; AVX512BW-NEXT: vinserti64x4 $1, %ymm2, %zmm1, %zmm1			; AVX512BW-NEXT: vinserti64x4 $1, %ymm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddb %zmm0, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsrlw $2, %zmm1, %zmm2			; AVX512BW-NEXT: vpsrlw $2, %zmm1, %zmm2
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2
	; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]			; AVX512BW-NEXT: vmovdqa64 {{.*#+}} zmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; AVX512BW-NEXT: vpxorq %zmm3, %zmm2, %zmm2			; AVX512BW-NEXT: vpxorq %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsubb %zmm3, %zmm2, %zmm2
	; AVX512BW-NEXT: vpsrlw $7, %zmm1, %zmm1			; AVX512BW-NEXT: vpsrlw $7, %zmm1, %zmm1
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm2, %zmm1			; AVX512BW-NEXT: vpaddb %zmm1, %zmm2, %zmm1
				; AVX512BW-NEXT: vpsubb %zmm3, %zmm1, %zmm1
	; AVX512BW-NEXT: vpsllw $3, %zmm1, %zmm2			; AVX512BW-NEXT: vpsllw $3, %zmm1, %zmm2
	; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpandq {{.*}}(%rip), %zmm2, %zmm2
	; AVX512BW-NEXT: vpsubb %zmm2, %zmm1, %zmm1			; AVX512BW-NEXT: vpsubb %zmm2, %zmm1, %zmm1
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0			; AVX512BW-NEXT: vpaddb %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	%res = srem <64 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>			%res = srem <64 x i8> %a, <i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7,i8 7, i8 7, i8 7, i8 7>
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}
	▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines