This is an archive of the discontinued LLVM Phabricator instance.

Lowering x86 adds/addus/subs/subus intrinsics (llvm part)
ClosedPublic

Authored by tkrupa on Mar 22 2018, 9:21 AM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
spatel

Commits

rGe8fed1546e99: Lowering x86 adds/addus/subs/subus intrinsics (llvm part)
rL330322: Lowering x86 adds/addus/subs/subus intrinsics (llvm part)

Summary

This is the patch that lowers x86 intrinsics to native IR
in order to enable optimizations. The patch also includes folding
of previously missing saturation patterns so that IR emits the same
machine instructions as the intrinsics.
Lowering in clang: https://reviews.llvm.org/D44786

Diff Detail

Repository

rL LLVM

Build Status

Buildable 17393
Build 17393: arc lint + arc unit

Event Timeline

tkrupa created this revision.Mar 22 2018, 9:21 AM

Harbormaster completed remote builds in B16345: Diff 139454.Mar 22 2018, 9:23 AM

tkrupa edited the summary of this revision. (Show Details)Mar 22 2018, 9:25 AM

craig.topper added reviewers: craig.topper, RKSimon, spatel.Mar 22 2018, 9:51 AM

craig.topper added a subscriber: llvm-commits.

spatel mentioned this in D25987: [DAG] Match USUBSAT patterns through zext/trunc.Mar 22 2018, 10:36 AM

Please can you rebase to latest? We've already introduced SplitOpsAndApply to do what you're doing with LowerVectorOpToLegalSize

In D44785#1045917, @RKSimon wrote:

Please can you rebase to latest? We've already introduced SplitOpsAndApply to do what you're doing with LowerVectorOpToLegalSize

I rebased it locally and it seems I'll need to partly rework it - in the meantime somebody added a pattern for matching signed saturation and I'll need to adjust to it.

craig.topper added inline comments.Mar 28 2018, 8:33 PM

lib/IR/AutoUpgrade.cpp
87–99	The next release will be 7.0 not 6.0.
lib/Target/X86/X86ISelLowering.cpp
34015	Is this line longer than 80 characters?

tkrupa marked an inline comment as done.Mar 29 2018, 7:13 AM

I rebased to current version of the compiler. Adjusted my patch to existing signed saturation pattern, changed subus pattern to canonical represantation and corrected minor mistakes.
Note: now for specific intrinsics fast-isel emits suboptimal code.

We should probably have a test file for the IR that isn't the fast-isel or schedule test.

We should also test 512 bit vectors with AVX2/AVX512F and 1024-bit vectors with AVX512BW, etc.

lib/Target/X86/X86ISelLowering.cpp
36017	What ensures we don't create X86ISD::ADDS for with a type smaller than 128 bits? For example if VT was v4i8
36059	Line this up with LHS on the line above
36061	Line this up
36066	Identation

tkrupa updated this revision to Diff 140400.Mar 30 2018, 3:09 AM

tkrupa marked 4 inline comments as done.

In D44785#1051950, @craig.topper wrote:

We should probably have a test file for the IR that isn't the fast-isel or schedule test.

Should I write additional ones or replace calls with IR in upgrade files?

It would need to be additional tests. We need the -upgrade.ll tests to test the AutoUpgrade functionality so they need to keep the old calls.

lib/Target/X86/X86ISelLowering.cpp
36017	You probably still need a power of 2 check. And a minimum elements check. I don't think SplitOpsAndApply can handle say a 384-bit vector on AVX2. It will try to split it in 256-bit pieces. But that's great test case to add.

Ops, that should have said "SplitOpsAndApply CAN'T handle"

Now there are IR tests in regular test files and previous tests in 'upgrade' test files.
I also added some 512 bit AVX2 tests and 1024 bit AVX512BW tests to ensure the vectors get split properly.
isPowerOf2_32 check is restored.

Move the new IR tests to a new test file. vector-arith-sat.ll or something like that. Intrinsic tests should only call intrinsic functions.

lib/Target/X86/X86ISelLowering.cpp
36007	Correct indentation

What happens when one of the inputs is a constant (e.g. saturated increment:: _mm_adds_epi8(X, _mm_set1_epi8(1)))?

test/CodeGen/X86/avx2-intrinsics-fast-isel.ll
5	As noted here, you should be using the same IR as is generated in the clang builtins tests updated in D44786

tkrupa marked 2 inline comments as done.Apr 11 2018, 6:47 AM

I moved the IR tests to a new file, corrected fast-isel tests and improved pattern recognition in X86ISelLowering to also detect situations where one input vector is composed of constants.

Do we have test cases for types less than 128-bits to make sure we don't convert them?

lib/Target/X86/X86ISelLowering.cpp
36054	Use SDValue instead of auto. LLVM tends to be conservative with use of auto.
test/CodeGen/X86/vector-arith-sat.ll
11	Add a blank line here.

Added some tests for 64-bit vectors.

LGTM

This revision is now accepted and ready to land.Apr 12 2018, 9:57 AM

Closed by commit rL330322: Lowering x86 adds/addus/subs/subus intrinsics (llvm part) (authored by aivchenk). · Explain WhyApr 19 2018, 5:16 AM

This revision was automatically updated to reflect the committed changes.

Heads up.

We are seeing some failures in JIT'ed code due to this revision. The
symptom is a jump to zero with a corrupt stack--or at least a really wacky
one. The reproduction steps are sufficiently complicated that I don't have
a good explanation for why at the moment, but wanted to get this out there.

How do I reproduce it? Standard LLVM and Clang tests are passing for me.

The simplest example I have of what's breaking is the llvmpipe test code; src/gallium/drivers/llvmpipe/lp_test_blend.c from https://cgit.freedesktop.org/mesa/mesa/. Both 17.0.3 and 18.0.0 break.

llvmpipe was explicitly issuing sse2.psubs and sse2.padds in src/gallium/auxiliary/gallivm/lp_bld_arit.c; that produced working code before this patch, but after this patch immediately crashes. By removing the issue of the sse2 padds/psubs our test case works again.

Debug output looks like this:

llc -mattr option(s): +sse2,+cx16,+sahf,-tbm,-avx512ifma,-sha,-gfni,-fma4,-vpclmulqdq,-prfchw,+bmi2,-cldemote,+fsgsbase,-xsavec,+popcnt,+aes,-avx512bitalg,-xsaves,-avx512er,-avx512vnni,-avx512vpopcntdq,-clwb,-avx512f,-clzero,-pku,+mmx,-lwp,-rdpid,-xop,-rdseed,-ibt,-sse4a,-avx512bw,-clflushopt,+xsave,-avx512vbmi2,-avx512vl,-avx512cd,+avx,-vaes,-rtm,+fma,+bmi,+rdrnd,-mwaitx,+sse4.1,+sse4.2,+avx2,-wbnoinvd,+sse,+lzcnt,+pclmul,-prefetchwt1,+f16c,+ssse3,-sgx,-shstk,+cmov,-avx512vbmi,+movbe,+xsaveopt,-avx512dq,-adx,-avx512pf,+sse3
llc -mcpu option: haswell

test:

  0:         pushq   %rbp
  1:         movq    %rsp, %rbp
  4:         pushq   %rbx
  5:         subq    $40, %rsp
  9:         movq    %r8, %rbx
 12:         vmovdqa (%rdi), %xmm0
 16:         vmovdqa (%rdx), %xmm1
 20:         movabsq $140737174016000, %rax
 30:         vpand   (%rax), %xmm0, %xmm2
 34:         vpsrld  $8, %xmm2, %xmm3
 39:         vpor    %xmm2, %xmm3, %xmm2
 43:         vpcmpeqd        %xmm3, %xmm3, %xmm3
 47:         vpxor   %xmm3, %xmm0, %xmm3
 51:         movabsq $140737174016032, %rax
 61:         vpbroadcastd    (%rax), %xmm4
 66:         vmovdqa %xmm4, -48(%rbp)
 71:         vpblendvb       %xmm4, (%rsi), %xmm3, %xmm3
 77:         vpsrld  $16, %xmm2, %xmm4
 82:         vpor    %xmm2, %xmm4, %xmm2
 86:         vpmovzxbw       %xmm0, %xmm4
 91:         vpxor   %xmm5, %xmm5, %xmm5
 95:         vpunpckhbw      %xmm5, %xmm0, %xmm0
 99:         vpmovzxbw       %xmm2, %xmm6
104:         vpmullw %xmm4, %xmm6, %xmm4
108:         vpunpckhbw      %xmm5, %xmm2, %xmm2
112:         vpmullw %xmm0, %xmm2, %xmm0
116:         vpsrlw  $8, %xmm4, %xmm2
121:         movabsq $140737174016016, %rax
131:         vmovdqa (%rax), %xmm6
135:         vpaddw  %xmm6, %xmm4, %xmm4
139:         vpaddw  %xmm4, %xmm2, %xmm2
143:         vpsrlw  $8, %xmm2, %xmm2
148:         vpsrlw  $8, %xmm0, %xmm4
153:         vpaddw  %xmm6, %xmm0, %xmm0
157:         vpaddw  %xmm0, %xmm4, %xmm0
161:         vpsrlw  $8, %xmm0, %xmm0
166:         vpackuswb       %xmm0, %xmm2, %xmm0
170:         vpmovzxbw       %xmm1, %xmm2
175:         vpunpckhbw      %xmm5, %xmm1, %xmm1
179:         vpmovzxbw       %xmm3, %xmm4
184:         vpmullw %xmm4, %xmm2, %xmm2
188:         vpunpckhbw      %xmm5, %xmm3, %xmm3
192:         vpmullw %xmm3, %xmm1, %xmm1
196:         vpsrlw  $8, %xmm2, %xmm3
201:         vpaddw  %xmm6, %xmm2, %xmm2
205:         vpaddw  %xmm2, %xmm3, %xmm2
209:         vpsrlw  $8, %xmm2, %xmm2
214:         vpsrlw  $8, %xmm1, %xmm3
219:         vpaddw  %xmm6, %xmm1, %xmm1
223:         vpaddw  %xmm1, %xmm3, %xmm1
227:         vpsrlw  $8, %xmm1, %xmm1
232:         vpackuswb       %xmm1, %xmm2, %xmm1
236:         vpminub %xmm1, %xmm0, %xmm2
240:         vmovdqa %xmm2, -32(%rbp)
245:         movabsq $0, %rax
255:         callq   *%rax
257:         vmovdqa -48(%rbp), %xmm1
262:         vpblendvb       %xmm1, -32(%rbp), %xmm0, %xmm0
269:         vmovdqa %xmm0, (%rbx)
273:         addq    $40, %rsp
277:         popq    %rbx
278:         popq    %rbp
279:         retq

After we return from the callq, we seem to have a corrupt stack.

Is the address of the call here supposed to be 0?

245:         movabsq $0, %rax
255:         callq   *%rax

~Craig

Can you attach the .ll file for llc?

~Craig

I've been trying to see if I can spot anything that would expalin the problem here, but I don't see anything so far. I didn't find some other things I missed during the original review.

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp
36006 ↗	(On Diff #143074)	Is this isSimple check needed? It limits the maximum vector width we can recognize to 2048 bits, but if someone ever changes the largest vXi16/vXi8 type in MachineValueType.h due to some other target in the future this would change the behavior of this code.
36056 ↗	(On Diff #143074)	If the middle end can determine the sign bit of the input to the extend to be 0, it might replace the sext with a zext. Should we be using computeNumSignbits/MaskedValueIsZero here instead of checking specific opcodes?
36065 ↗	(On Diff #143074)	Don't we need to verify the constant has the right number of sign bits or zero bits?

Does anyone have the IR that llvmpipe is creating?

RKSimon, is this what you're asking for?

; Function Attrs: nounwind readnone
declare <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16>, <8 x i16>) #0

; Function Attrs: nounwind
declare <16 x i8> @llvm.x86.sse2.psubus.b(<16 x i8>, <16 x i8>) #1

define void @test(<16 x i8>*, <16 x i8>*, <16 x i8>*, <16 x i8>*, <16 x i8>*) {
entry:

%src = load <16 x i8>, <16 x i8>* %0
%src1 = load <16 x i8>, <16 x i8>* %1
%dst = load <16 x i8>, <16 x i8>* %2
%const = load <16 x i8>, <16 x i8>* %3
%5 = and <16 x i8> %src, <i8 0, i8 0, i8 0, i8 -1, i8 0, i8 0, i8 0, i8 -1, i8 0, i8 0, i8 0, i8 -1, i8 0, i8 0, i8 0, i8 -1>
%6 = bitcast <16 x i8> %5 to <4 x i32>
%7 = lshr <4 x i32> %6, <i32 8, i32 8, i32 8, i32 8>
%8 = or <4 x i32> %6, %7
%9 = lshr <4 x i32> %8, <i32 16, i32 16, i32 16, i32 16>
%10 = or <4 x i32> %8, %9
%11 = bitcast <4 x i32> %10 to <16 x i8>
%12 = xor <16 x i8> %src, <i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>
%13 = select <16 x i1> <i1 false, i1 false, i1 false, i1 true, i1 false, i1 false, i1 false, i1 true, i1 false, i1 false, i1 false, i1 true, i1 false, i1 false, i1 false, i1 true>, <16 x i8> %12, <16 x i8> %src1
%14 = shufflevector <16 x i8> %src, <16 x i8> zeroinitializer, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
%15 = shufflevector <16 x i8> %src, <16 x i8> zeroinitializer, <16 x i32> <i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>
%16 = bitcast <16 x i8> %14 to <8 x i16>
%17 = bitcast <16 x i8> %15 to <8 x i16>
%18 = shufflevector <16 x i8> %11, <16 x i8> zeroinitializer, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
%19 = shufflevector <16 x i8> %11, <16 x i8> zeroinitializer, <16 x i32> <i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>
%20 = bitcast <16 x i8> %18 to <8 x i16>
%21 = bitcast <16 x i8> %19 to <8 x i16>
%22 = mul <8 x i16> %16, %20
%23 = lshr <8 x i16> %22, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%24 = add <8 x i16> %22, %23
%25 = add <8 x i16> %24, <i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128>
%26 = lshr <8 x i16> %25, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%27 = mul <8 x i16> %17, %21
%28 = lshr <8 x i16> %27, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%29 = add <8 x i16> %27, %28
%30 = add <8 x i16> %29, <i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128>
%31 = lshr <8 x i16> %30, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%32 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %26, <8 x i16> %31)
%33 = shufflevector <16 x i8> %dst, <16 x i8> zeroinitializer, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
%34 = shufflevector <16 x i8> %dst, <16 x i8> zeroinitializer, <16 x i32> <i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>
%35 = bitcast <16 x i8> %33 to <8 x i16>
%36 = bitcast <16 x i8> %34 to <8 x i16>
%37 = shufflevector <16 x i8> %13, <16 x i8> zeroinitializer, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
%38 = shufflevector <16 x i8> %13, <16 x i8> zeroinitializer, <16 x i32> <i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>
%39 = bitcast <16 x i8> %37 to <8 x i16>
%40 = bitcast <16 x i8> %38 to <8 x i16>
%41 = mul <8 x i16> %35, %39
%42 = lshr <8 x i16> %41, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%43 = add <8 x i16> %41, %42
%44 = add <8 x i16> %43, <i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128>
%45 = lshr <8 x i16> %44, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%46 = mul <8 x i16> %36, %40
%47 = lshr <8 x i16> %46, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%48 = add <8 x i16> %46, %47
%49 = add <8 x i16> %48, <i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128>
%50 = lshr <8 x i16> %49, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%51 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %45, <8 x i16> %50)
%52 = icmp ult <16 x i8> %32, %51
%53 = sext <16 x i1> %52 to <16 x i8>
%54 = trunc <16 x i8> %53 to <16 x i1>
%55 = select <16 x i1> %54, <16 x i8> %32, <16 x i8> %51
%56 = shufflevector <16 x i8> %src, <16 x i8> zeroinitializer, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
%57 = shufflevector <16 x i8> %src, <16 x i8> zeroinitializer, <16 x i32> <i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>
%58 = bitcast <16 x i8> %56 to <8 x i16>
%59 = bitcast <16 x i8> %57 to <8 x i16>
%60 = shufflevector <16 x i8> %11, <16 x i8> zeroinitializer, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
%61 = shufflevector <16 x i8> %11, <16 x i8> zeroinitializer, <16 x i32> <i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>
%62 = bitcast <16 x i8> %60 to <8 x i16>
%63 = bitcast <16 x i8> %61 to <8 x i16>
%64 = mul <8 x i16> %58, %62
%65 = lshr <8 x i16> %64, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%66 = add <8 x i16> %64, %65
%67 = add <8 x i16> %66, <i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128>
%68 = lshr <8 x i16> %67, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%69 = mul <8 x i16> %59, %63
%70 = lshr <8 x i16> %69, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%71 = add <8 x i16> %69, %70
%72 = add <8 x i16> %71, <i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128>
%73 = lshr <8 x i16> %72, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%74 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %68, <8 x i16> %73)
%75 = shufflevector <16 x i8> %dst, <16 x i8> zeroinitializer, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
%76 = shufflevector <16 x i8> %dst, <16 x i8> zeroinitializer, <16 x i32> <i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>
%77 = bitcast <16 x i8> %75 to <8 x i16>
%78 = bitcast <16 x i8> %76 to <8 x i16>
%79 = shufflevector <16 x i8> %13, <16 x i8> zeroinitializer, <16 x i32> <i32 0, i32 16, i32 1, i32 17, i32 2, i32 18, i32 3, i32 19, i32 4, i32 20, i32 5, i32 21, i32 6, i32 22, i32 7, i32 23>
%80 = shufflevector <16 x i8> %13, <16 x i8> zeroinitializer, <16 x i32> <i32 8, i32 24, i32 9, i32 25, i32 10, i32 26, i32 11, i32 27, i32 12, i32 28, i32 13, i32 29, i32 14, i32 30, i32 15, i32 31>
%81 = bitcast <16 x i8> %79 to <8 x i16>
%82 = bitcast <16 x i8> %80 to <8 x i16>
%83 = mul <8 x i16> %77, %81
%84 = lshr <8 x i16> %83, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%85 = add <8 x i16> %83, %84
%86 = add <8 x i16> %85, <i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128>
%87 = lshr <8 x i16> %86, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%88 = mul <8 x i16> %78, %82
%89 = lshr <8 x i16> %88, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%90 = add <8 x i16> %88, %89
%91 = add <8 x i16> %90, <i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128, i16 128>
%92 = lshr <8 x i16> %91, <i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8, i16 8>
%93 = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> %87, <8 x i16> %92)
%94 = call <16 x i8> @llvm.x86.sse2.psubus.b(<16 x i8> %74, <16 x i8> %93)
%res = select <16 x i1> <i1 false, i1 false, i1 false, i1 true, i1 false, i1 false, i1 false, i1 true, i1 false, i1 false, i1 false, i1 true, i1 false, i1 false, i1 false, i1 true>, <16 x i8> %94, <16 x i8> %55
store <16 x i8> %res, <16 x i8>* %4
ret void

}

Simon or Tomasz, have you had any luck reproducing this?

~Craig

Is the IR being generated on the fly and then fed to the JIT? Which means
it doesn't go through the autoupgrade code since that is only done by the
bitcode reader and the ll parser? If that's the case, you'll need to
generate the replacement sequence directly instead of using the intrinsic.

We still need to fix the issues that I raised in the review though.

~Craig

In D44785#1077280, @craig.topper wrote:

Simon or Tomasz, have you had any luck reproducing this?

No luck - I think you're right that its something to do with their pipeline not including the autoupgrade stage.

tkrupa reopened this revision.Apr 24 2018, 11:59 PM

tkrupa marked an inline comment as done.

This revision is now accepted and ready to land.Apr 24 2018, 11:59 PM

No luck either, Craig.
I fixed the issues you pointed out.

tkrupa marked 2 inline comments as done.Apr 25 2018, 12:03 AM

Reported to llvmpipe at https://bugs.freedesktop.org/show_bug.cgi?id=106231; if I've misunderstood any of your discussion here please add corrections so they can look at how they're using you.

Thomasz, can you open a new review for the changes?

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp
36074 ↗	(On Diff #143074)	Don't we need to make sure the input type to extends is the same as VT?

In D44785#1077286, @craig.topper wrote:

Is the IR being generated on the fly and then fed to the JIT? Which means
it doesn't go through the autoupgrade code since that is only done by the
bitcode reader and the ll parser? If that's the case, you'll need to
generate the replacement sequence directly instead of using the intrinsic.

FWIW this is correct, it's using jit so no autoupgrade, so we'll have to fix this in mesa.
However, in the past when intrinsics disappeared, we actually got an error when compiling the IR. See https://bugs.llvm.org/show_bug.cgi?id=28176 for instance: LLVM ERROR: Program used external function '_llvm.x86.sse2.pminu.b' which could not be resolved!
That of course made it a lot more obvious what's going on - no error and just calling a 0 function in the generated code is really not helpful.

In D44785#1078323, @craig.topper wrote:

Thomasz, can you open a new review for the changes?

Should I upload the whole patch there or just the changes to what is already in trunk?

Just the differences with what's already in trunk.

This is actually crashing normal compiles. Reverting for now. See http://llvm.org/PR37260 for details and test case.

I made a new revision D46179. I uploaded the whole thing there because of reversion.

tkrupa closed this revision.Apr 27 2018, 1:47 AM

Revision Contents

Path

Size

include/

llvm/

IR/

IntrinsicsX86.td

120 lines

lib/

IR/

AutoUpgrade.cpp

106 lines

Target/

X86/

X86ISelLowering.cpp

116 lines

X86IntrinsicsInfo.h

40 lines

test/

CodeGen/

X86/

avx2-intrinsics-fast-isel.ll

88 lines

avx2-intrinsics-x86-upgrade.ll

127 lines

avx2-intrinsics-x86.ll

285 lines

avx512bw-intrinsics-upgrade.ll

416 lines

avx512bw-intrinsics.ll

416 lines

avx512bwvl-intrinsics-upgrade.ll

1040 lines

avx512bwvl-intrinsics.ll

1040 lines

sse2-intrinsics-fast-isel.ll

104 lines

sse2-intrinsics-x86-upgrade.ll

166 lines

sse2-intrinsics-x86.ll

168 lines

sse2-schedule.ll

111 lines

vector-arith-sat.ll

3021 lines

Instrumentation/

MemorySanitizer/

msan_x86intrinsics.ll

10 lines

Diff 143865

include/llvm/IR/IntrinsicsX86.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 372 Lines • ▼ Show 20 Lines	def int_x86_sse2_ucomige_sd : GCCBuiltin<"__builtin_ia32_ucomisdge">,
llvm_v2f64_ty], [IntrNoMem]>;		llvm_v2f64_ty], [IntrNoMem]>;
def int_x86_sse2_ucomineq_sd : GCCBuiltin<"__builtin_ia32_ucomisdneq">,		def int_x86_sse2_ucomineq_sd : GCCBuiltin<"__builtin_ia32_ucomisdneq">,
Intrinsic<[llvm_i32_ty], [llvm_v2f64_ty,		Intrinsic<[llvm_i32_ty], [llvm_v2f64_ty,
llvm_v2f64_ty], [IntrNoMem]>;		llvm_v2f64_ty], [IntrNoMem]>;
}		}

// Integer arithmetic ops.		// Integer arithmetic ops.
let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".		let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_sse2_padds_b : GCCBuiltin<"__builtin_ia32_paddsb128">,
Intrinsic<[llvm_v16i8_ty], [llvm_v16i8_ty,
llvm_v16i8_ty], [IntrNoMem, Commutative]>;
def int_x86_sse2_padds_w : GCCBuiltin<"__builtin_ia32_paddsw128">,
Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty,
llvm_v8i16_ty], [IntrNoMem, Commutative]>;
def int_x86_sse2_paddus_b : GCCBuiltin<"__builtin_ia32_paddusb128">,
Intrinsic<[llvm_v16i8_ty], [llvm_v16i8_ty,
llvm_v16i8_ty], [IntrNoMem, Commutative]>;
def int_x86_sse2_paddus_w : GCCBuiltin<"__builtin_ia32_paddusw128">,
Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty,
llvm_v8i16_ty], [IntrNoMem, Commutative]>;
def int_x86_sse2_psubs_b : GCCBuiltin<"__builtin_ia32_psubsb128">,
Intrinsic<[llvm_v16i8_ty], [llvm_v16i8_ty,
llvm_v16i8_ty], [IntrNoMem]>;
def int_x86_sse2_psubs_w : GCCBuiltin<"__builtin_ia32_psubsw128">,
Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty,
llvm_v8i16_ty], [IntrNoMem]>;
def int_x86_sse2_psubus_b : GCCBuiltin<"__builtin_ia32_psubusb128">,
Intrinsic<[llvm_v16i8_ty], [llvm_v16i8_ty,
llvm_v16i8_ty], [IntrNoMem]>;
def int_x86_sse2_psubus_w : GCCBuiltin<"__builtin_ia32_psubusw128">,
Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty,
llvm_v8i16_ty], [IntrNoMem]>;
def int_x86_sse2_pmulhu_w : GCCBuiltin<"__builtin_ia32_pmulhuw128">,		def int_x86_sse2_pmulhu_w : GCCBuiltin<"__builtin_ia32_pmulhuw128">,
Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty,		Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty,
llvm_v8i16_ty], [IntrNoMem, Commutative]>;		llvm_v8i16_ty], [IntrNoMem, Commutative]>;
def int_x86_sse2_pmulh_w : GCCBuiltin<"__builtin_ia32_pmulhw128">,		def int_x86_sse2_pmulh_w : GCCBuiltin<"__builtin_ia32_pmulhw128">,
Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty,		Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty,
llvm_v8i16_ty], [IntrNoMem, Commutative]>;		llvm_v8i16_ty], [IntrNoMem, Commutative]>;
def int_x86_sse2_pmadd_wd : GCCBuiltin<"__builtin_ia32_pmaddwd128">,		def int_x86_sse2_pmadd_wd : GCCBuiltin<"__builtin_ia32_pmaddwd128">,
Intrinsic<[llvm_v4i32_ty], [llvm_v8i16_ty,		Intrinsic<[llvm_v4i32_ty], [llvm_v8i16_ty,
▲ Show 20 Lines • Show All 1,209 Lines • ▼ Show 20 Lines	Intrinsic<[llvm_i64_ty],
[IntrNoMem]>;		[IntrNoMem]>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// AVX2		// AVX2

// Integer arithmetic ops.		// Integer arithmetic ops.
let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".		let TargetPrefix = "x86" in { // All intrinsics start with "llvm.x86.".
def int_x86_avx2_padds_b : GCCBuiltin<"__builtin_ia32_paddsb256">,
Intrinsic<[llvm_v32i8_ty], [llvm_v32i8_ty,
llvm_v32i8_ty], [IntrNoMem, Commutative]>;
def int_x86_avx2_padds_w : GCCBuiltin<"__builtin_ia32_paddsw256">,
Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty,
llvm_v16i16_ty], [IntrNoMem, Commutative]>;
def int_x86_avx2_paddus_b : GCCBuiltin<"__builtin_ia32_paddusb256">,
Intrinsic<[llvm_v32i8_ty], [llvm_v32i8_ty,
llvm_v32i8_ty], [IntrNoMem, Commutative]>;
def int_x86_avx2_paddus_w : GCCBuiltin<"__builtin_ia32_paddusw256">,
Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty,
llvm_v16i16_ty], [IntrNoMem, Commutative]>;
def int_x86_avx2_psubs_b : GCCBuiltin<"__builtin_ia32_psubsb256">,
Intrinsic<[llvm_v32i8_ty], [llvm_v32i8_ty,
llvm_v32i8_ty], [IntrNoMem]>;
def int_x86_avx2_psubs_w : GCCBuiltin<"__builtin_ia32_psubsw256">,
Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty,
llvm_v16i16_ty], [IntrNoMem]>;
def int_x86_avx2_psubus_b : GCCBuiltin<"__builtin_ia32_psubusb256">,
Intrinsic<[llvm_v32i8_ty], [llvm_v32i8_ty,
llvm_v32i8_ty], [IntrNoMem]>;
def int_x86_avx2_psubus_w : GCCBuiltin<"__builtin_ia32_psubusw256">,
Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty,
llvm_v16i16_ty], [IntrNoMem]>;
def int_x86_avx2_pmulhu_w : GCCBuiltin<"__builtin_ia32_pmulhuw256">,		def int_x86_avx2_pmulhu_w : GCCBuiltin<"__builtin_ia32_pmulhuw256">,
Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty,		Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty,
llvm_v16i16_ty], [IntrNoMem, Commutative]>;		llvm_v16i16_ty], [IntrNoMem, Commutative]>;
def int_x86_avx2_pmulh_w : GCCBuiltin<"__builtin_ia32_pmulhw256">,		def int_x86_avx2_pmulh_w : GCCBuiltin<"__builtin_ia32_pmulhw256">,
Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty,		Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty,
llvm_v16i16_ty], [IntrNoMem, Commutative]>;		llvm_v16i16_ty], [IntrNoMem, Commutative]>;
def int_x86_avx2_pmadd_wd : GCCBuiltin<"__builtin_ia32_pmaddwd256">,		def int_x86_avx2_pmadd_wd : GCCBuiltin<"__builtin_ia32_pmaddwd256">,
Intrinsic<[llvm_v8i32_ty], [llvm_v16i16_ty,		Intrinsic<[llvm_v8i32_ty], [llvm_v16i16_ty,
▲ Show 20 Lines • Show All 3,028 Lines • ▼ Show 20 Lines	def int_x86_avx512_rsqrt28_sd : GCCBuiltin<"__builtin_ia32_rsqrt28sd_round_mask">,
llvm_v2f64_ty, llvm_i8_ty, llvm_i32_ty],		llvm_v2f64_ty, llvm_i8_ty, llvm_i32_ty],
[IntrNoMem]>;		[IntrNoMem]>;
def int_x86_avx512_psad_bw_512 : GCCBuiltin<"__builtin_ia32_psadbw512">,		def int_x86_avx512_psad_bw_512 : GCCBuiltin<"__builtin_ia32_psadbw512">,
Intrinsic<[llvm_v8i64_ty], [llvm_v64i8_ty, llvm_v64i8_ty],		Intrinsic<[llvm_v8i64_ty], [llvm_v64i8_ty, llvm_v64i8_ty],
[IntrNoMem, Commutative]>;		[IntrNoMem, Commutative]>;
}		}
// Integer arithmetic ops		// Integer arithmetic ops
let TargetPrefix = "x86" in {		let TargetPrefix = "x86" in {
def int_x86_avx512_mask_padds_b_128 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v16i8_ty], [llvm_v16i8_ty, llvm_v16i8_ty,
llvm_v16i8_ty, llvm_i16_ty], [IntrNoMem]>;
def int_x86_avx512_mask_padds_b_256 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v32i8_ty], [llvm_v32i8_ty, llvm_v32i8_ty,
llvm_v32i8_ty, llvm_i32_ty], [IntrNoMem]>;
def int_x86_avx512_mask_padds_b_512 : GCCBuiltin<"__builtin_ia32_paddsb512_mask">,
Intrinsic<[llvm_v64i8_ty], [llvm_v64i8_ty, llvm_v64i8_ty,
llvm_v64i8_ty, llvm_i64_ty], [IntrNoMem]>;
def int_x86_avx512_mask_padds_w_128 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty, llvm_v8i16_ty,
llvm_v8i16_ty, llvm_i8_ty], [IntrNoMem]>;
def int_x86_avx512_mask_padds_w_256 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty, llvm_v16i16_ty,
llvm_v16i16_ty, llvm_i16_ty], [IntrNoMem]>;
def int_x86_avx512_mask_padds_w_512 : GCCBuiltin<"__builtin_ia32_paddsw512_mask">,
Intrinsic<[llvm_v32i16_ty], [llvm_v32i16_ty, llvm_v32i16_ty,
llvm_v32i16_ty, llvm_i32_ty], [IntrNoMem]>;
def int_x86_avx512_mask_paddus_b_128 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v16i8_ty], [llvm_v16i8_ty, llvm_v16i8_ty,
llvm_v16i8_ty, llvm_i16_ty], [IntrNoMem]>;
def int_x86_avx512_mask_paddus_b_256 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v32i8_ty], [llvm_v32i8_ty, llvm_v32i8_ty,
llvm_v32i8_ty, llvm_i32_ty], [IntrNoMem]>;
def int_x86_avx512_mask_paddus_b_512 : GCCBuiltin<"__builtin_ia32_paddusb512_mask">,
Intrinsic<[llvm_v64i8_ty], [llvm_v64i8_ty, llvm_v64i8_ty,
llvm_v64i8_ty, llvm_i64_ty], [IntrNoMem]>;
def int_x86_avx512_mask_paddus_w_128 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty, llvm_v8i16_ty,
llvm_v8i16_ty, llvm_i8_ty], [IntrNoMem]>;
def int_x86_avx512_mask_paddus_w_256 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty, llvm_v16i16_ty,
llvm_v16i16_ty, llvm_i16_ty], [IntrNoMem]>;
def int_x86_avx512_mask_paddus_w_512 : GCCBuiltin<"__builtin_ia32_paddusw512_mask">,
Intrinsic<[llvm_v32i16_ty], [llvm_v32i16_ty, llvm_v32i16_ty,
llvm_v32i16_ty, llvm_i32_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubs_b_128 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v16i8_ty], [llvm_v16i8_ty, llvm_v16i8_ty,
llvm_v16i8_ty, llvm_i16_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubs_b_256 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v32i8_ty], [llvm_v32i8_ty, llvm_v32i8_ty,
llvm_v32i8_ty, llvm_i32_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubs_b_512 : GCCBuiltin<"__builtin_ia32_psubsb512_mask">,
Intrinsic<[llvm_v64i8_ty], [llvm_v64i8_ty, llvm_v64i8_ty,
llvm_v64i8_ty, llvm_i64_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubs_w_128 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty, llvm_v8i16_ty,
llvm_v8i16_ty, llvm_i8_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubs_w_256 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty, llvm_v16i16_ty,
llvm_v16i16_ty, llvm_i16_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubs_w_512 : GCCBuiltin<"__builtin_ia32_psubsw512_mask">,
Intrinsic<[llvm_v32i16_ty], [llvm_v32i16_ty, llvm_v32i16_ty,
llvm_v32i16_ty, llvm_i32_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubus_b_128 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v16i8_ty], [llvm_v16i8_ty, llvm_v16i8_ty,
llvm_v16i8_ty, llvm_i16_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubus_b_256 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v32i8_ty], [llvm_v32i8_ty, llvm_v32i8_ty,
llvm_v32i8_ty, llvm_i32_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubus_b_512 : GCCBuiltin<"__builtin_ia32_psubusb512_mask">,
Intrinsic<[llvm_v64i8_ty], [llvm_v64i8_ty, llvm_v64i8_ty,
llvm_v64i8_ty, llvm_i64_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubus_w_128 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v8i16_ty], [llvm_v8i16_ty, llvm_v8i16_ty,
llvm_v8i16_ty, llvm_i8_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubus_w_256 : // FIXME: remove this intrinsic
Intrinsic<[llvm_v16i16_ty], [llvm_v16i16_ty, llvm_v16i16_ty,
llvm_v16i16_ty, llvm_i16_ty], [IntrNoMem]>;
def int_x86_avx512_mask_psubus_w_512 : GCCBuiltin<"__builtin_ia32_psubusw512_mask">,
Intrinsic<[llvm_v32i16_ty], [llvm_v32i16_ty, llvm_v32i16_ty,
llvm_v32i16_ty, llvm_i32_ty], [IntrNoMem]>;
def int_x86_avx512_pmulhu_w_512 : GCCBuiltin<"__builtin_ia32_pmulhuw512">,		def int_x86_avx512_pmulhu_w_512 : GCCBuiltin<"__builtin_ia32_pmulhuw512">,
Intrinsic<[llvm_v32i16_ty], [llvm_v32i16_ty,		Intrinsic<[llvm_v32i16_ty], [llvm_v32i16_ty,
llvm_v32i16_ty], [IntrNoMem, Commutative]>;		llvm_v32i16_ty], [IntrNoMem, Commutative]>;
def int_x86_avx512_pmulh_w_512 : GCCBuiltin<"__builtin_ia32_pmulhw512">,		def int_x86_avx512_pmulh_w_512 : GCCBuiltin<"__builtin_ia32_pmulhw512">,
Intrinsic<[llvm_v32i16_ty], [llvm_v32i16_ty,		Intrinsic<[llvm_v32i16_ty], [llvm_v32i16_ty,
llvm_v32i16_ty], [IntrNoMem, Commutative]>;		llvm_v32i16_ty], [IntrNoMem, Commutative]>;
def int_x86_avx512_pmaddw_d_512 : GCCBuiltin<"__builtin_ia32_pmaddwd512">,		def int_x86_avx512_pmaddw_d_512 : GCCBuiltin<"__builtin_ia32_pmaddwd512">,
Intrinsic<[llvm_v16i32_ty], [llvm_v32i16_ty,		Intrinsic<[llvm_v16i32_ty], [llvm_v32i16_ty,
▲ Show 20 Lines • Show All 1,627 Lines • Show Last 20 Lines

lib/IR/AutoUpgrade.cpp

Show First 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
}		}

static bool ShouldUpgradeX86Intrinsic(Function *F, StringRef Name) {		static bool ShouldUpgradeX86Intrinsic(Function *F, StringRef Name) {
// All of the intrinsics matches below should be marked with which llvm		// All of the intrinsics matches below should be marked with which llvm
// version started autoupgrading them. At some point in the future we would		// version started autoupgrading them. At some point in the future we would
// like to use this information to remove upgrade code for some older		// like to use this information to remove upgrade code for some older
// intrinsics. It is currently undecided how we will determine that future		// intrinsics. It is currently undecided how we will determine that future
// point.		// point.
if (Name=="ssse3.pabs.b.128" \|\| // Added in 6.0		if (Name.startswith("sse2.padds") \|\| // Added in 7.0
		Name.startswith("sse2.paddus") \|\| // Added in 7.0
		Name.startswith("sse2.psubs") \|\| // Added in 7.0
		Name.startswith("sse2.psubus") \|\| // Added in 7.0
		Name.startswith("avx2.padds") \|\| // Added in 7.0
		Name.startswith("avx2.paddus") \|\| // Added in 7.0
		Name.startswith("avx2.psubs") \|\| // Added in 7.0
		Name.startswith("avx2.psubus") \|\| // Added in 7.0
		Name.startswith("avx512.mask.padds") \|\| // Added in 7.0
		Name.startswith("avx512.mask.paddus") \|\| // Added in 7.0
		Name.startswith("avx512.mask.psubs") \|\| // Added in 7.0
		Name.startswith("avx512.mask.psubus") \|\| // Added in 7.0
		Name=="ssse3.pabs.b.128" \|\| // Added in 6.0
		craig.topperUnsubmitted Done Reply Inline Actions The next release will be 7.0 not 6.0. craig.topper: The next release will be 7.0 not 6.0.
Name=="ssse3.pabs.w.128" \|\| // Added in 6.0		Name=="ssse3.pabs.w.128" \|\| // Added in 6.0
Name=="ssse3.pabs.d.128" \|\| // Added in 6.0		Name=="ssse3.pabs.d.128" \|\| // Added in 6.0
Name.startswith("avx512.mask.shuf.i") \|\| // Added in 6.0		Name.startswith("avx512.mask.shuf.i") \|\| // Added in 6.0
Name.startswith("avx512.mask.shuf.f") \|\| // Added in 6.0		Name.startswith("avx512.mask.shuf.f") \|\| // Added in 6.0
Name.startswith("avx512.kunpck") \|\| //added in 6.0		Name.startswith("avx512.kunpck") \|\| //added in 6.0
Name.startswith("avx2.pabs.") \|\| // Added in 6.0		Name.startswith("avx2.pabs.") \|\| // Added in 6.0
Name.startswith("avx512.mask.pabs.") \|\| // Added in 6.0		Name.startswith("avx512.mask.pabs.") \|\| // Added in 6.0
Name.startswith("avx512.broadcastm") \|\| // Added in 6.0		Name.startswith("avx512.broadcastm") \|\| // Added in 6.0
▲ Show 20 Lines • Show All 744 Lines • ▼ Show 20 Lines	static Value UpgradeX86ALIGNIntrinsics(IRBuilder<> &Builder, Value Op0,

Value *Align = Builder.CreateShuffleVector(Op1, Op0,		Value *Align = Builder.CreateShuffleVector(Op1, Op0,
makeArrayRef(Indices, NumElts),		makeArrayRef(Indices, NumElts),
"palignr");		"palignr");

return EmitX86Select(Builder, Mask, Align, Passthru);		return EmitX86Select(Builder, Mask, Align, Passthru);
}		}

		static Value *UpgradeX86AddSubSatIntrinsics(IRBuilder<> &Builder, CallInst &CI,
		bool IsSigned, bool IsAddition) {
		// Get elements.
		Value *Op0 = CI.getArgOperand(0);
		Value *Op1 = CI.getArgOperand(1);

		// Extend elements.
		Type *ResultType = CI.getType();
		unsigned NumElts = ResultType->getVectorNumElements();

		Value *Res;
		if (!IsAddition && !IsSigned) {
		Value *ICmp = Builder.CreateICmp(ICmpInst::ICMP_UGT, Op0, Op1);
		Value *Select = Builder.CreateSelect(ICmp, Op0, Op1);
		Res = Builder.CreateSub(Select, Op1);
		} else {
		Type *EltType = ResultType->getVectorElementType();
		Type *ExtEltType = EltType == Builder.getInt8Ty() ? Builder.getInt16Ty()
		: Builder.getInt32Ty();
		Type *ExtVT = VectorType::get(ExtEltType, NumElts);
		Op0 = IsSigned ? Builder.CreateSExt(Op0, ExtVT)
		: Builder.CreateZExt(Op0, ExtVT);
		Op1 = IsSigned ? Builder.CreateSExt(Op1, ExtVT)
		: Builder.CreateZExt(Op1, ExtVT);

		// Perform addition/substraction.
		Res = IsAddition ? Builder.CreateAdd(Op0, Op1)
		: Builder.CreateSub(Op0, Op1);

		// Create a vector of maximum values of not extended type
		// (if overflow occurs, it will be saturated to that value).
		unsigned EltSizeInBits = EltType->getPrimitiveSizeInBits();
		APInt MaxInt = IsSigned ? APInt::getSignedMaxValue(EltSizeInBits)
		: APInt::getMaxValue(EltSizeInBits);
		Value *MaxVec = ConstantInt::get(ResultType, MaxInt);
		// Extend so that it can be compared to result of add/sub.
		MaxVec = IsSigned ? Builder.CreateSExt(MaxVec, ExtVT)
		: Builder.CreateZExt(MaxVec, ExtVT);

		// Saturate overflow.
		ICmpInst::Predicate Pred = IsSigned ? ICmpInst::ICMP_SLE
		: ICmpInst::ICMP_ULE;
		Value *Cmp = Builder.CreateICmp(Pred, Res,
		MaxVec); // 1 if no overflow.
		Res = Builder.CreateSelect(Cmp, Res,
		MaxVec); // If overflowed, copy from max vec.

		// Saturate underflow.
		if (IsSigned) {
		APInt MinInt = APInt::getSignedMinValue(EltSizeInBits);
		Value *MinVec = ConstantInt::get(ResultType, MinInt);
		// Extend so that it can be compared to result of add/sub.
		MinVec = Builder.CreateSExt(MinVec, ExtVT);
		Value *Cmp = Builder.CreateICmp(ICmpInst::ICMP_SGT, Res,
		MinVec); // 1 if no underflow.
		Res = Builder.CreateSelect(Cmp, Res,
		MinVec); // If underflowed, copy from min vec.
		}

		// Truncate to original type.
		Res = Builder.CreateTrunc(Res, ResultType);
		}

		if (CI.getNumArgOperands() == 4) { // For masked intrinsics.
		Value *VecSRC = CI.getArgOperand(2);
		Value *Mask = CI.getArgOperand(3);
		Res = EmitX86Select(Builder, Mask, Res, VecSRC);
		}
		return Res;
		}

static Value *UpgradeMaskedStore(IRBuilder<> &Builder,		static Value *UpgradeMaskedStore(IRBuilder<> &Builder,
Value Ptr, Value Data, Value *Mask,		Value Ptr, Value Data, Value *Mask,
bool Aligned) {		bool Aligned) {
// Cast the pointer to the right type.		// Cast the pointer to the right type.
Ptr = Builder.CreateBitCast(Ptr,		Ptr = Builder.CreateBitCast(Ptr,
llvm::PointerType::getUnqual(Data->getType()));		llvm::PointerType::getUnqual(Data->getType()));
unsigned Align =		unsigned Align =
Aligned ? cast<VectorType>(Data->getType())->getBitWidth() / 8 : 1;		Aligned ? cast<VectorType>(Data->getType())->getBitWidth() / 8 : 1;
▲ Show 20 Lines • Show All 823 Lines • ▼ Show 20 Lines	if (IsX86 && (Name.startswith("sse2.pcmp") \|\|
for (unsigned i = 0; i != NumDstElts; ++i)		for (unsigned i = 0; i != NumDstElts; ++i)
ShuffleMask[i] = i % NumSrcElts;		ShuffleMask[i] = i % NumSrcElts;

Rep = Builder.CreateShuffleVector(CI->getArgOperand(0),		Rep = Builder.CreateShuffleVector(CI->getArgOperand(0),
CI->getArgOperand(0),		CI->getArgOperand(0),
ShuffleMask);		ShuffleMask);
Rep = EmitX86Select(Builder, CI->getArgOperand(2), Rep,		Rep = EmitX86Select(Builder, CI->getArgOperand(2), Rep,
CI->getArgOperand(1));		CI->getArgOperand(1));
		} else if (IsX86 && (Name.startswith("sse2.padds") \|\|
		Name.startswith("avx2.padds") \|\|
		Name.startswith("avx512.mask.padds"))) {
		Rep = UpgradeX86AddSubSatIntrinsics(Builder, *CI,
		true, true); // Signed add.
		} else if (IsX86 && (Name.startswith("sse2.paddus") \|\|
		Name.startswith("avx2.paddus") \|\|
		Name.startswith("avx512.mask.paddus"))) {
		Rep = UpgradeX86AddSubSatIntrinsics(Builder, *CI,
		false, true); // Unsigned add.
		} else if (IsX86 && (Name.startswith("sse2.psubs") \|\|
		Name.startswith("avx2.psubs") \|\|
		Name.startswith("avx512.mask.psubs"))) {
		Rep = UpgradeX86AddSubSatIntrinsics(Builder, *CI,
		true, false); // Signed sub.
		} else if (IsX86 && (Name.startswith("sse2.psubus") \|\|
		Name.startswith("avx2.psubus") \|\|
		Name.startswith("avx512.mask.psubus"))) {
		Rep = UpgradeX86AddSubSatIntrinsics(Builder, *CI,
		false, false); // Unsigned sub.
} else if (IsX86 && (Name.startswith("avx2.pbroadcast") \|\|		} else if (IsX86 && (Name.startswith("avx2.pbroadcast") \|\|
Name.startswith("avx2.vbroadcast") \|\|		Name.startswith("avx2.vbroadcast") \|\|
Name.startswith("avx512.pbroadcast") \|\|		Name.startswith("avx512.pbroadcast") \|\|
Name.startswith("avx512.mask.broadcast.s"))) {		Name.startswith("avx512.mask.broadcast.s"))) {
// Replace vp?broadcasts with a vector shuffle.		// Replace vp?broadcasts with a vector shuffle.
Value *Op = CI->getArgOperand(0);		Value *Op = CI->getArgOperand(0);
unsigned NumElts = CI->getType()->getVectorNumElements();		unsigned NumElts = CI->getType()->getVectorNumElements();
Type *MaskTy = VectorType::get(Type::getInt32Ty(C), NumElts);		Type *MaskTy = VectorType::get(Type::getInt32Ty(C), NumElts);
Rep = Builder.CreateShuffleVector(Op, UndefValue::get(Op->getType()),		Rep = Builder.CreateShuffleVector(Op, UndefValue::get(Op->getType()),
Constant::getNullValue(MaskTy));		Constant::getNullValue(MaskTy));

if (CI->getNumArgOperands() == 3)		if (CI->getNumArgOperands() == 3)
Rep = EmitX86Select(Builder, CI->getArgOperand(2), Rep,		Rep = EmitX86Select(Builder, CI->getArgOperand(2), Rep,
CI->getArgOperand(1));		CI->getArgOperand(1));
} else if (IsX86 && Name.startswith("avx512.mask.palignr.")) {		} else if (IsX86 && Name.startswith("avx512.mask.palignr.")) {
Rep = UpgradeX86ALIGNIntrinsics(Builder, CI->getArgOperand(0),		Rep = UpgradeX86ALIGNIntrinsics(Builder, CI->getArgOperand(0),
CI->getArgOperand(1),		CI->getArgOperand(1),
CI->getArgOperand(2),		CI->getArgOperand(2),
CI->getArgOperand(3),		CI->getArgOperand(3),
▲ Show 20 Lines • Show All 1,202 Lines • Show Last 20 Lines

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 30,774 Lines • ▼ Show 20 Lines
	ConstantsMatch = false;			ConstantsMatch = false;
	break;			break;
	}			}
	}			}
	if (!ConstantsMatch)			if (!ConstantsMatch)
	continue;			continue;

	// Do the transformation (For 32-bit type):			// Do the transformation (For 32-bit type):
	// -> (and (load arr[idx]), inp)			// -> (and (load arr[idx]), inp)
				craig.topperUnsubmitted Not Done Reply Inline Actions Is this line longer than 80 characters? craig.topper: Is this line longer than 80 characters?
	// <- (and (srl 0xFFFFFFFF, (sub 32, idx)))			// <- (and (srl 0xFFFFFFFF, (sub 32, idx)))
	// that will be replaced with one bzhi instruction.			// that will be replaced with one bzhi instruction.
	SDValue Inp = (i == 0) ? Node->getOperand(1) : Node->getOperand(0);			SDValue Inp = (i == 0) ? Node->getOperand(1) : Node->getOperand(0);
	SDValue SizeC = DAG.getConstant(VT.getSizeInBits(), dl, VT);			SDValue SizeC = DAG.getConstant(VT.getSizeInBits(), dl, VT);

	// Get the Node which indexes into the array.			// Get the Node which indexes into the array.
	SDValue Index = getIndexFromUnindexedLoad(Ld);			SDValue Index = getIndexFromUnindexedLoad(Ld);
	if (!Index)			if (!Index)
	▲ Show 20 Lines • Show All 1,968 Lines • ▼ Show 20 Lines
	unsigned NumLeadingZeroBits = Known.countMinLeadingZeros();			unsigned NumLeadingZeroBits = Known.countMinLeadingZeros();
	NumPackedBits = Subtarget.hasSSE41() ? NumPackedBits : 8;			NumPackedBits = Subtarget.hasSSE41() ? NumPackedBits : 8;
	if (NumLeadingZeroBits >= (InSVT.getSizeInBits() - NumPackedBits))			if (NumLeadingZeroBits >= (InSVT.getSizeInBits() - NumPackedBits))
	return truncateVectorWithPACK(X86ISD::PACKUS, VT, In, DL, DAG, Subtarget);			return truncateVectorWithPACK(X86ISD::PACKUS, VT, In, DL, DAG, Subtarget);

	return SDValue();			return SDValue();
	}			}

				/// This function detects the addition or substraction with saturation pattern
				/// between 2 unsigned i8/i16 vectors and replace this operation with the
				/// efficient X86ISD::ADDUS/X86ISD::ADDS/X86ISD::SUBUS/x86ISD::SUBS instruction.
				static SDValue detectAddSubSatPattern(SDValue In, EVT VT, SelectionDAG &DAG,
				const X86Subtarget &Subtarget,
				const SDLoc &DL) {
				if (!VT.isVector())
				return SDValue();
				craig.topperUnsubmitted Done Reply Inline Actions Correct indentation craig.topper: Correct indentation
				EVT InVT = In.getValueType();
				unsigned NumElems = VT.getVectorNumElements();

				EVT ScalarVT = VT.getVectorElementType();
				if ((ScalarVT != MVT::i8 && ScalarVT != MVT::i16) \|\|
				InVT.getSizeInBits() % 128 != 0 \|\| !isPowerOf2_32(NumElems))
				return SDValue();

				// InScalarVT is the intermediate type in AddSubSat pattern
				// and it should be greater than the original input type (i8/i16).
				craig.topperUnsubmitted Done Reply Inline Actions What ensures we don't create X86ISD::ADDS for with a type smaller than 128 bits? For example if VT was v4i8 craig.topper: What ensures we don't create X86ISD::ADDS for with a type smaller than 128 bits? For example if…
				craig.topperUnsubmitted Done Reply Inline Actions You probably still need a power of 2 check. And a minimum elements check. I don't think SplitOpsAndApply can handle say a 384-bit vector on AVX2. It will try to split it in 256-bit pieces. But that's great test case to add. craig.topper: You probably still need a power of 2 check. And a minimum elements check. I don't think…
				EVT InScalarVT = InVT.getVectorElementType();
				if (InScalarVT.getSizeInBits() <= ScalarVT.getSizeInBits())
				return SDValue();

				if (!Subtarget.hasSSE2())
				return SDValue();

				// Detect the following pattern:
				// %2 = zext <16 x i8> %0 to <16 x i16>
				// %3 = zext <16 x i8> %1 to <16 x i16>
				// %4 = add nuw nsw <16 x i16> %3, %2
				// %5 = icmp ult <16 x i16> %4, <16 x i16> (vector of max InScalarVT values)
				// %6 = select <16 x i1> %5, <16 x i16> (vector of max InScalarVT values)
				// %7 = trunc <16 x i16> %6 to <16 x i8>

				// Detect a Sat Pattern
				bool Signed = true;
				SDValue Sat = detectSSatPattern(In, VT, false);
				if (!Sat) {
				Sat = detectUSatPattern(In, VT);
				Signed = false;
				}
				if (!Sat)
				return SDValue();
				if (Sat.getOpcode() != ISD::ADD && Sat.getOpcode() != ISD::SUB)
				return SDValue();

				unsigned Opcode = Sat.getOpcode() == ISD::ADD ? Signed ? X86ISD::ADDS
				: X86ISD::ADDUS
				: Signed ? X86ISD::SUBS
				: X86ISD::SUBUS;

				// Get addition elements.
				SDValue LHS = Sat.getOperand(0);
				SDValue RHS = Sat.getOperand(1);

				// Check if Op is a result of type promotion.
				craig.topperUnsubmitted Done Reply Inline Actions Use SDValue instead of auto. LLVM tends to be conservative with use of auto. craig.topper: Use SDValue instead of auto. LLVM tends to be conservative with use of auto.
				auto IsExtended = [=, &DAG](SDValue Op) {
				unsigned Opcode = Op.getOpcode();
				unsigned EltSize = ScalarVT.getSizeInBits();
				unsigned ExtEltSize = InScalarVT.getSizeInBits();
				unsigned ExtPartSize = ExtEltSize - EltSize;
				craig.topperUnsubmitted Done Reply Inline Actions Line this up with LHS on the line above craig.topper: Line this up with LHS on the line above

				// Extension of non-constant operand.
				craig.topperUnsubmitted Done Reply Inline Actions Line this up craig.topper: Line this up
				if (Opcode == ISD::ZERO_EXTEND \|\| Opcode == ISD::SIGN_EXTEND) {
				if (Signed)
				return DAG.ComputeNumSignBits(Op) > ExtPartSize;
				else {
				return DAG.MaskedValueIsZero(Op, APInt::getHighBitsSet(ExtEltSize, ExtPartSize));
				craig.topperUnsubmitted Done Reply Inline Actions Identation craig.topper: Identation
				}
				// Build vector of constant nodes. Each of them needs to be a correct
				// extension from a constant of ScalarVT type.
				} else if (ISD::isBuildVectorOfConstantSDNodes(Op.getNode())) {
				unsigned NumOperands = Op.getNumOperands();
				for (unsigned i = 0; i < NumOperands; ++i) {
				APInt Elt = cast<ConstantSDNode>(Op.getOperand(i))->getAPIntValue();
				Elt = Elt.getHiBits(Signed ? ExtPartSize + 1 : ExtPartSize);
				if ((Signed && (!Elt.isAllOnesValue() && !Elt.isNullValue())) \|\|
				(!Signed && !Elt.isNullValue()))
				return false;
				}
				return true;
				}
				return false;
				};

				// Either both operands are extended or one of them is extended
				// and another one is a vector of constants.
				if (!IsExtended(LHS) \|\| !IsExtended(RHS))
				return SDValue();

				// At this point it's guaranteed that at most one of them is
				// a vector of constants (otherwise sat pattern wouldn't have been detected).
				if (RHS.getOpcode() == ISD::BUILD_VECTOR) {
				LHS = LHS.getOperand(0);
				RHS = DAG.getNode(ISD::TRUNCATE, DL, VT, RHS);
				} else if (LHS.getOpcode() == ISD::BUILD_VECTOR) {
				RHS = RHS.getOperand(0);
				LHS = DAG.getNode(ISD::TRUNCATE, DL, VT, LHS);
				} else {
				LHS = LHS.getOperand(0);
				RHS = RHS.getOperand(0);
				}

				// The pattern is detected, emit ADDS/ADDUS/SUBS/SUBUS instruction.
				auto AddSubSatBuilder = [Opcode](SelectionDAG &DAG, const SDLoc &DL,
				ArrayRef<SDValue> Ops) {
				EVT VT = Ops[0].getValueType();
				return DAG.getNode(Opcode, DL, VT, Ops);
				};
				return SplitOpsAndApply(DAG, Subtarget, DL, VT, { LHS, RHS },
				AddSubSatBuilder);
				}

	static SDValue combineTruncate(SDNode *N, SelectionDAG &DAG,			static SDValue combineTruncate(SDNode *N, SelectionDAG &DAG,
	const X86Subtarget &Subtarget) {			const X86Subtarget &Subtarget) {
	EVT VT = N->getValueType(0);			EVT VT = N->getValueType(0);
	SDValue Src = N->getOperand(0);			SDValue Src = N->getOperand(0);
	SDLoc DL(N);			SDLoc DL(N);

	// Attempt to pre-truncate inputs to arithmetic ops instead.			// Attempt to pre-truncate inputs to arithmetic ops instead.
	if (SDValue V = combineTruncatedArithmetic(N, DAG, Subtarget, DL))			if (SDValue V = combineTruncatedArithmetic(N, DAG, Subtarget, DL))
	return V;			return V;

	// Try to detect AVG pattern first.			// Try to detect AVG pattern first.
	if (SDValue Avg = detectAVGPattern(Src, VT, DAG, Subtarget, DL))			if (SDValue Avg = detectAVGPattern(Src, VT, DAG, Subtarget, DL))
	return Avg;			return Avg;

				// Try to detect addition or subtraction with saturation.
				if (SDValue AddSubSat = detectAddSubSatPattern(Src, VT, DAG, Subtarget, DL))
				return AddSubSat;

	// Try to combine truncation with signed/unsigned saturation.			// Try to combine truncation with signed/unsigned saturation.
	if (SDValue Val = combineTruncateWithSat(Src, VT, DL, DAG, Subtarget))			if (SDValue Val = combineTruncateWithSat(Src, VT, DL, DAG, Subtarget))
	return Val;			return Val;

	// The bitcast source is a direct mmx result.			// The bitcast source is a direct mmx result.
	// Detect bitcasts between i32 to x86mmx			// Detect bitcasts between i32 to x86mmx
	if (Src.getOpcode() == ISD::BITCAST && VT == MVT::i32) {			if (Src.getOpcode() == ISD::BITCAST && VT == MVT::i32) {
	SDValue BCSrc = Src.getOperand(0);			SDValue BCSrc = Src.getOperand(0);
	▲ Show 20 Lines • Show All 3,739 Lines • Show Last 20 Lines

lib/Target/X86/X86IntrinsicsInfo.h

Show First 20 Lines • Show All 396 Lines • ▼ Show 20 Lines	static const IntrinsicData IntrinsicsWithoutChain[] = {
X86_INTRINSIC_DATA(avx_vpermilvar_pd, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),		X86_INTRINSIC_DATA(avx_vpermilvar_pd, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),
X86_INTRINSIC_DATA(avx_vpermilvar_pd_256, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),		X86_INTRINSIC_DATA(avx_vpermilvar_pd_256, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),
X86_INTRINSIC_DATA(avx_vpermilvar_ps, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),		X86_INTRINSIC_DATA(avx_vpermilvar_ps, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),
X86_INTRINSIC_DATA(avx_vpermilvar_ps_256, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),		X86_INTRINSIC_DATA(avx_vpermilvar_ps_256, INTR_TYPE_2OP, X86ISD::VPERMILPV, 0),
X86_INTRINSIC_DATA(avx2_packssdw, INTR_TYPE_2OP, X86ISD::PACKSS, 0),		X86_INTRINSIC_DATA(avx2_packssdw, INTR_TYPE_2OP, X86ISD::PACKSS, 0),
X86_INTRINSIC_DATA(avx2_packsswb, INTR_TYPE_2OP, X86ISD::PACKSS, 0),		X86_INTRINSIC_DATA(avx2_packsswb, INTR_TYPE_2OP, X86ISD::PACKSS, 0),
X86_INTRINSIC_DATA(avx2_packusdw, INTR_TYPE_2OP, X86ISD::PACKUS, 0),		X86_INTRINSIC_DATA(avx2_packusdw, INTR_TYPE_2OP, X86ISD::PACKUS, 0),
X86_INTRINSIC_DATA(avx2_packuswb, INTR_TYPE_2OP, X86ISD::PACKUS, 0),		X86_INTRINSIC_DATA(avx2_packuswb, INTR_TYPE_2OP, X86ISD::PACKUS, 0),
X86_INTRINSIC_DATA(avx2_padds_b, INTR_TYPE_2OP, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(avx2_padds_w, INTR_TYPE_2OP, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(avx2_paddus_b, INTR_TYPE_2OP, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(avx2_paddus_w, INTR_TYPE_2OP, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(avx2_phadd_d, INTR_TYPE_2OP, X86ISD::HADD, 0),		X86_INTRINSIC_DATA(avx2_phadd_d, INTR_TYPE_2OP, X86ISD::HADD, 0),
X86_INTRINSIC_DATA(avx2_phadd_w, INTR_TYPE_2OP, X86ISD::HADD, 0),		X86_INTRINSIC_DATA(avx2_phadd_w, INTR_TYPE_2OP, X86ISD::HADD, 0),
X86_INTRINSIC_DATA(avx2_phsub_d, INTR_TYPE_2OP, X86ISD::HSUB, 0),		X86_INTRINSIC_DATA(avx2_phsub_d, INTR_TYPE_2OP, X86ISD::HSUB, 0),
X86_INTRINSIC_DATA(avx2_phsub_w, INTR_TYPE_2OP, X86ISD::HSUB, 0),		X86_INTRINSIC_DATA(avx2_phsub_w, INTR_TYPE_2OP, X86ISD::HSUB, 0),
X86_INTRINSIC_DATA(avx2_pmadd_ub_sw, INTR_TYPE_2OP, X86ISD::VPMADDUBSW, 0),		X86_INTRINSIC_DATA(avx2_pmadd_ub_sw, INTR_TYPE_2OP, X86ISD::VPMADDUBSW, 0),
X86_INTRINSIC_DATA(avx2_pmadd_wd, INTR_TYPE_2OP, X86ISD::VPMADDWD, 0),		X86_INTRINSIC_DATA(avx2_pmadd_wd, INTR_TYPE_2OP, X86ISD::VPMADDWD, 0),
X86_INTRINSIC_DATA(avx2_pmovmskb, INTR_TYPE_1OP, X86ISD::MOVMSK, 0),		X86_INTRINSIC_DATA(avx2_pmovmskb, INTR_TYPE_1OP, X86ISD::MOVMSK, 0),
X86_INTRINSIC_DATA(avx2_pmul_hr_sw, INTR_TYPE_2OP, X86ISD::MULHRS, 0),		X86_INTRINSIC_DATA(avx2_pmul_hr_sw, INTR_TYPE_2OP, X86ISD::MULHRS, 0),
Show All 22 Lines	static const IntrinsicData IntrinsicsWithoutChain[] = {
X86_INTRINSIC_DATA(avx2_psrl_w, INTR_TYPE_2OP, X86ISD::VSRL, 0),		X86_INTRINSIC_DATA(avx2_psrl_w, INTR_TYPE_2OP, X86ISD::VSRL, 0),
X86_INTRINSIC_DATA(avx2_psrli_d, VSHIFT, X86ISD::VSRLI, 0),		X86_INTRINSIC_DATA(avx2_psrli_d, VSHIFT, X86ISD::VSRLI, 0),
X86_INTRINSIC_DATA(avx2_psrli_q, VSHIFT, X86ISD::VSRLI, 0),		X86_INTRINSIC_DATA(avx2_psrli_q, VSHIFT, X86ISD::VSRLI, 0),
X86_INTRINSIC_DATA(avx2_psrli_w, VSHIFT, X86ISD::VSRLI, 0),		X86_INTRINSIC_DATA(avx2_psrli_w, VSHIFT, X86ISD::VSRLI, 0),
X86_INTRINSIC_DATA(avx2_psrlv_d, INTR_TYPE_2OP, ISD::SRL, 0),		X86_INTRINSIC_DATA(avx2_psrlv_d, INTR_TYPE_2OP, ISD::SRL, 0),
X86_INTRINSIC_DATA(avx2_psrlv_d_256, INTR_TYPE_2OP, ISD::SRL, 0),		X86_INTRINSIC_DATA(avx2_psrlv_d_256, INTR_TYPE_2OP, ISD::SRL, 0),
X86_INTRINSIC_DATA(avx2_psrlv_q, INTR_TYPE_2OP, ISD::SRL, 0),		X86_INTRINSIC_DATA(avx2_psrlv_q, INTR_TYPE_2OP, ISD::SRL, 0),
X86_INTRINSIC_DATA(avx2_psrlv_q_256, INTR_TYPE_2OP, ISD::SRL, 0),		X86_INTRINSIC_DATA(avx2_psrlv_q_256, INTR_TYPE_2OP, ISD::SRL, 0),
X86_INTRINSIC_DATA(avx2_psubs_b, INTR_TYPE_2OP, X86ISD::SUBS, 0),
X86_INTRINSIC_DATA(avx2_psubs_w, INTR_TYPE_2OP, X86ISD::SUBS, 0),
X86_INTRINSIC_DATA(avx2_psubus_b, INTR_TYPE_2OP, X86ISD::SUBUS, 0),
X86_INTRINSIC_DATA(avx2_psubus_w, INTR_TYPE_2OP, X86ISD::SUBUS, 0),
X86_INTRINSIC_DATA(avx512_cvtsi2sd64, INTR_TYPE_3OP, X86ISD::SCALAR_SINT_TO_FP_RND, 0),		X86_INTRINSIC_DATA(avx512_cvtsi2sd64, INTR_TYPE_3OP, X86ISD::SCALAR_SINT_TO_FP_RND, 0),
X86_INTRINSIC_DATA(avx512_cvtsi2ss32, INTR_TYPE_3OP, X86ISD::SCALAR_SINT_TO_FP_RND, 0),		X86_INTRINSIC_DATA(avx512_cvtsi2ss32, INTR_TYPE_3OP, X86ISD::SCALAR_SINT_TO_FP_RND, 0),
X86_INTRINSIC_DATA(avx512_cvtsi2ss64, INTR_TYPE_3OP, X86ISD::SCALAR_SINT_TO_FP_RND, 0),		X86_INTRINSIC_DATA(avx512_cvtsi2ss64, INTR_TYPE_3OP, X86ISD::SCALAR_SINT_TO_FP_RND, 0),
X86_INTRINSIC_DATA(avx512_cvttsd2si, INTR_TYPE_2OP, X86ISD::CVTTS2SI_RND, 0),		X86_INTRINSIC_DATA(avx512_cvttsd2si, INTR_TYPE_2OP, X86ISD::CVTTS2SI_RND, 0),
X86_INTRINSIC_DATA(avx512_cvttsd2si64, INTR_TYPE_2OP, X86ISD::CVTTS2SI_RND, 0),		X86_INTRINSIC_DATA(avx512_cvttsd2si64, INTR_TYPE_2OP, X86ISD::CVTTS2SI_RND, 0),
X86_INTRINSIC_DATA(avx512_cvttsd2usi, INTR_TYPE_2OP, X86ISD::CVTTS2UI_RND, 0),		X86_INTRINSIC_DATA(avx512_cvttsd2usi, INTR_TYPE_2OP, X86ISD::CVTTS2UI_RND, 0),
X86_INTRINSIC_DATA(avx512_cvttsd2usi64, INTR_TYPE_2OP, X86ISD::CVTTS2UI_RND, 0),		X86_INTRINSIC_DATA(avx512_cvttsd2usi64, INTR_TYPE_2OP, X86ISD::CVTTS2UI_RND, 0),
X86_INTRINSIC_DATA(avx512_cvttss2si, INTR_TYPE_2OP, X86ISD::CVTTS2SI_RND, 0),		X86_INTRINSIC_DATA(avx512_cvttss2si, INTR_TYPE_2OP, X86ISD::CVTTS2SI_RND, 0),
▲ Show 20 Lines • Show All 339 Lines • ▼ Show 20 Lines	static const IntrinsicData IntrinsicsWithoutChain[] = {
X86_INTRINSIC_DATA(avx512_mask_mul_pd_512, INTR_TYPE_2OP_MASK, ISD::FMUL,		X86_INTRINSIC_DATA(avx512_mask_mul_pd_512, INTR_TYPE_2OP_MASK, ISD::FMUL,
X86ISD::FMUL_RND),		X86ISD::FMUL_RND),
X86_INTRINSIC_DATA(avx512_mask_mul_ps_512, INTR_TYPE_2OP_MASK, ISD::FMUL,		X86_INTRINSIC_DATA(avx512_mask_mul_ps_512, INTR_TYPE_2OP_MASK, ISD::FMUL,
X86ISD::FMUL_RND),		X86ISD::FMUL_RND),
X86_INTRINSIC_DATA(avx512_mask_mul_sd_round, INTR_TYPE_SCALAR_MASK_RM,		X86_INTRINSIC_DATA(avx512_mask_mul_sd_round, INTR_TYPE_SCALAR_MASK_RM,
X86ISD::FMULS_RND, 0),		X86ISD::FMULS_RND, 0),
X86_INTRINSIC_DATA(avx512_mask_mul_ss_round, INTR_TYPE_SCALAR_MASK_RM,		X86_INTRINSIC_DATA(avx512_mask_mul_ss_round, INTR_TYPE_SCALAR_MASK_RM,
X86ISD::FMULS_RND, 0),		X86ISD::FMULS_RND, 0),
X86_INTRINSIC_DATA(avx512_mask_padds_b_128, INTR_TYPE_2OP_MASK, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(avx512_mask_padds_b_256, INTR_TYPE_2OP_MASK, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(avx512_mask_padds_b_512, INTR_TYPE_2OP_MASK, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(avx512_mask_padds_w_128, INTR_TYPE_2OP_MASK, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(avx512_mask_padds_w_256, INTR_TYPE_2OP_MASK, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(avx512_mask_padds_w_512, INTR_TYPE_2OP_MASK, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(avx512_mask_paddus_b_128, INTR_TYPE_2OP_MASK, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(avx512_mask_paddus_b_256, INTR_TYPE_2OP_MASK, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(avx512_mask_paddus_b_512, INTR_TYPE_2OP_MASK, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(avx512_mask_paddus_w_128, INTR_TYPE_2OP_MASK, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(avx512_mask_paddus_w_256, INTR_TYPE_2OP_MASK, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(avx512_mask_paddus_w_512, INTR_TYPE_2OP_MASK, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(avx512_mask_permvar_df_256, VPERM_2OP_MASK,		X86_INTRINSIC_DATA(avx512_mask_permvar_df_256, VPERM_2OP_MASK,
X86ISD::VPERMV, 0),		X86ISD::VPERMV, 0),
X86_INTRINSIC_DATA(avx512_mask_permvar_df_512, VPERM_2OP_MASK,		X86_INTRINSIC_DATA(avx512_mask_permvar_df_512, VPERM_2OP_MASK,
X86ISD::VPERMV, 0),		X86ISD::VPERMV, 0),
X86_INTRINSIC_DATA(avx512_mask_permvar_di_256, VPERM_2OP_MASK,		X86_INTRINSIC_DATA(avx512_mask_permvar_di_256, VPERM_2OP_MASK,
X86ISD::VPERMV, 0),		X86ISD::VPERMV, 0),
X86_INTRINSIC_DATA(avx512_mask_permvar_di_512, VPERM_2OP_MASK,		X86_INTRINSIC_DATA(avx512_mask_permvar_di_512, VPERM_2OP_MASK,
X86ISD::VPERMV, 0),		X86ISD::VPERMV, 0),
▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines	static const IntrinsicData IntrinsicsWithoutChain[] = {
X86_INTRINSIC_DATA(avx512_mask_pror_q_256, INTR_TYPE_2OP_IMM8_MASK, X86ISD::VROTRI, 0),		X86_INTRINSIC_DATA(avx512_mask_pror_q_256, INTR_TYPE_2OP_IMM8_MASK, X86ISD::VROTRI, 0),
X86_INTRINSIC_DATA(avx512_mask_pror_q_512, INTR_TYPE_2OP_IMM8_MASK, X86ISD::VROTRI, 0),		X86_INTRINSIC_DATA(avx512_mask_pror_q_512, INTR_TYPE_2OP_IMM8_MASK, X86ISD::VROTRI, 0),
X86_INTRINSIC_DATA(avx512_mask_prorv_d_128, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),		X86_INTRINSIC_DATA(avx512_mask_prorv_d_128, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),
X86_INTRINSIC_DATA(avx512_mask_prorv_d_256, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),		X86_INTRINSIC_DATA(avx512_mask_prorv_d_256, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),
X86_INTRINSIC_DATA(avx512_mask_prorv_d_512, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),		X86_INTRINSIC_DATA(avx512_mask_prorv_d_512, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),
X86_INTRINSIC_DATA(avx512_mask_prorv_q_128, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),		X86_INTRINSIC_DATA(avx512_mask_prorv_q_128, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),
X86_INTRINSIC_DATA(avx512_mask_prorv_q_256, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),		X86_INTRINSIC_DATA(avx512_mask_prorv_q_256, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),
X86_INTRINSIC_DATA(avx512_mask_prorv_q_512, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),		X86_INTRINSIC_DATA(avx512_mask_prorv_q_512, INTR_TYPE_2OP_MASK, ISD::ROTR, 0),
X86_INTRINSIC_DATA(avx512_mask_psubs_b_128, INTR_TYPE_2OP_MASK, X86ISD::SUBS, 0),
X86_INTRINSIC_DATA(avx512_mask_psubs_b_256, INTR_TYPE_2OP_MASK, X86ISD::SUBS, 0),
X86_INTRINSIC_DATA(avx512_mask_psubs_b_512, INTR_TYPE_2OP_MASK, X86ISD::SUBS, 0),
X86_INTRINSIC_DATA(avx512_mask_psubs_w_128, INTR_TYPE_2OP_MASK, X86ISD::SUBS, 0),
X86_INTRINSIC_DATA(avx512_mask_psubs_w_256, INTR_TYPE_2OP_MASK, X86ISD::SUBS, 0),
X86_INTRINSIC_DATA(avx512_mask_psubs_w_512, INTR_TYPE_2OP_MASK, X86ISD::SUBS, 0),
X86_INTRINSIC_DATA(avx512_mask_psubus_b_128, INTR_TYPE_2OP_MASK, X86ISD::SUBUS, 0),
X86_INTRINSIC_DATA(avx512_mask_psubus_b_256, INTR_TYPE_2OP_MASK, X86ISD::SUBUS, 0),
X86_INTRINSIC_DATA(avx512_mask_psubus_b_512, INTR_TYPE_2OP_MASK, X86ISD::SUBUS, 0),
X86_INTRINSIC_DATA(avx512_mask_psubus_w_128, INTR_TYPE_2OP_MASK, X86ISD::SUBUS, 0),
X86_INTRINSIC_DATA(avx512_mask_psubus_w_256, INTR_TYPE_2OP_MASK, X86ISD::SUBUS, 0),
X86_INTRINSIC_DATA(avx512_mask_psubus_w_512, INTR_TYPE_2OP_MASK, X86ISD::SUBUS, 0),
X86_INTRINSIC_DATA(avx512_mask_pternlog_d_128, TERLOG_OP_MASK,		X86_INTRINSIC_DATA(avx512_mask_pternlog_d_128, TERLOG_OP_MASK,
X86ISD::VPTERNLOG, 0),		X86ISD::VPTERNLOG, 0),
X86_INTRINSIC_DATA(avx512_mask_pternlog_d_256, TERLOG_OP_MASK,		X86_INTRINSIC_DATA(avx512_mask_pternlog_d_256, TERLOG_OP_MASK,
X86ISD::VPTERNLOG, 0),		X86ISD::VPTERNLOG, 0),
X86_INTRINSIC_DATA(avx512_mask_pternlog_d_512, TERLOG_OP_MASK,		X86_INTRINSIC_DATA(avx512_mask_pternlog_d_512, TERLOG_OP_MASK,
X86ISD::VPTERNLOG, 0),		X86ISD::VPTERNLOG, 0),
X86_INTRINSIC_DATA(avx512_mask_pternlog_q_128, TERLOG_OP_MASK,		X86_INTRINSIC_DATA(avx512_mask_pternlog_q_128, TERLOG_OP_MASK,
X86ISD::VPTERNLOG, 0),		X86ISD::VPTERNLOG, 0),
▲ Show 20 Lines • Show All 593 Lines • ▼ Show 20 Lines	X86_INTRINSIC_DATA(avx512_mask_vpermi2var_d_128, VPERM_3OP_MASK,
X86_INTRINSIC_DATA(sse2_max_pd, INTR_TYPE_2OP, X86ISD::FMAX, 0),		X86_INTRINSIC_DATA(sse2_max_pd, INTR_TYPE_2OP, X86ISD::FMAX, 0),
X86_INTRINSIC_DATA(sse2_max_sd, INTR_TYPE_2OP, X86ISD::FMAXS, 0),		X86_INTRINSIC_DATA(sse2_max_sd, INTR_TYPE_2OP, X86ISD::FMAXS, 0),
X86_INTRINSIC_DATA(sse2_min_pd, INTR_TYPE_2OP, X86ISD::FMIN, 0),		X86_INTRINSIC_DATA(sse2_min_pd, INTR_TYPE_2OP, X86ISD::FMIN, 0),
X86_INTRINSIC_DATA(sse2_min_sd, INTR_TYPE_2OP, X86ISD::FMINS, 0),		X86_INTRINSIC_DATA(sse2_min_sd, INTR_TYPE_2OP, X86ISD::FMINS, 0),
X86_INTRINSIC_DATA(sse2_movmsk_pd, INTR_TYPE_1OP, X86ISD::MOVMSK, 0),		X86_INTRINSIC_DATA(sse2_movmsk_pd, INTR_TYPE_1OP, X86ISD::MOVMSK, 0),
X86_INTRINSIC_DATA(sse2_packssdw_128, INTR_TYPE_2OP, X86ISD::PACKSS, 0),		X86_INTRINSIC_DATA(sse2_packssdw_128, INTR_TYPE_2OP, X86ISD::PACKSS, 0),
X86_INTRINSIC_DATA(sse2_packsswb_128, INTR_TYPE_2OP, X86ISD::PACKSS, 0),		X86_INTRINSIC_DATA(sse2_packsswb_128, INTR_TYPE_2OP, X86ISD::PACKSS, 0),
X86_INTRINSIC_DATA(sse2_packuswb_128, INTR_TYPE_2OP, X86ISD::PACKUS, 0),		X86_INTRINSIC_DATA(sse2_packuswb_128, INTR_TYPE_2OP, X86ISD::PACKUS, 0),
X86_INTRINSIC_DATA(sse2_padds_b, INTR_TYPE_2OP, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(sse2_padds_w, INTR_TYPE_2OP, X86ISD::ADDS, 0),
X86_INTRINSIC_DATA(sse2_paddus_b, INTR_TYPE_2OP, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(sse2_paddus_w, INTR_TYPE_2OP, X86ISD::ADDUS, 0),
X86_INTRINSIC_DATA(sse2_pmadd_wd, INTR_TYPE_2OP, X86ISD::VPMADDWD, 0),		X86_INTRINSIC_DATA(sse2_pmadd_wd, INTR_TYPE_2OP, X86ISD::VPMADDWD, 0),
X86_INTRINSIC_DATA(sse2_pmovmskb_128, INTR_TYPE_1OP, X86ISD::MOVMSK, 0),		X86_INTRINSIC_DATA(sse2_pmovmskb_128, INTR_TYPE_1OP, X86ISD::MOVMSK, 0),
X86_INTRINSIC_DATA(sse2_pmulh_w, INTR_TYPE_2OP, ISD::MULHS, 0),		X86_INTRINSIC_DATA(sse2_pmulh_w, INTR_TYPE_2OP, ISD::MULHS, 0),
X86_INTRINSIC_DATA(sse2_pmulhu_w, INTR_TYPE_2OP, ISD::MULHU, 0),		X86_INTRINSIC_DATA(sse2_pmulhu_w, INTR_TYPE_2OP, ISD::MULHU, 0),
X86_INTRINSIC_DATA(sse2_psad_bw, INTR_TYPE_2OP, X86ISD::PSADBW, 0),		X86_INTRINSIC_DATA(sse2_psad_bw, INTR_TYPE_2OP, X86ISD::PSADBW, 0),
X86_INTRINSIC_DATA(sse2_psll_d, INTR_TYPE_2OP, X86ISD::VSHL, 0),		X86_INTRINSIC_DATA(sse2_psll_d, INTR_TYPE_2OP, X86ISD::VSHL, 0),
X86_INTRINSIC_DATA(sse2_psll_q, INTR_TYPE_2OP, X86ISD::VSHL, 0),		X86_INTRINSIC_DATA(sse2_psll_q, INTR_TYPE_2OP, X86ISD::VSHL, 0),
X86_INTRINSIC_DATA(sse2_psll_w, INTR_TYPE_2OP, X86ISD::VSHL, 0),		X86_INTRINSIC_DATA(sse2_psll_w, INTR_TYPE_2OP, X86ISD::VSHL, 0),
X86_INTRINSIC_DATA(sse2_pslli_d, VSHIFT, X86ISD::VSHLI, 0),		X86_INTRINSIC_DATA(sse2_pslli_d, VSHIFT, X86ISD::VSHLI, 0),
X86_INTRINSIC_DATA(sse2_pslli_q, VSHIFT, X86ISD::VSHLI, 0),		X86_INTRINSIC_DATA(sse2_pslli_q, VSHIFT, X86ISD::VSHLI, 0),
X86_INTRINSIC_DATA(sse2_pslli_w, VSHIFT, X86ISD::VSHLI, 0),		X86_INTRINSIC_DATA(sse2_pslli_w, VSHIFT, X86ISD::VSHLI, 0),
X86_INTRINSIC_DATA(sse2_psra_d, INTR_TYPE_2OP, X86ISD::VSRA, 0),		X86_INTRINSIC_DATA(sse2_psra_d, INTR_TYPE_2OP, X86ISD::VSRA, 0),
X86_INTRINSIC_DATA(sse2_psra_w, INTR_TYPE_2OP, X86ISD::VSRA, 0),		X86_INTRINSIC_DATA(sse2_psra_w, INTR_TYPE_2OP, X86ISD::VSRA, 0),
X86_INTRINSIC_DATA(sse2_psrai_d, VSHIFT, X86ISD::VSRAI, 0),		X86_INTRINSIC_DATA(sse2_psrai_d, VSHIFT, X86ISD::VSRAI, 0),
X86_INTRINSIC_DATA(sse2_psrai_w, VSHIFT, X86ISD::VSRAI, 0),		X86_INTRINSIC_DATA(sse2_psrai_w, VSHIFT, X86ISD::VSRAI, 0),
X86_INTRINSIC_DATA(sse2_psrl_d, INTR_TYPE_2OP, X86ISD::VSRL, 0),		X86_INTRINSIC_DATA(sse2_psrl_d, INTR_TYPE_2OP, X86ISD::VSRL, 0),
X86_INTRINSIC_DATA(sse2_psrl_q, INTR_TYPE_2OP, X86ISD::VSRL, 0),		X86_INTRINSIC_DATA(sse2_psrl_q, INTR_TYPE_2OP, X86ISD::VSRL, 0),
X86_INTRINSIC_DATA(sse2_psrl_w, INTR_TYPE_2OP, X86ISD::VSRL, 0),		X86_INTRINSIC_DATA(sse2_psrl_w, INTR_TYPE_2OP, X86ISD::VSRL, 0),
X86_INTRINSIC_DATA(sse2_psrli_d, VSHIFT, X86ISD::VSRLI, 0),		X86_INTRINSIC_DATA(sse2_psrli_d, VSHIFT, X86ISD::VSRLI, 0),
X86_INTRINSIC_DATA(sse2_psrli_q, VSHIFT, X86ISD::VSRLI, 0),		X86_INTRINSIC_DATA(sse2_psrli_q, VSHIFT, X86ISD::VSRLI, 0),
X86_INTRINSIC_DATA(sse2_psrli_w, VSHIFT, X86ISD::VSRLI, 0),		X86_INTRINSIC_DATA(sse2_psrli_w, VSHIFT, X86ISD::VSRLI, 0),
X86_INTRINSIC_DATA(sse2_psubs_b, INTR_TYPE_2OP, X86ISD::SUBS, 0),
X86_INTRINSIC_DATA(sse2_psubs_w, INTR_TYPE_2OP, X86ISD::SUBS, 0),
X86_INTRINSIC_DATA(sse2_psubus_b, INTR_TYPE_2OP, X86ISD::SUBUS, 0),
X86_INTRINSIC_DATA(sse2_psubus_w, INTR_TYPE_2OP, X86ISD::SUBUS, 0),
X86_INTRINSIC_DATA(sse2_sqrt_pd, INTR_TYPE_1OP, ISD::FSQRT, 0),		X86_INTRINSIC_DATA(sse2_sqrt_pd, INTR_TYPE_1OP, ISD::FSQRT, 0),
X86_INTRINSIC_DATA(sse2_ucomieq_sd, COMI, X86ISD::UCOMI, ISD::SETEQ),		X86_INTRINSIC_DATA(sse2_ucomieq_sd, COMI, X86ISD::UCOMI, ISD::SETEQ),
X86_INTRINSIC_DATA(sse2_ucomige_sd, COMI, X86ISD::UCOMI, ISD::SETGE),		X86_INTRINSIC_DATA(sse2_ucomige_sd, COMI, X86ISD::UCOMI, ISD::SETGE),
X86_INTRINSIC_DATA(sse2_ucomigt_sd, COMI, X86ISD::UCOMI, ISD::SETGT),		X86_INTRINSIC_DATA(sse2_ucomigt_sd, COMI, X86ISD::UCOMI, ISD::SETGT),
X86_INTRINSIC_DATA(sse2_ucomile_sd, COMI, X86ISD::UCOMI, ISD::SETLE),		X86_INTRINSIC_DATA(sse2_ucomile_sd, COMI, X86ISD::UCOMI, ISD::SETLE),
X86_INTRINSIC_DATA(sse2_ucomilt_sd, COMI, X86ISD::UCOMI, ISD::SETLT),		X86_INTRINSIC_DATA(sse2_ucomilt_sd, COMI, X86ISD::UCOMI, ISD::SETLT),
X86_INTRINSIC_DATA(sse2_ucomineq_sd, COMI, X86ISD::UCOMI, ISD::SETNE),		X86_INTRINSIC_DATA(sse2_ucomineq_sd, COMI, X86ISD::UCOMI, ISD::SETNE),
X86_INTRINSIC_DATA(sse3_addsub_pd, INTR_TYPE_2OP, X86ISD::ADDSUB, 0),		X86_INTRINSIC_DATA(sse3_addsub_pd, INTR_TYPE_2OP, X86ISD::ADDSUB, 0),
▲ Show 20 Lines • Show All 107 Lines • Show Last 20 Lines

test/CodeGen/X86/avx2-intrinsics-fast-isel.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -fast-isel -mtriple=i386-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=CHECK --check-prefix=X86			; RUN: llc < %s -fast-isel -mtriple=i386-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=CHECK --check-prefix=X86
	; RUN: llc < %s -fast-isel -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=CHECK --check-prefix=X64			; RUN: llc < %s -fast-isel -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=CHECK --check-prefix=X64

	; NOTE: This should use IR equivalent to what is generated by clang/test/CodeGen/avx2-builtins.c			; NOTE: This should use IR equivalent to what is generated by clang/test/CodeGen/avx2-builtins.c
				RKSimonUnsubmitted Done Reply Inline Actions As noted here, you should be using the same IR as is generated in the clang builtins tests updated in D44786 RKSimon: As noted here, you should be using the same IR as is generated in the clang builtins tests…

	define <4 x i64> @test_mm256_abs_epi8(<4 x i64> %a0) {			define <4 x i64> @test_mm256_abs_epi8(<4 x i64> %a0) {
	; CHECK-LABEL: test_mm256_abs_epi8:			; CHECK-LABEL: test_mm256_abs_epi8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpabsb %ymm0, %ymm0			; CHECK-NEXT: vpabsb %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg = bitcast <4 x i64> %a0 to <32 x i8>			%arg = bitcast <4 x i64> %a0 to <32 x i8>
	%sub = sub <32 x i8> zeroinitializer, %arg			%sub = sub <32 x i8> zeroinitializer, %arg
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines

	define <4 x i64> @test_mm256_adds_epi8(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_adds_epi8(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_adds_epi8:			; CHECK-LABEL: test_mm256_adds_epi8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpaddsb %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddsb %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <32 x i8>			%arg0 = bitcast <4 x i64> %a0 to <32 x i8>
	%arg1 = bitcast <4 x i64> %a1 to <32 x i8>			%arg1 = bitcast <4 x i64> %a1 to <32 x i8>
	%res = call <32 x i8> @llvm.x86.avx2.padds.b(<32 x i8> %arg0, <32 x i8> %arg1)			%1 = sext <32 x i8> %arg0 to <32 x i16>
	%bc = bitcast <32 x i8> %res to <4 x i64>			%2 = sext <32 x i8> %arg1 to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				%bc = bitcast <32 x i8> %8 to <4 x i64>
	ret <4 x i64> %bc			ret <4 x i64> %bc
	}			}
	declare <32 x i8> @llvm.x86.avx2.padds.b(<32 x i8>, <32 x i8>) nounwind readnone

	define <4 x i64> @test_mm256_adds_epi16(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_adds_epi16(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_adds_epi16:			; CHECK-LABEL: test_mm256_adds_epi16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpaddsw %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddsw %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <16 x i16>			%arg0 = bitcast <4 x i64> %a0 to <16 x i16>
	%arg1 = bitcast <4 x i64> %a1 to <16 x i16>			%arg1 = bitcast <4 x i64> %a1 to <16 x i16>
	%res = call <16 x i16> @llvm.x86.avx2.padds.w(<16 x i16> %arg0, <16 x i16> %arg1)			%1 = sext <16 x i16> %arg0 to <16 x i32>
	%bc = bitcast <16 x i16> %res to <4 x i64>			%2 = sext <16 x i16> %arg1 to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				%bc = bitcast <16 x i16> %8 to <4 x i64>
	ret <4 x i64> %bc			ret <4 x i64> %bc
	}			}
	declare <16 x i16> @llvm.x86.avx2.padds.w(<16 x i16>, <16 x i16>) nounwind readnone

	define <4 x i64> @test_mm256_adds_epu8(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_adds_epu8(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_adds_epu8:			; CHECK-LABEL: test_mm256_adds_epu8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpaddusb %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddusb %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <32 x i8>			%arg0 = bitcast <4 x i64> %a0 to <32 x i8>
	%arg1 = bitcast <4 x i64> %a1 to <32 x i8>			%arg1 = bitcast <4 x i64> %a1 to <32 x i8>
	%res = call <32 x i8> @llvm.x86.avx2.paddus.b(<32 x i8> %arg0, <32 x i8> %arg1)			%1 = zext <32 x i8> %arg0 to <32 x i16>
	%bc = bitcast <32 x i8> %res to <4 x i64>			%2 = zext <32 x i8> %arg1 to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp ult <32 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <32 x i16> %5 to <32 x i8>
				%bc = bitcast <32 x i8> %6 to <4 x i64>
	ret <4 x i64> %bc			ret <4 x i64> %bc
	}			}
	declare <32 x i8> @llvm.x86.avx2.paddus.b(<32 x i8>, <32 x i8>) nounwind readnone

	define <4 x i64> @test_mm256_adds_epu16(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_adds_epu16(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_adds_epu16:			; CHECK-LABEL: test_mm256_adds_epu16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpaddusw %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpaddusw %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <16 x i16>			%arg0 = bitcast <4 x i64> %a0 to <16 x i16>
	%arg1 = bitcast <4 x i64> %a1 to <16 x i16>			%arg1 = bitcast <4 x i64> %a1 to <16 x i16>
	%res = call <16 x i16> @llvm.x86.avx2.paddus.w(<16 x i16> %arg0, <16 x i16> %arg1)			%1 = zext <16 x i16> %arg0 to <16 x i32>
	%bc = bitcast <16 x i16> %res to <4 x i64>			%2 = zext <16 x i16> %arg1 to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp ult <16 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <16 x i32> %5 to <16 x i16>
				%bc = bitcast <16 x i16> %6 to <4 x i64>
	ret <4 x i64> %bc			ret <4 x i64> %bc
	}			}
	declare <16 x i16> @llvm.x86.avx2.paddus.w(<16 x i16>, <16 x i16>) nounwind readnone

	define <4 x i64> @test_mm256_alignr_epi8(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_alignr_epi8(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_alignr_epi8:			; CHECK-LABEL: test_mm256_alignr_epi8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[2,3,4,5,6,7,8,9,10,11,12,13,14,15],ymm1[0,1],ymm0[18,19,20,21,22,23,24,25,26,27,28,29,30,31],ymm1[16,17]			; CHECK-NEXT: vpalignr {{.*#+}} ymm0 = ymm0[2,3,4,5,6,7,8,9,10,11,12,13,14,15],ymm1[0,1],ymm0[18,19,20,21,22,23,24,25,26,27,28,29,30,31],ymm1[16,17]
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <32 x i8>			%arg0 = bitcast <4 x i64> %a0 to <32 x i8>
	%arg1 = bitcast <4 x i64> %a1 to <32 x i8>			%arg1 = bitcast <4 x i64> %a1 to <32 x i8>
	▲ Show 20 Lines • Show All 2,371 Lines • ▼ Show 20 Lines

	define <4 x i64> @test_mm256_subs_epi8(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_subs_epi8(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_subs_epi8:			; CHECK-LABEL: test_mm256_subs_epi8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpsubsb %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpsubsb %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <32 x i8>			%arg0 = bitcast <4 x i64> %a0 to <32 x i8>
	%arg1 = bitcast <4 x i64> %a1 to <32 x i8>			%arg1 = bitcast <4 x i64> %a1 to <32 x i8>
	%res = call <32 x i8> @llvm.x86.avx2.psubs.b(<32 x i8> %arg0, <32 x i8> %arg1)			%1 = sext <32 x i8> %arg0 to <32 x i16>
	%bc = bitcast <32 x i8> %res to <4 x i64>			%2 = sext <32 x i8> %arg1 to <32 x i16>
				%3 = sub nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				%bc = bitcast <32 x i8> %8 to <4 x i64>
	ret <4 x i64> %bc			ret <4 x i64> %bc
	}			}
	declare <32 x i8> @llvm.x86.avx2.psubs.b(<32 x i8>, <32 x i8>) nounwind readnone

	define <4 x i64> @test_mm256_subs_epi16(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_subs_epi16(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_subs_epi16:			; CHECK-LABEL: test_mm256_subs_epi16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpsubsw %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpsubsw %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <16 x i16>			%arg0 = bitcast <4 x i64> %a0 to <16 x i16>
	%arg1 = bitcast <4 x i64> %a1 to <16 x i16>			%arg1 = bitcast <4 x i64> %a1 to <16 x i16>
	%res = call <16 x i16> @llvm.x86.avx2.psubs.w(<16 x i16> %arg0, <16 x i16> %arg1)			%1 = sext <16 x i16> %arg0 to <16 x i32>
	%bc = bitcast <16 x i16> %res to <4 x i64>			%2 = sext <16 x i16> %arg1 to <16 x i32>
				%3 = sub nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				%bc = bitcast <16 x i16> %8 to <4 x i64>
	ret <4 x i64> %bc			ret <4 x i64> %bc
	}			}
	declare <16 x i16> @llvm.x86.avx2.psubs.w(<16 x i16>, <16 x i16>) nounwind readnone

	define <4 x i64> @test_mm256_subs_epu8(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_subs_epu8(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_subs_epu8:			; CHECK-LABEL: test_mm256_subs_epu8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpsubusb %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpmaxub %ymm1, %ymm0, %ymm0
				; CHECK-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <32 x i8>			%arg0 = bitcast <4 x i64> %a0 to <32 x i8>
	%arg1 = bitcast <4 x i64> %a1 to <32 x i8>			%arg1 = bitcast <4 x i64> %a1 to <32 x i8>
	%res = call <32 x i8> @llvm.x86.avx2.psubus.b(<32 x i8> %arg0, <32 x i8> %arg1)			%cmp = icmp ugt <32 x i8> %arg0, %arg1
	%bc = bitcast <32 x i8> %res to <4 x i64>			%sel = select <32 x i1> %cmp, <32 x i8> %arg0, <32 x i8> %arg1
				%sub = sub <32 x i8> %sel, %arg1
				%bc = bitcast <32 x i8> %sub to <4 x i64>
	ret <4 x i64> %bc			ret <4 x i64> %bc
	}			}
	declare <32 x i8> @llvm.x86.avx2.psubus.b(<32 x i8>, <32 x i8>) nounwind readnone

	define <4 x i64> @test_mm256_subs_epu16(<4 x i64> %a0, <4 x i64> %a1) {			define <4 x i64> @test_mm256_subs_epu16(<4 x i64> %a0, <4 x i64> %a1) {
	; CHECK-LABEL: test_mm256_subs_epu16:			; CHECK-LABEL: test_mm256_subs_epu16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpsubusw %ymm1, %ymm0, %ymm0			; CHECK-NEXT: vpmaxuw %ymm1, %ymm0, %ymm0
				; CHECK-NEXT: vpsubw %ymm1, %ymm0, %ymm0
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <16 x i16>			%arg0 = bitcast <4 x i64> %a0 to <16 x i16>
	%arg1 = bitcast <4 x i64> %a1 to <16 x i16>			%arg1 = bitcast <4 x i64> %a1 to <16 x i16>
	%res = call <16 x i16> @llvm.x86.avx2.psubus.w(<16 x i16> %arg0, <16 x i16> %arg1)			%cmp = icmp ugt <16 x i16> %arg0, %arg1
	%bc = bitcast <16 x i16> %res to <4 x i64>			%sel = select <16 x i1> %cmp, <16 x i16> %arg0, <16 x i16> %arg1
				%sub = sub <16 x i16> %sel, %arg1
				%bc = bitcast <16 x i16> %sub to <4 x i64>
	ret <4 x i64> %bc			ret <4 x i64> %bc
	}			}
	declare <16 x i16> @llvm.x86.avx2.psubus.w(<16 x i16>, <16 x i16>) nounwind readnone

	define <4 x i64> @test_mm256_unpackhi_epi8(<4 x i64> %a0, <4 x i64> %a1) nounwind {			define <4 x i64> @test_mm256_unpackhi_epi8(<4 x i64> %a0, <4 x i64> %a1) nounwind {
	; CHECK-LABEL: test_mm256_unpackhi_epi8:			; CHECK-LABEL: test_mm256_unpackhi_epi8:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vpunpckhbw {{.*#+}} ymm0 = ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15],ymm0[24],ymm1[24],ymm0[25],ymm1[25],ymm0[26],ymm1[26],ymm0[27],ymm1[27],ymm0[28],ymm1[28],ymm0[29],ymm1[29],ymm0[30],ymm1[30],ymm0[31],ymm1[31]			; CHECK-NEXT: vpunpckhbw {{.*#+}} ymm0 = ymm0[8],ymm1[8],ymm0[9],ymm1[9],ymm0[10],ymm1[10],ymm0[11],ymm1[11],ymm0[12],ymm1[12],ymm0[13],ymm1[13],ymm0[14],ymm1[14],ymm0[15],ymm1[15],ymm0[24],ymm1[24],ymm0[25],ymm1[25],ymm0[26],ymm1[26],ymm0[27],ymm1[27],ymm0[28],ymm1[28],ymm0[29],ymm1[29],ymm0[30],ymm1[30],ymm0[31],ymm1[31]
	; CHECK-NEXT: ret{{[l\|q]}}			; CHECK-NEXT: ret{{[l\|q]}}
	%arg0 = bitcast <4 x i64> %a0 to <32 x i8>			%arg0 = bitcast <4 x i64> %a0 to <32 x i8>
	%arg1 = bitcast <4 x i64> %a1 to <32 x i8>			%arg1 = bitcast <4 x i64> %a1 to <32 x i8>
	▲ Show 20 Lines • Show All 95 Lines • Show Last 20 Lines

test/CodeGen/X86/avx2-intrinsics-x86-upgrade.ll

	Show First 20 Lines • Show All 842 Lines • ▼ Show 20 Lines
	; X64-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[2,3,0,1]			; X64-NEXT: vpermpd {{.*#+}} ymm0 = ymm0[2,3,0,1]
	; X64-NEXT: retq			; X64-NEXT: retq
	%res = call <4 x i64> @llvm.x86.avx2.vperm2i128(<4 x i64> %a0, <4 x i64> %a1, i8 1) ; <<4 x i64>> [#uses=1]			%res = call <4 x i64> @llvm.x86.avx2.vperm2i128(<4 x i64> %a0, <4 x i64> %a1, i8 1) ; <<4 x i64>> [#uses=1]
	ret <4 x i64> %res			ret <4 x i64> %res
	}			}
	declare <4 x i64> @llvm.x86.avx2.vperm2i128(<4 x i64>, <4 x i64>, i8) nounwind readonly			declare <4 x i64> @llvm.x86.avx2.vperm2i128(<4 x i64>, <4 x i64>, i8) nounwind readonly


				define <32 x i8> @test_x86_avx2_padds_b(<32 x i8> %a0, <32 x i8> %a1) {
				; AVX2-LABEL: test_x86_avx2_padds_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddsb %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_padds_b:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xec,0xc1]
				; AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx2.padds.b(<32 x i8> %a0, <32 x i8> %a1) ; <<32 x i8>> [#uses=1]
				ret <32 x i8> %res
				}
				declare <32 x i8> @llvm.x86.avx2.padds.b(<32 x i8>, <32 x i8>) nounwind readnone


				define <16 x i16> @test_x86_avx2_padds_w(<16 x i16> %a0, <16 x i16> %a1) {
				; AVX2-LABEL: test_x86_avx2_padds_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddsw %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_padds_w:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpaddsw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xed,0xc1]
				; AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx2.padds.w(<16 x i16> %a0, <16 x i16> %a1) ; <<16 x i16>> [#uses=1]
				ret <16 x i16> %res
				}
				declare <16 x i16> @llvm.x86.avx2.padds.w(<16 x i16>, <16 x i16>) nounwind readnone


				define <32 x i8> @test_x86_avx2_paddus_b(<32 x i8> %a0, <32 x i8> %a1) {
				; AVX2-LABEL: test_x86_avx2_paddus_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddusb %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_paddus_b:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpaddusb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdc,0xc1]
				; AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx2.paddus.b(<32 x i8> %a0, <32 x i8> %a1) ; <<32 x i8>> [#uses=1]
				ret <32 x i8> %res
				}
				declare <32 x i8> @llvm.x86.avx2.paddus.b(<32 x i8>, <32 x i8>) nounwind readnone


				define <16 x i16> @test_x86_avx2_paddus_w(<16 x i16> %a0, <16 x i16> %a1) {
				; AVX2-LABEL: test_x86_avx2_paddus_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddusw %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_paddus_w:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpaddusw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdd,0xc1]
				; AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx2.paddus.w(<16 x i16> %a0, <16 x i16> %a1) ; <<16 x i16>> [#uses=1]
				ret <16 x i16> %res
				}
				declare <16 x i16> @llvm.x86.avx2.paddus.w(<16 x i16>, <16 x i16>) nounwind readnone


				define <32 x i8> @test_x86_avx2_psubs_b(<32 x i8> %a0, <32 x i8> %a1) {
				; AVX2-LABEL: test_x86_avx2_psubs_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubsb %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_psubs_b:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpsubsb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe8,0xc1]
				; AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx2.psubs.b(<32 x i8> %a0, <32 x i8> %a1) ; <<32 x i8>> [#uses=1]
				ret <32 x i8> %res
				}
				declare <32 x i8> @llvm.x86.avx2.psubs.b(<32 x i8>, <32 x i8>) nounwind readnone


				define <16 x i16> @test_x86_avx2_psubs_w(<16 x i16> %a0, <16 x i16> %a1) {
				; AVX2-LABEL: test_x86_avx2_psubs_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubsw %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_psubs_w:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpsubsw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe9,0xc1]
				; AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx2.psubs.w(<16 x i16> %a0, <16 x i16> %a1) ; <<16 x i16>> [#uses=1]
				ret <16 x i16> %res
				}
				declare <16 x i16> @llvm.x86.avx2.psubs.w(<16 x i16>, <16 x i16>) nounwind readnone


				define <32 x i8> @test_x86_avx2_psubus_b(<32 x i8> %a0, <32 x i8> %a1) {
				; AVX2-LABEL: test_x86_avx2_psubus_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubusb %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_psubus_b:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpsubusb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd8,0xc1]
				; AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx2.psubus.b(<32 x i8> %a0, <32 x i8> %a1) ; <<32 x i8>> [#uses=1]
				ret <32 x i8> %res
				}
				declare <32 x i8> @llvm.x86.avx2.psubus.b(<32 x i8>, <32 x i8>) nounwind readnone


				define <16 x i16> @test_x86_avx2_psubus_w(<16 x i16> %a0, <16 x i16> %a1) {
				; AVX2-LABEL: test_x86_avx2_psubus_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubusw %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_psubus_w:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpsubusw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd9,0xc1]
				; AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx2.psubus.w(<16 x i16> %a0, <16 x i16> %a1) ; <<16 x i16>> [#uses=1]
				ret <16 x i16> %res
				}
				declare <16 x i16> @llvm.x86.avx2.psubus.w(<16 x i16>, <16 x i16>) nounwind readnone

	define <4 x i64> @test_x86_avx2_pmulu_dq(<8 x i32> %a0, <8 x i32> %a1) {			define <4 x i64> @test_x86_avx2_pmulu_dq(<8 x i32> %a0, <8 x i32> %a1) {
	; X86-LABEL: test_x86_avx2_pmulu_dq:			; X86-LABEL: test_x86_avx2_pmulu_dq:
	; X86: ## %bb.0:			; X86: ## %bb.0:
	; X86-NEXT: vpmuludq %ymm1, %ymm0, %ymm0			; X86-NEXT: vpmuludq %ymm1, %ymm0, %ymm0
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test_x86_avx2_pmulu_dq:			; X64-LABEL: test_x86_avx2_pmulu_dq:
	; X64: ## %bb.0:			; X64: ## %bb.0:
	Show All 22 Lines

test/CodeGen/X86/avx2-intrinsics-x86.ll

Show First 20 Lines • Show All 175 Lines • ▼ Show 20 Lines
; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]		; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI5_0-4, kind: reloc_riprel_4byte		; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI5_0-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]		; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678, i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <16 x i16> zeroinitializer)		%res = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678, i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <16 x i16> zeroinitializer)
ret <32 x i8> %res		ret <32 x i8> %res
}		}


define <32 x i8> @test_x86_avx2_padds_b(<32 x i8> %a0, <32 x i8> %a1) {
; X86-AVX-LABEL: test_x86_avx2_padds_b:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xec,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_padds_b:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xec,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_padds_b:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xec,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_padds_b:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xec,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx2.padds.b(<32 x i8> %a0, <32 x i8> %a1) ; <<32 x i8>> [#uses=1]
ret <32 x i8> %res
}
declare <32 x i8> @llvm.x86.avx2.padds.b(<32 x i8>, <32 x i8>) nounwind readnone


define <16 x i16> @test_x86_avx2_padds_w(<16 x i16> %a0, <16 x i16> %a1) {
; X86-AVX-LABEL: test_x86_avx2_padds_w:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpaddsw %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xed,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_padds_w:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpaddsw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xed,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_padds_w:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpaddsw %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xed,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_padds_w:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpaddsw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xed,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx2.padds.w(<16 x i16> %a0, <16 x i16> %a1) ; <<16 x i16>> [#uses=1]
ret <16 x i16> %res
}
declare <16 x i16> @llvm.x86.avx2.padds.w(<16 x i16>, <16 x i16>) nounwind readnone


define <32 x i8> @test_x86_avx2_paddus_b(<32 x i8> %a0, <32 x i8> %a1) {
; X86-AVX-LABEL: test_x86_avx2_paddus_b:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpaddusb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xdc,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_paddus_b:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpaddusb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdc,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_paddus_b:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpaddusb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xdc,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_paddus_b:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpaddusb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdc,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx2.paddus.b(<32 x i8> %a0, <32 x i8> %a1) ; <<32 x i8>> [#uses=1]
ret <32 x i8> %res
}
declare <32 x i8> @llvm.x86.avx2.paddus.b(<32 x i8>, <32 x i8>) nounwind readnone


define <16 x i16> @test_x86_avx2_paddus_w(<16 x i16> %a0, <16 x i16> %a1) {
; X86-AVX-LABEL: test_x86_avx2_paddus_w:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpaddusw %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xdd,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_paddus_w:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpaddusw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdd,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_paddus_w:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpaddusw %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xdd,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_paddus_w:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpaddusw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdd,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx2.paddus.w(<16 x i16> %a0, <16 x i16> %a1) ; <<16 x i16>> [#uses=1]
ret <16 x i16> %res
}
declare <16 x i16> @llvm.x86.avx2.paddus.w(<16 x i16>, <16 x i16>) nounwind readnone


define <8 x i32> @test_x86_avx2_pmadd_wd(<16 x i16> %a0, <16 x i16> %a1) {		define <8 x i32> @test_x86_avx2_pmadd_wd(<16 x i16> %a0, <16 x i16> %a1) {
; X86-AVX-LABEL: test_x86_avx2_pmadd_wd:		; X86-AVX-LABEL: test_x86_avx2_pmadd_wd:
; X86-AVX: ## %bb.0:		; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpmaddwd %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xf5,0xc1]		; X86-AVX-NEXT: vpmaddwd %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xf5,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]		; X86-AVX-NEXT: retl ## encoding: [0xc3]
;		;
; X86-AVX512VL-LABEL: test_x86_avx2_pmadd_wd:		; X86-AVX512VL-LABEL: test_x86_avx2_pmadd_wd:
; X86-AVX512VL: ## %bb.0:		; X86-AVX512VL: ## %bb.0:
▲ Show 20 Lines • Show All 626 Lines • ▼ Show 20 Lines
; X64-AVX512VL-NEXT: vpsrlw $7, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x71,0xd0,0x07]		; X64-AVX512VL-NEXT: vpsrlw $7, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x71,0xd0,0x07]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]		; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx2.psrli.w(<16 x i16> %a0, i32 7) ; <<16 x i16>> [#uses=1]		%res = call <16 x i16> @llvm.x86.avx2.psrli.w(<16 x i16> %a0, i32 7) ; <<16 x i16>> [#uses=1]
ret <16 x i16> %res		ret <16 x i16> %res
}		}
declare <16 x i16> @llvm.x86.avx2.psrli.w(<16 x i16>, i32) nounwind readnone		declare <16 x i16> @llvm.x86.avx2.psrli.w(<16 x i16>, i32) nounwind readnone


define <32 x i8> @test_x86_avx2_psubs_b(<32 x i8> %a0, <32 x i8> %a1) {
; X86-AVX-LABEL: test_x86_avx2_psubs_b:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpsubsb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xe8,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_psubs_b:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpsubsb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe8,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_psubs_b:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpsubsb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xe8,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_psubs_b:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpsubsb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe8,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx2.psubs.b(<32 x i8> %a0, <32 x i8> %a1) ; <<32 x i8>> [#uses=1]
ret <32 x i8> %res
}
declare <32 x i8> @llvm.x86.avx2.psubs.b(<32 x i8>, <32 x i8>) nounwind readnone


define <16 x i16> @test_x86_avx2_psubs_w(<16 x i16> %a0, <16 x i16> %a1) {
; X86-AVX-LABEL: test_x86_avx2_psubs_w:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpsubsw %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xe9,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_psubs_w:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpsubsw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe9,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_psubs_w:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpsubsw %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xe9,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_psubs_w:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpsubsw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe9,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx2.psubs.w(<16 x i16> %a0, <16 x i16> %a1) ; <<16 x i16>> [#uses=1]
ret <16 x i16> %res
}
declare <16 x i16> @llvm.x86.avx2.psubs.w(<16 x i16>, <16 x i16>) nounwind readnone


define <32 x i8> @test_x86_avx2_psubus_b(<32 x i8> %a0, <32 x i8> %a1) {
; X86-AVX-LABEL: test_x86_avx2_psubus_b:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpsubusb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xd8,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_psubus_b:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpsubusb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd8,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_psubus_b:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpsubusb %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xd8,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_psubus_b:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpsubusb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd8,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx2.psubus.b(<32 x i8> %a0, <32 x i8> %a1) ; <<32 x i8>> [#uses=1]
ret <32 x i8> %res
}
declare <32 x i8> @llvm.x86.avx2.psubus.b(<32 x i8>, <32 x i8>) nounwind readnone


define <16 x i16> @test_x86_avx2_psubus_w(<16 x i16> %a0, <16 x i16> %a1) {
; X86-AVX-LABEL: test_x86_avx2_psubus_w:
; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vpsubusw %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xd9,0xc1]
; X86-AVX-NEXT: retl ## encoding: [0xc3]
;
; X86-AVX512VL-LABEL: test_x86_avx2_psubus_w:
; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vpsubusw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd9,0xc1]
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]
;
; X64-AVX-LABEL: test_x86_avx2_psubus_w:
; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vpsubusw %ymm1, %ymm0, %ymm0 ## encoding: [0xc5,0xfd,0xd9,0xc1]
; X64-AVX-NEXT: retq ## encoding: [0xc3]
;
; X64-AVX512VL-LABEL: test_x86_avx2_psubus_w:
; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vpsubusw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd9,0xc1]
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx2.psubus.w(<16 x i16> %a0, <16 x i16> %a1) ; <<16 x i16>> [#uses=1]
ret <16 x i16> %res
}
declare <16 x i16> @llvm.x86.avx2.psubus.w(<16 x i16>, <16 x i16>) nounwind readnone

define <8 x i32> @test_x86_avx2_phadd_d(<8 x i32> %a0, <8 x i32> %a1) {		define <8 x i32> @test_x86_avx2_phadd_d(<8 x i32> %a0, <8 x i32> %a1) {
; X86-LABEL: test_x86_avx2_phadd_d:		; X86-LABEL: test_x86_avx2_phadd_d:
; X86: ## %bb.0:		; X86: ## %bb.0:
; X86-NEXT: vphaddd %ymm1, %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x02,0xc1]		; X86-NEXT: vphaddd %ymm1, %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x02,0xc1]
; X86-NEXT: retl ## encoding: [0xc3]		; X86-NEXT: retl ## encoding: [0xc3]
;		;
; X64-LABEL: test_x86_avx2_phadd_d:		; X64-LABEL: test_x86_avx2_phadd_d:
; X64: ## %bb.0:		; X64: ## %bb.0:
▲ Show 20 Lines • Show All 284 Lines • ▼ Show 20 Lines
declare <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32>, <8 x i32>) nounwind readnone		declare <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32>, <8 x i32>) nounwind readnone


define <16 x i16> @test_x86_avx2_packusdw_fold() {		define <16 x i16> @test_x86_avx2_packusdw_fold() {
; X86-AVX-LABEL: test_x86_avx2_packusdw_fold:		; X86-AVX-LABEL: test_x86_avx2_packusdw_fold:
; X86-AVX: ## %bb.0:		; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]		; X86-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]
; X86-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]		; X86-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI54_0, kind: FK_Data_4		; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI46_0, kind: FK_Data_4
; X86-AVX-NEXT: retl ## encoding: [0xc3]		; X86-AVX-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
;		;
; X86-AVX512VL-LABEL: test_x86_avx2_packusdw_fold:		; X86-AVX512VL-LABEL: test_x86_avx2_packusdw_fold:
; X86-AVX512VL: ## %bb.0:		; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vmovaps LCPI54_0, %ymm0 ## EVEX TO VEX Compression ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]		; X86-AVX512VL-NEXT: vmovaps LCPI46_0, %ymm0 ## EVEX TO VEX Compression ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]
; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]		; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI54_0, kind: FK_Data_4		; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI46_0, kind: FK_Data_4
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]		; X86-AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
;		;
; X64-AVX-LABEL: test_x86_avx2_packusdw_fold:		; X64-AVX-LABEL: test_x86_avx2_packusdw_fold:
; X64-AVX: ## %bb.0:		; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]		; X64-AVX-NEXT: vmovaps {{.*#+}} ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]
; X64-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]		; X64-AVX-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI54_0-4, kind: reloc_riprel_4byte		; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI46_0-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: retq ## encoding: [0xc3]		; X64-AVX-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
;		;
; X64-AVX512VL-LABEL: test_x86_avx2_packusdw_fold:		; X64-AVX512VL-LABEL: test_x86_avx2_packusdw_fold:
; X64-AVX512VL: ## %bb.0:		; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vmovaps {{.*}}(%rip), %ymm0 ## EVEX TO VEX Compression ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]		; X64-AVX512VL-NEXT: vmovaps {{.*}}(%rip), %ymm0 ## EVEX TO VEX Compression ymm0 = [0,0,0,0,255,32767,65535,0,0,0,0,0,0,0,0,0]
; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]		; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfc,0x28,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI54_0-4, kind: reloc_riprel_4byte		; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI46_0-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]		; X64-AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> zeroinitializer, <8 x i32> <i32 255, i32 32767, i32 65535, i32 -1, i32 -32767, i32 -65535, i32 0, i32 -256>)		%res = call <16 x i16> @llvm.x86.avx2.packusdw(<8 x i32> zeroinitializer, <8 x i32> <i32 255, i32 32767, i32 65535, i32 -1, i32 -32767, i32 -65535, i32 0, i32 -256>)
ret <16 x i16> %res		ret <16 x i16> %res
}		}


define <32 x i8> @test_x86_avx2_pblendvb(<32 x i8> %a0, <32 x i8> %a1, <32 x i8> %a2) {		define <32 x i8> @test_x86_avx2_pblendvb(<32 x i8> %a0, <32 x i8> %a1, <32 x i8> %a2) {
; X86-LABEL: test_x86_avx2_pblendvb:		; X86-LABEL: test_x86_avx2_pblendvb:
; X86: ## %bb.0:		; X86: ## %bb.0:
▲ Show 20 Lines • Show All 702 Lines • ▼ Show 20 Lines	; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
ret <4 x i32> %res		ret <4 x i32> %res
}		}

define <4 x i32> @test_x86_avx2_psrav_d_const(<4 x i32> %a0, <4 x i32> %a1) {		define <4 x i32> @test_x86_avx2_psrav_d_const(<4 x i32> %a0, <4 x i32> %a1) {
; X86-AVX-LABEL: test_x86_avx2_psrav_d_const:		; X86-AVX-LABEL: test_x86_avx2_psrav_d_const:
; X86-AVX: ## %bb.0:		; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vmovdqa {{.*#+}} xmm0 = [2,9,4294967284,23]		; X86-AVX-NEXT: vmovdqa {{.*#+}} xmm0 = [2,9,4294967284,23]
; X86-AVX-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]		; X86-AVX-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI86_0, kind: FK_Data_4		; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI78_0, kind: FK_Data_4
; X86-AVX-NEXT: vpsravd LCPI86_1, %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]		; X86-AVX-NEXT: vpsravd LCPI78_1, %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 5, value: LCPI86_1, kind: FK_Data_4		; X86-AVX-NEXT: ## fixup A - offset: 5, value: LCPI78_1, kind: FK_Data_4
; X86-AVX-NEXT: retl ## encoding: [0xc3]		; X86-AVX-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
;		;
; X86-AVX512VL-LABEL: test_x86_avx2_psrav_d_const:		; X86-AVX512VL-LABEL: test_x86_avx2_psrav_d_const:
; X86-AVX512VL: ## %bb.0:		; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vmovdqa LCPI86_0, %xmm0 ## EVEX TO VEX Compression xmm0 = [2,9,4294967284,23]		; X86-AVX512VL-NEXT: vmovdqa LCPI78_0, %xmm0 ## EVEX TO VEX Compression xmm0 = [2,9,4294967284,23]
; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]		; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI86_0, kind: FK_Data_4		; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI78_0, kind: FK_Data_4
; X86-AVX512VL-NEXT: vpsravd LCPI86_1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]		; X86-AVX512VL-NEXT: vpsravd LCPI78_1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI86_1, kind: FK_Data_4		; X86-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI78_1, kind: FK_Data_4
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]		; X86-AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
;		;
; X64-AVX-LABEL: test_x86_avx2_psrav_d_const:		; X64-AVX-LABEL: test_x86_avx2_psrav_d_const:
; X64-AVX: ## %bb.0:		; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vmovdqa {{.*#+}} xmm0 = [2,9,4294967284,23]		; X64-AVX-NEXT: vmovdqa {{.*#+}} xmm0 = [2,9,4294967284,23]
; X64-AVX-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]		; X64-AVX-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI86_0-4, kind: reloc_riprel_4byte		; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI78_0-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]		; X64-AVX-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 5, value: LCPI86_1-4, kind: reloc_riprel_4byte		; X64-AVX-NEXT: ## fixup A - offset: 5, value: LCPI78_1-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: retq ## encoding: [0xc3]		; X64-AVX-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
;		;
; X64-AVX512VL-LABEL: test_x86_avx2_psrav_d_const:		; X64-AVX512VL-LABEL: test_x86_avx2_psrav_d_const:
; X64-AVX512VL: ## %bb.0:		; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vmovdqa {{.*}}(%rip), %xmm0 ## EVEX TO VEX Compression xmm0 = [2,9,4294967284,23]		; X64-AVX512VL-NEXT: vmovdqa {{.*}}(%rip), %xmm0 ## EVEX TO VEX Compression xmm0 = [2,9,4294967284,23]
; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]		; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xf9,0x6f,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI86_0-4, kind: reloc_riprel_4byte		; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI78_0-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]		; X64-AVX512VL-NEXT: vpsravd {{.*}}(%rip), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x46,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI86_1-4, kind: reloc_riprel_4byte		; X64-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI78_1-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]		; X64-AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
%res = call <4 x i32> @llvm.x86.avx2.psrav.d(<4 x i32> <i32 2, i32 9, i32 -12, i32 23>, <4 x i32> <i32 1, i32 18, i32 35, i32 52>)		%res = call <4 x i32> @llvm.x86.avx2.psrav.d(<4 x i32> <i32 2, i32 9, i32 -12, i32 23>, <4 x i32> <i32 1, i32 18, i32 35, i32 52>)
ret <4 x i32> %res		ret <4 x i32> %res
}		}
declare <4 x i32> @llvm.x86.avx2.psrav.d(<4 x i32>, <4 x i32>) nounwind readnone		declare <4 x i32> @llvm.x86.avx2.psrav.d(<4 x i32>, <4 x i32>) nounwind readnone

define <8 x i32> @test_x86_avx2_psrav_d_256(<8 x i32> %a0, <8 x i32> %a1) {		define <8 x i32> @test_x86_avx2_psrav_d_256(<8 x i32> %a0, <8 x i32> %a1) {
; X86-AVX-LABEL: test_x86_avx2_psrav_d_256:		; X86-AVX-LABEL: test_x86_avx2_psrav_d_256:
; X86-AVX: ## %bb.0:		; X86-AVX: ## %bb.0:
Show All 18 Lines	; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]
ret <8 x i32> %res		ret <8 x i32> %res
}		}

define <8 x i32> @test_x86_avx2_psrav_d_256_const(<8 x i32> %a0, <8 x i32> %a1) {		define <8 x i32> @test_x86_avx2_psrav_d_256_const(<8 x i32> %a0, <8 x i32> %a1) {
; X86-AVX-LABEL: test_x86_avx2_psrav_d_256_const:		; X86-AVX-LABEL: test_x86_avx2_psrav_d_256_const:
; X86-AVX: ## %bb.0:		; X86-AVX: ## %bb.0:
; X86-AVX-NEXT: vmovdqa {{.*#+}} ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]		; X86-AVX-NEXT: vmovdqa {{.*#+}} ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]
; X86-AVX-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]		; X86-AVX-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI88_0, kind: FK_Data_4		; X86-AVX-NEXT: ## fixup A - offset: 4, value: LCPI80_0, kind: FK_Data_4
; X86-AVX-NEXT: vpsravd LCPI88_1, %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]		; X86-AVX-NEXT: vpsravd LCPI80_1, %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]
; X86-AVX-NEXT: ## fixup A - offset: 5, value: LCPI88_1, kind: FK_Data_4		; X86-AVX-NEXT: ## fixup A - offset: 5, value: LCPI80_1, kind: FK_Data_4
; X86-AVX-NEXT: retl ## encoding: [0xc3]		; X86-AVX-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
;		;
; X86-AVX512VL-LABEL: test_x86_avx2_psrav_d_256_const:		; X86-AVX512VL-LABEL: test_x86_avx2_psrav_d_256_const:
; X86-AVX512VL: ## %bb.0:		; X86-AVX512VL: ## %bb.0:
; X86-AVX512VL-NEXT: vmovdqa LCPI88_0, %ymm0 ## EVEX TO VEX Compression ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]		; X86-AVX512VL-NEXT: vmovdqa LCPI80_0, %ymm0 ## EVEX TO VEX Compression ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]
; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]		; X86-AVX512VL-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI88_0, kind: FK_Data_4		; X86-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI80_0, kind: FK_Data_4
; X86-AVX512VL-NEXT: vpsravd LCPI88_1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]		; X86-AVX512VL-NEXT: vpsravd LCPI80_1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]
; X86-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI88_1, kind: FK_Data_4		; X86-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI80_1, kind: FK_Data_4
; X86-AVX512VL-NEXT: retl ## encoding: [0xc3]		; X86-AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
;		;
; X64-AVX-LABEL: test_x86_avx2_psrav_d_256_const:		; X64-AVX-LABEL: test_x86_avx2_psrav_d_256_const:
; X64-AVX: ## %bb.0:		; X64-AVX: ## %bb.0:
; X64-AVX-NEXT: vmovdqa {{.*#+}} ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]		; X64-AVX-NEXT: vmovdqa {{.*#+}} ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]
; X64-AVX-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]		; X64-AVX-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI88_0-4, kind: reloc_riprel_4byte		; X64-AVX-NEXT: ## fixup A - offset: 4, value: LCPI80_0-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]		; X64-AVX-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0 ## encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]
; X64-AVX-NEXT: ## fixup A - offset: 5, value: LCPI88_1-4, kind: reloc_riprel_4byte		; X64-AVX-NEXT: ## fixup A - offset: 5, value: LCPI80_1-4, kind: reloc_riprel_4byte
; X64-AVX-NEXT: retq ## encoding: [0xc3]		; X64-AVX-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
;		;
; X64-AVX512VL-LABEL: test_x86_avx2_psrav_d_256_const:		; X64-AVX512VL-LABEL: test_x86_avx2_psrav_d_256_const:
; X64-AVX512VL: ## %bb.0:		; X64-AVX512VL: ## %bb.0:
; X64-AVX512VL-NEXT: vmovdqa {{.*}}(%rip), %ymm0 ## EVEX TO VEX Compression ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]		; X64-AVX512VL-NEXT: vmovdqa {{.*}}(%rip), %ymm0 ## EVEX TO VEX Compression ymm0 = [2,9,4294967284,23,4294967270,37,4294967256,51]
; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]		; X64-AVX512VL-NEXT: ## encoding: [0xc5,0xfd,0x6f,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI88_0-4, kind: reloc_riprel_4byte		; X64-AVX512VL-NEXT: ## fixup A - offset: 4, value: LCPI80_0-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]		; X64-AVX512VL-NEXT: vpsravd {{.*}}(%rip), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x7d,0x46,0x05,A,A,A,A]
; X64-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI88_1-4, kind: reloc_riprel_4byte		; X64-AVX512VL-NEXT: ## fixup A - offset: 5, value: LCPI80_1-4, kind: reloc_riprel_4byte
; X64-AVX512VL-NEXT: retq ## encoding: [0xc3]		; X64-AVX512VL-NEXT: ret{{[l\|q]}} ## encoding: [0xc3]
%res = call <8 x i32> @llvm.x86.avx2.psrav.d.256(<8 x i32> <i32 2, i32 9, i32 -12, i32 23, i32 -26, i32 37, i32 -40, i32 51>, <8 x i32> <i32 1, i32 18, i32 35, i32 52, i32 69, i32 15, i32 32, i32 49>)		%res = call <8 x i32> @llvm.x86.avx2.psrav.d.256(<8 x i32> <i32 2, i32 9, i32 -12, i32 23, i32 -26, i32 37, i32 -40, i32 51>, <8 x i32> <i32 1, i32 18, i32 35, i32 52, i32 69, i32 15, i32 32, i32 49>)
ret <8 x i32> %res		ret <8 x i32> %res
}		}
declare <8 x i32> @llvm.x86.avx2.psrav.d.256(<8 x i32>, <8 x i32>) nounwind readnone		declare <8 x i32> @llvm.x86.avx2.psrav.d.256(<8 x i32>, <8 x i32>) nounwind readnone

define <2 x double> @test_x86_avx2_gather_d_pd(<2 x double> %a0, i8* %a1, <4 x i32> %idx, <2 x double> %mask) {		define <2 x double> @test_x86_avx2_gather_d_pd(<2 x double> %a0, i8* %a1, <4 x i32> %idx, <2 x double> %mask) {
; X86-LABEL: test_x86_avx2_gather_d_pd:		; X86-LABEL: test_x86_avx2_gather_d_pd:
; X86: ## %bb.0:		; X86: ## %bb.0:
▲ Show 20 Lines • Show All 333 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512bw-intrinsics-upgrade.ll

	Show First 20 Lines • Show All 2,688 Lines • ▼ Show 20 Lines
	; AVX512F-32-NEXT: vpaddw %zmm3, %zmm2, %zmm0			; AVX512F-32-NEXT: vpaddw %zmm3, %zmm2, %zmm0
	; AVX512F-32-NEXT: retl			; AVX512F-32-NEXT: retl
	%res = call <32 x i16> @llvm.x86.avx512.mask.pmul.hr.sw.512(<32 x i16> %x0, <32 x i16> %x1, <32 x i16> %x2, i32 %x3)			%res = call <32 x i16> @llvm.x86.avx512.mask.pmul.hr.sw.512(<32 x i16> %x0, <32 x i16> %x1, <32 x i16> %x2, i32 %x3)
	%res1 = call <32 x i16> @llvm.x86.avx512.mask.pmul.hr.sw.512(<32 x i16> %x0, <32 x i16> %x1, <32 x i16> %x2, i32 -1)			%res1 = call <32 x i16> @llvm.x86.avx512.mask.pmul.hr.sw.512(<32 x i16> %x0, <32 x i16> %x1, <32 x i16> %x2, i32 -1)
	%res2 = add <32 x i16> %res, %res1			%res2 = add <32 x i16> %res, %res1
	ret <32 x i16> %res2			ret <32 x i16> %res2
	}			}

				define <32 x i16> @test_mask_adds_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rr_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpaddsw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rr_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpaddsw %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_adds_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpaddsw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddsw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_adds_epi16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpaddsw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddsw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_adds_epi16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpaddsw (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpaddsw (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_adds_epi16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpaddsw (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddsw (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_adds_epi16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpaddsw (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddsw (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
				ret <32 x i16> %res
				}

				declare <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16>, <32 x i16>, <32 x i16>, i32)

				define <32 x i16> @test_mask_subs_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rr_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsubsw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rr_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpsubsw %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpsubsw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubsw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epi16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpsubsw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubsw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epi16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsubsw (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpsubsw (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epi16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpsubsw (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubsw (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epi16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpsubsw (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubsw (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
				ret <32 x i16> %res
				}

				declare <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16>, <32 x i16>, <32 x i16>, i32)

				define <32 x i16> @test_mask_adds_epu16_rr_512(<32 x i16> %a, <32 x i16> %b) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rr_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpaddusw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rr_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpaddusw %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_adds_epu16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpaddusw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddusw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_adds_epu16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpaddusw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddusw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_adds_epu16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpaddusw (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpaddusw (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_adds_epu16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpaddusw (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddusw (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_adds_epu16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpaddusw (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddusw (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
				ret <32 x i16> %res
				}

				declare <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16>, <32 x i16>, <32 x i16>, i32)

				define <32 x i16> @test_mask_subs_epu16_rr_512(<32 x i16> %a, <32 x i16> %b) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rr_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsubusw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rr_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpsubusw %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epu16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpsubusw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubusw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epu16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpsubusw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubusw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epu16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsubusw (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpsubusw (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epu16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpsubusw (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubusw (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epu16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpsubusw (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubusw (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
				ret <32 x i16> %res
				}

				declare <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16>, <32 x i16>, <32 x i16>, i32)

	declare <32 x i16> @llvm.x86.avx512.mask.pmaddubs.w.512(<64 x i8>, <64 x i8>, <32 x i16>, i32)			declare <32 x i16> @llvm.x86.avx512.mask.pmaddubs.w.512(<64 x i8>, <64 x i8>, <32 x i16>, i32)

	define <32 x i16>@test_int_x86_avx512_mask_pmaddubs_w_512(<64 x i8> %x0, <64 x i8> %x1, <32 x i16> %x2, i32 %x3) {			define <32 x i16>@test_int_x86_avx512_mask_pmaddubs_w_512(<64 x i8> %x0, <64 x i8> %x1, <32 x i16> %x2, i32 %x3) {
	; AVX512BW-LABEL: test_int_x86_avx512_mask_pmaddubs_w_512:			; AVX512BW-LABEL: test_int_x86_avx512_mask_pmaddubs_w_512:
	; AVX512BW: ## %bb.0:			; AVX512BW: ## %bb.0:
	; AVX512BW-NEXT: vpmaddubsw %zmm1, %zmm0, %zmm3			; AVX512BW-NEXT: vpmaddubsw %zmm1, %zmm0, %zmm3
	; AVX512BW-NEXT: kmovd %edi, %k1			; AVX512BW-NEXT: kmovd %edi, %k1
	; AVX512BW-NEXT: vpmaddubsw %zmm1, %zmm0, %zmm2 {%k1}			; AVX512BW-NEXT: vpmaddubsw %zmm1, %zmm0, %zmm2 {%k1}
	Show All 39 Lines

test/CodeGen/X86/avx512bw-intrinsics.ll

Show First 20 Lines • Show All 573 Lines • ▼ Show 20 Lines	; AVX512F-32-NEXT: retl
%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)		%1 = call <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16> %a, <32 x i16> %b)
%2 = bitcast i64 %mask to <64 x i1>		%2 = bitcast i64 %mask to <64 x i1>
%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> zeroinitializer		%3 = select <64 x i1> %2, <64 x i8> %1, <64 x i8> zeroinitializer
ret <64 x i8> %3		ret <64 x i8> %3
}		}

declare <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16>, <32 x i16>)		declare <64 x i8> @llvm.x86.avx512.packuswb.512(<32 x i16>, <32 x i16>)

define <32 x i16> @test_mask_adds_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {
; AVX512BW-LABEL: test_mask_adds_epi16_rr_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: vpaddsw %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epi16_rr_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: vpaddsw %zmm1, %zmm0, %zmm0
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_adds_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
; AVX512BW-LABEL: test_mask_adds_epi16_rrk_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %edi, %k1
; AVX512BW-NEXT: vpaddsw %zmm1, %zmm0, %zmm2 {%k1}
; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epi16_rrk_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpaddsw %zmm1, %zmm0, %zmm2 {%k1}
; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_adds_epi16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
; AVX512BW-LABEL: test_mask_adds_epi16_rrkz_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %edi, %k1
; AVX512BW-NEXT: vpaddsw %zmm1, %zmm0, %zmm0 {%k1} {z}
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epi16_rrkz_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpaddsw %zmm1, %zmm0, %zmm0 {%k1} {z}
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_adds_epi16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
; AVX512BW-LABEL: test_mask_adds_epi16_rm_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: vpaddsw (%rdi), %zmm0, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epi16_rm_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: vpaddsw (%eax), %zmm0, %zmm0
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_adds_epi16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
; AVX512BW-LABEL: test_mask_adds_epi16_rmk_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %esi, %k1
; AVX512BW-NEXT: vpaddsw (%rdi), %zmm0, %zmm1 {%k1}
; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epi16_rmk_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpaddsw (%eax), %zmm0, %zmm1 {%k1}
; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_adds_epi16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
; AVX512BW-LABEL: test_mask_adds_epi16_rmkz_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %esi, %k1
; AVX512BW-NEXT: vpaddsw (%rdi), %zmm0, %zmm0 {%k1} {z}
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epi16_rmkz_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpaddsw (%eax), %zmm0, %zmm0 {%k1} {z}
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
ret <32 x i16> %res
}

declare <32 x i16> @llvm.x86.avx512.mask.padds.w.512(<32 x i16>, <32 x i16>, <32 x i16>, i32)

define <32 x i16> @test_mask_subs_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {
; AVX512BW-LABEL: test_mask_subs_epi16_rr_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: vpsubsw %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epi16_rr_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: vpsubsw %zmm1, %zmm0, %zmm0
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_subs_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
; AVX512BW-LABEL: test_mask_subs_epi16_rrk_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %edi, %k1
; AVX512BW-NEXT: vpsubsw %zmm1, %zmm0, %zmm2 {%k1}
; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epi16_rrk_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpsubsw %zmm1, %zmm0, %zmm2 {%k1}
; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_subs_epi16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
; AVX512BW-LABEL: test_mask_subs_epi16_rrkz_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %edi, %k1
; AVX512BW-NEXT: vpsubsw %zmm1, %zmm0, %zmm0 {%k1} {z}
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epi16_rrkz_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpsubsw %zmm1, %zmm0, %zmm0 {%k1} {z}
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_subs_epi16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
; AVX512BW-LABEL: test_mask_subs_epi16_rm_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: vpsubsw (%rdi), %zmm0, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epi16_rm_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: vpsubsw (%eax), %zmm0, %zmm0
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_subs_epi16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
; AVX512BW-LABEL: test_mask_subs_epi16_rmk_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %esi, %k1
; AVX512BW-NEXT: vpsubsw (%rdi), %zmm0, %zmm1 {%k1}
; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epi16_rmk_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpsubsw (%eax), %zmm0, %zmm1 {%k1}
; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_subs_epi16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
; AVX512BW-LABEL: test_mask_subs_epi16_rmkz_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %esi, %k1
; AVX512BW-NEXT: vpsubsw (%rdi), %zmm0, %zmm0 {%k1} {z}
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epi16_rmkz_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpsubsw (%eax), %zmm0, %zmm0 {%k1} {z}
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
ret <32 x i16> %res
}

declare <32 x i16> @llvm.x86.avx512.mask.psubs.w.512(<32 x i16>, <32 x i16>, <32 x i16>, i32)

define <32 x i16> @test_mask_adds_epu16_rr_512(<32 x i16> %a, <32 x i16> %b) {
; AVX512BW-LABEL: test_mask_adds_epu16_rr_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: vpaddusw %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epu16_rr_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: vpaddusw %zmm1, %zmm0, %zmm0
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_adds_epu16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
; AVX512BW-LABEL: test_mask_adds_epu16_rrk_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %edi, %k1
; AVX512BW-NEXT: vpaddusw %zmm1, %zmm0, %zmm2 {%k1}
; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epu16_rrk_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpaddusw %zmm1, %zmm0, %zmm2 {%k1}
; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_adds_epu16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
; AVX512BW-LABEL: test_mask_adds_epu16_rrkz_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %edi, %k1
; AVX512BW-NEXT: vpaddusw %zmm1, %zmm0, %zmm0 {%k1} {z}
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epu16_rrkz_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpaddusw %zmm1, %zmm0, %zmm0 {%k1} {z}
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_adds_epu16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
; AVX512BW-LABEL: test_mask_adds_epu16_rm_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: vpaddusw (%rdi), %zmm0, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epu16_rm_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: vpaddusw (%eax), %zmm0, %zmm0
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_adds_epu16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
; AVX512BW-LABEL: test_mask_adds_epu16_rmk_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %esi, %k1
; AVX512BW-NEXT: vpaddusw (%rdi), %zmm0, %zmm1 {%k1}
; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epu16_rmk_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpaddusw (%eax), %zmm0, %zmm1 {%k1}
; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_adds_epu16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
; AVX512BW-LABEL: test_mask_adds_epu16_rmkz_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %esi, %k1
; AVX512BW-NEXT: vpaddusw (%rdi), %zmm0, %zmm0 {%k1} {z}
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_adds_epu16_rmkz_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpaddusw (%eax), %zmm0, %zmm0 {%k1} {z}
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
ret <32 x i16> %res
}

declare <32 x i16> @llvm.x86.avx512.mask.paddus.w.512(<32 x i16>, <32 x i16>, <32 x i16>, i32)

define <32 x i16> @test_mask_subs_epu16_rr_512(<32 x i16> %a, <32 x i16> %b) {
; AVX512BW-LABEL: test_mask_subs_epu16_rr_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: vpsubusw %zmm1, %zmm0, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epu16_rr_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: vpsubusw %zmm1, %zmm0, %zmm0
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_subs_epu16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
; AVX512BW-LABEL: test_mask_subs_epu16_rrk_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %edi, %k1
; AVX512BW-NEXT: vpsubusw %zmm1, %zmm0, %zmm2 {%k1}
; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epu16_rrk_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpsubusw %zmm1, %zmm0, %zmm2 {%k1}
; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_subs_epu16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
; AVX512BW-LABEL: test_mask_subs_epu16_rrkz_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %edi, %k1
; AVX512BW-NEXT: vpsubusw %zmm1, %zmm0, %zmm0 {%k1} {z}
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epu16_rrkz_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpsubusw %zmm1, %zmm0, %zmm0 {%k1} {z}
; AVX512F-32-NEXT: retl
%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_subs_epu16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
; AVX512BW-LABEL: test_mask_subs_epu16_rm_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: vpsubusw (%rdi), %zmm0, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epu16_rm_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: vpsubusw (%eax), %zmm0, %zmm0
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 -1)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_subs_epu16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
; AVX512BW-LABEL: test_mask_subs_epu16_rmk_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %esi, %k1
; AVX512BW-NEXT: vpsubusw (%rdi), %zmm0, %zmm1 {%k1}
; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epu16_rmk_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpsubusw (%eax), %zmm0, %zmm1 {%k1}
; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask)
ret <32 x i16> %res
}

define <32 x i16> @test_mask_subs_epu16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
; AVX512BW-LABEL: test_mask_subs_epu16_rmkz_512:
; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %esi, %k1
; AVX512BW-NEXT: vpsubusw (%rdi), %zmm0, %zmm0 {%k1} {z}
; AVX512BW-NEXT: retq
;
; AVX512F-32-LABEL: test_mask_subs_epu16_rmkz_512:
; AVX512F-32: # %bb.0:
; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
; AVX512F-32-NEXT: vpsubusw (%eax), %zmm0, %zmm0 {%k1} {z}
; AVX512F-32-NEXT: retl
%b = load <32 x i16>, <32 x i16>* %ptr_b
%res = call <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16> %a, <32 x i16> %b, <32 x i16> zeroinitializer, i32 %mask)
ret <32 x i16> %res
}

declare <32 x i16> @llvm.x86.avx512.mask.psubus.w.512(<32 x i16>, <32 x i16>, <32 x i16>, i32)

declare <32 x i16> @llvm.x86.avx512.mask.vpermt2var.hi.512(<32 x i16>, <32 x i16>, <32 x i16>, i32)		declare <32 x i16> @llvm.x86.avx512.mask.vpermt2var.hi.512(<32 x i16>, <32 x i16>, <32 x i16>, i32)

define <32 x i16>@test_int_x86_avx512_mask_vpermt2var_hi_512(<32 x i16> %x0, <32 x i16> %x1, <32 x i16> %x2, i32 %x3) {		define <32 x i16>@test_int_x86_avx512_mask_vpermt2var_hi_512(<32 x i16> %x0, <32 x i16> %x1, <32 x i16> %x2, i32 %x3) {
; AVX512BW-LABEL: test_int_x86_avx512_mask_vpermt2var_hi_512:		; AVX512BW-LABEL: test_int_x86_avx512_mask_vpermt2var_hi_512:
; AVX512BW: ## %bb.0:		; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovd %edi, %k1		; AVX512BW-NEXT: kmovd %edi, %k1
; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm3		; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm3
; AVX512BW-NEXT: vpermt2w %zmm2, %zmm0, %zmm3 {%k1}		; AVX512BW-NEXT: vpermt2w %zmm2, %zmm0, %zmm3 {%k1}
▲ Show 20 Lines • Show All 910 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512bwvl-intrinsics-upgrade.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,941 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpaddw %ymm3, %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xed,0xfd,0xc3]			; CHECK-NEXT: vpaddw %ymm3, %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xed,0xfd,0xc3]
	; CHECK-NEXT: retq ## encoding: [0xc3]			; CHECK-NEXT: retq ## encoding: [0xc3]
	%res = call <16 x i16> @llvm.x86.avx512.mask.pmul.hr.sw.256(<16 x i16> %x0, <16 x i16> %x1, <16 x i16> %x2, i16 %x3)			%res = call <16 x i16> @llvm.x86.avx512.mask.pmul.hr.sw.256(<16 x i16> %x0, <16 x i16> %x1, <16 x i16> %x2, i16 %x3)
	%res1 = call <16 x i16> @llvm.x86.avx512.mask.pmul.hr.sw.256(<16 x i16> %x0, <16 x i16> %x1, <16 x i16> %x2, i16 -1)			%res1 = call <16 x i16> @llvm.x86.avx512.mask.pmul.hr.sw.256(<16 x i16> %x0, <16 x i16> %x1, <16 x i16> %x2, i16 -1)
	%res2 = add <16 x i16> %res, %res1			%res2 = add <16 x i16> %res, %res1
	ret <16 x i16> %res2			ret <16 x i16> %res2
	}			}

				define <8 x i16> @test_mask_adds_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_mask_adds_epi16_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xed,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_adds_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddsw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xed,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_adds_epi16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xed,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_adds_epi16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epi16_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xed,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_adds_epi16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddsw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xed,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_adds_epi16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddsw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xed,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
				ret <8 x i16> %res
				}

				declare <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16>, <8 x i16>, <8 x i16>, i8)

				define <16 x i16> @test_mask_adds_epi16_rr_256(<16 x i16> %a, <16 x i16> %b) {
				; CHECK-LABEL: test_mask_adds_epi16_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xed,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_adds_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddsw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xed,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_adds_epi16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddsw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xed,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_adds_epi16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epi16_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xed,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_adds_epi16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddsw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xed,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_adds_epi16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddsw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xed,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
				ret <16 x i16> %res
				}

				declare <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16>, <16 x i16>, <16 x i16>, i16)

				define <8 x i16> @test_mask_subs_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_mask_subs_epi16_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe9,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubsw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xe9,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epi16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubsw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xe9,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epi16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epi16_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe9,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epi16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubsw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xe9,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epi16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubsw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xe9,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
				ret <8 x i16> %res
				}

				declare <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16>, <8 x i16>, <8 x i16>, i8)

				define <16 x i16> @test_mask_subs_epi16_rr_256(<16 x i16> %a, <16 x i16> %b) {
				; CHECK-LABEL: test_mask_subs_epi16_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe9,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubsw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xe9,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epi16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubsw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xe9,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epi16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epi16_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe9,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epi16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubsw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xe9,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epi16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubsw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xe9,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
				ret <16 x i16> %res
				}

				declare <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16>, <16 x i16>, <16 x i16>, i16)

				define <8 x i16> @test_mask_adds_epu16_rr_128(<8 x i16> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_mask_adds_epu16_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdd,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_adds_epu16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddusw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xdd,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_adds_epu16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddusw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xdd,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_adds_epu16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epu16_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdd,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_adds_epu16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddusw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xdd,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_adds_epu16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddusw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xdd,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
				ret <8 x i16> %res
				}

				declare <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16>, <8 x i16>, <8 x i16>, i8)

				define <16 x i16> @test_mask_adds_epu16_rr_256(<16 x i16> %a, <16 x i16> %b) {
				; CHECK-LABEL: test_mask_adds_epu16_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdd,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_adds_epu16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddusw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xdd,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_adds_epu16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddusw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xdd,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_adds_epu16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epu16_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdd,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_adds_epu16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddusw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xdd,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_adds_epu16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddusw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xdd,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
				ret <16 x i16> %res
				}

				declare <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16>, <16 x i16>, <16 x i16>, i16)

				define <8 x i16> @test_mask_subs_epu16_rr_128(<8 x i16> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_mask_subs_epu16_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd9,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epu16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubusw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xd9,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epu16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubusw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xd9,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epu16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epu16_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd9,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epu16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubusw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xd9,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epu16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubusw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xd9,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
				ret <8 x i16> %res
				}

				declare <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16>, <8 x i16>, <8 x i16>, i8)

				define <16 x i16> @test_mask_subs_epu16_rr_256(<16 x i16> %a, <16 x i16> %b) {
				; CHECK-LABEL: test_mask_subs_epu16_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd9,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epu16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubusw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xd9,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epu16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubusw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xd9,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epu16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epu16_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd9,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epu16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubusw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xd9,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epu16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubusw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xd9,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
				ret <16 x i16> %res
				}

				declare <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16>, <16 x i16>, <16 x i16>, i16)

				define <16 x i8> @test_mask_adds_epi8_rr_128(<16 x i8> %a, <16 x i8> %b) {
				; CHECK-LABEL: test_mask_adds_epi8_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xec,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_adds_epi8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddsb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xec,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_adds_epi8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddsb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xec,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_adds_epi8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epi8_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xec,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_adds_epi8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddsb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xec,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_adds_epi8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddsb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xec,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
				ret <16 x i8> %res
				}

				declare <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

				define <32 x i8> @test_mask_adds_epi8_rr_256(<32 x i8> %a, <32 x i8> %b) {
				; CHECK-LABEL: test_mask_adds_epi8_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xec,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_adds_epi8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddsb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xec,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_adds_epi8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xec,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_adds_epi8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epi8_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xec,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_adds_epi8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddsb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xec,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_adds_epi8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddsb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xec,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
				ret <32 x i8> %res
				}

				declare <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

				define <16 x i8> @test_mask_subs_epi8_rr_128(<16 x i8> %a, <16 x i8> %b) {
				; CHECK-LABEL: test_mask_subs_epi8_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe8,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epi8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubsb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xe8,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epi8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubsb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xe8,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epi8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epi8_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe8,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epi8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubsb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xe8,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epi8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubsb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xe8,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
				ret <16 x i8> %res
				}

				declare <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

				define <32 x i8> @test_mask_subs_epi8_rr_256(<32 x i8> %a, <32 x i8> %b) {
				; CHECK-LABEL: test_mask_subs_epi8_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe8,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epi8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubsb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xe8,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epi8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubsb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xe8,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epi8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epi8_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe8,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epi8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubsb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xe8,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epi8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubsb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xe8,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
				ret <32 x i8> %res
				}

				declare <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

				define <16 x i8> @test_mask_adds_epu8_rr_128(<16 x i8> %a, <16 x i8> %b) {
				; CHECK-LABEL: test_mask_adds_epu8_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdc,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_adds_epu8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddusb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xdc,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_adds_epu8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddusb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xdc,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_adds_epu8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epu8_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdc,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_adds_epu8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddusb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xdc,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_adds_epu8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddusb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xdc,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
				ret <16 x i8> %res
				}

				declare <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

				define <32 x i8> @test_mask_adds_epu8_rr_256(<32 x i8> %a, <32 x i8> %b) {
				; CHECK-LABEL: test_mask_adds_epu8_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdc,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_adds_epu8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddusb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xdc,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_adds_epu8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpaddusb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xdc,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_adds_epu8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epu8_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdc,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_adds_epu8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddusb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xdc,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_adds_epu8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpaddusb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xdc,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
				ret <32 x i8> %res
				}

				declare <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

				define <16 x i8> @test_mask_subs_epu8_rr_128(<16 x i8> %a, <16 x i8> %b) {
				; CHECK-LABEL: test_mask_subs_epu8_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd8,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epu8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubusb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xd8,0xd1]
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epu8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubusb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xd8,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epu8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epu8_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd8,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epu8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubusb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xd8,0x0f]
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epu8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubusb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xd8,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
				ret <16 x i8> %res
				}

				declare <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

				define <32 x i8> @test_mask_subs_epu8_rr_256(<32 x i8> %a, <32 x i8> %b) {
				; CHECK-LABEL: test_mask_subs_epu8_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd8,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epu8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubusb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xd8,0xd1]
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epu8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
				; CHECK-NEXT: vpsubusb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xd8,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epu8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epu8_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd8,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epu8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubusb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xd8,0x0f]
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epu8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
				; CHECK-NEXT: vpsubusb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xd8,0x07]
				; CHECK-NEXT: retq ## encoding: [0xc3]
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
				ret <32 x i8> %res
				}

				declare <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

	declare <8 x i16> @llvm.x86.avx512.mask.pmaddubs.w.128(<16 x i8>, <16 x i8>, <8 x i16>, i8)			declare <8 x i16> @llvm.x86.avx512.mask.pmaddubs.w.128(<16 x i8>, <16 x i8>, <8 x i16>, i8)

	define <8 x i16>@test_int_x86_avx512_mask_pmaddubs_w_128(<16 x i8> %x0, <16 x i8> %x1, <8 x i16> %x2, i8 %x3) {			define <8 x i16>@test_int_x86_avx512_mask_pmaddubs_w_128(<16 x i8> %x0, <16 x i8> %x1, <8 x i16> %x2, i8 %x3) {
	; CHECK-LABEL: test_int_x86_avx512_mask_pmaddubs_w_128:			; CHECK-LABEL: test_int_x86_avx512_mask_pmaddubs_w_128:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpmaddubsw %xmm1, %xmm0, %xmm3 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x04,0xd9]			; CHECK-NEXT: vpmaddubsw %xmm1, %xmm0, %xmm3 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x04,0xd9]
	; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]			; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
	; CHECK-NEXT: vpmaddubsw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf2,0x7d,0x09,0x04,0xd1]			; CHECK-NEXT: vpmaddubsw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf2,0x7d,0x09,0x04,0xd1]
	▲ Show 20 Lines • Show All 55 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512bwvl-intrinsics.ll

Show First 20 Lines • Show All 752 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq ## encoding: [0xc3]
%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)		%1 = call <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16> %a, <16 x i16> %b)
%2 = bitcast i32 %mask to <32 x i1>		%2 = bitcast i32 %mask to <32 x i1>
%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer		%3 = select <32 x i1> %2, <32 x i8> %1, <32 x i8> zeroinitializer
ret <32 x i8> %3		ret <32 x i8> %3
}		}

declare <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16>, <16 x i16>)		declare <32 x i8> @llvm.x86.avx2.packuswb(<16 x i16>, <16 x i16>)

define <8 x i16> @test_mask_adds_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {
; CHECK-LABEL: test_mask_adds_epi16_rr_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xed,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_adds_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
; CHECK-LABEL: test_mask_adds_epi16_rrk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddsw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xed,0xd1]
; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_adds_epi16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
; CHECK-LABEL: test_mask_adds_epi16_rrkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xed,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_adds_epi16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
; CHECK-LABEL: test_mask_adds_epi16_rm_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddsw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xed,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_adds_epi16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
; CHECK-LABEL: test_mask_adds_epi16_rmk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddsw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xed,0x0f]
; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_adds_epi16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
; CHECK-LABEL: test_mask_adds_epi16_rmkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddsw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xed,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
ret <8 x i16> %res
}

declare <8 x i16> @llvm.x86.avx512.mask.padds.w.128(<8 x i16>, <8 x i16>, <8 x i16>, i8)

define <16 x i16> @test_mask_adds_epi16_rr_256(<16 x i16> %a, <16 x i16> %b) {
; CHECK-LABEL: test_mask_adds_epi16_rr_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddsw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xed,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_adds_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epi16_rrk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddsw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xed,0xd1]
; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_adds_epi16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epi16_rrkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddsw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xed,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_adds_epi16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
; CHECK-LABEL: test_mask_adds_epi16_rm_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddsw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xed,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_adds_epi16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epi16_rmk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddsw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xed,0x0f]
; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_adds_epi16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epi16_rmkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddsw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xed,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
ret <16 x i16> %res
}

declare <16 x i16> @llvm.x86.avx512.mask.padds.w.256(<16 x i16>, <16 x i16>, <16 x i16>, i16)

define <8 x i16> @test_mask_subs_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {
; CHECK-LABEL: test_mask_subs_epi16_rr_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubsw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe9,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_subs_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
; CHECK-LABEL: test_mask_subs_epi16_rrk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubsw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xe9,0xd1]
; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_subs_epi16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
; CHECK-LABEL: test_mask_subs_epi16_rrkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubsw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xe9,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_subs_epi16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
; CHECK-LABEL: test_mask_subs_epi16_rm_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubsw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe9,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_subs_epi16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
; CHECK-LABEL: test_mask_subs_epi16_rmk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubsw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xe9,0x0f]
; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_subs_epi16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
; CHECK-LABEL: test_mask_subs_epi16_rmkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubsw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xe9,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
ret <8 x i16> %res
}

declare <8 x i16> @llvm.x86.avx512.mask.psubs.w.128(<8 x i16>, <8 x i16>, <8 x i16>, i8)

define <16 x i16> @test_mask_subs_epi16_rr_256(<16 x i16> %a, <16 x i16> %b) {
; CHECK-LABEL: test_mask_subs_epi16_rr_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubsw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe9,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_subs_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epi16_rrk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubsw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xe9,0xd1]
; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_subs_epi16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epi16_rrkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubsw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xe9,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_subs_epi16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
; CHECK-LABEL: test_mask_subs_epi16_rm_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubsw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe9,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_subs_epi16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epi16_rmk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubsw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xe9,0x0f]
; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_subs_epi16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epi16_rmkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubsw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xe9,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
ret <16 x i16> %res
}

declare <16 x i16> @llvm.x86.avx512.mask.psubs.w.256(<16 x i16>, <16 x i16>, <16 x i16>, i16)

define <8 x i16> @test_mask_adds_epu16_rr_128(<8 x i16> %a, <8 x i16> %b) {
; CHECK-LABEL: test_mask_adds_epu16_rr_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddusw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdd,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_adds_epu16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
; CHECK-LABEL: test_mask_adds_epu16_rrk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddusw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xdd,0xd1]
; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_adds_epu16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
; CHECK-LABEL: test_mask_adds_epu16_rrkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddusw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xdd,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_adds_epu16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
; CHECK-LABEL: test_mask_adds_epu16_rm_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddusw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdd,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_adds_epu16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
; CHECK-LABEL: test_mask_adds_epu16_rmk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddusw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xdd,0x0f]
; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_adds_epu16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
; CHECK-LABEL: test_mask_adds_epu16_rmkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddusw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xdd,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
ret <8 x i16> %res
}

declare <8 x i16> @llvm.x86.avx512.mask.paddus.w.128(<8 x i16>, <8 x i16>, <8 x i16>, i8)

define <16 x i16> @test_mask_adds_epu16_rr_256(<16 x i16> %a, <16 x i16> %b) {
; CHECK-LABEL: test_mask_adds_epu16_rr_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddusw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdd,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_adds_epu16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epu16_rrk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddusw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xdd,0xd1]
; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_adds_epu16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epu16_rrkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddusw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xdd,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_adds_epu16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
; CHECK-LABEL: test_mask_adds_epu16_rm_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddusw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdd,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_adds_epu16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epu16_rmk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddusw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xdd,0x0f]
; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_adds_epu16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epu16_rmkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddusw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xdd,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
ret <16 x i16> %res
}

declare <16 x i16> @llvm.x86.avx512.mask.paddus.w.256(<16 x i16>, <16 x i16>, <16 x i16>, i16)

define <8 x i16> @test_mask_subs_epu16_rr_128(<8 x i16> %a, <8 x i16> %b) {
; CHECK-LABEL: test_mask_subs_epu16_rr_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubusw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd9,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_subs_epu16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
; CHECK-LABEL: test_mask_subs_epu16_rrk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubusw %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xd9,0xd1]
; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_subs_epu16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
; CHECK-LABEL: test_mask_subs_epu16_rrkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubusw %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xd9,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_subs_epu16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
; CHECK-LABEL: test_mask_subs_epu16_rm_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubusw (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd9,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 -1)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_subs_epu16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
; CHECK-LABEL: test_mask_subs_epu16_rmk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubusw (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xd9,0x0f]
; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask)
ret <8 x i16> %res
}

define <8 x i16> @test_mask_subs_epu16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
; CHECK-LABEL: test_mask_subs_epu16_rmkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubusw (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xd9,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <8 x i16>, <8 x i16>* %ptr_b
%res = call <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16> %a, <8 x i16> %b, <8 x i16> zeroinitializer, i8 %mask)
ret <8 x i16> %res
}

declare <8 x i16> @llvm.x86.avx512.mask.psubus.w.128(<8 x i16>, <8 x i16>, <8 x i16>, i8)

define <16 x i16> @test_mask_subs_epu16_rr_256(<16 x i16> %a, <16 x i16> %b) {
; CHECK-LABEL: test_mask_subs_epu16_rr_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubusw %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd9,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_subs_epu16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epu16_rrk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubusw %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xd9,0xd1]
; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_subs_epu16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epu16_rrkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubusw %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xd9,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_subs_epu16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
; CHECK-LABEL: test_mask_subs_epu16_rm_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubusw (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd9,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 -1)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_subs_epu16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epu16_rmk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubusw (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xd9,0x0f]
; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask)
ret <16 x i16> %res
}

define <16 x i16> @test_mask_subs_epu16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epu16_rmkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubusw (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xd9,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i16>, <16 x i16>* %ptr_b
%res = call <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16> %a, <16 x i16> %b, <16 x i16> zeroinitializer, i16 %mask)
ret <16 x i16> %res
}

declare <16 x i16> @llvm.x86.avx512.mask.psubus.w.256(<16 x i16>, <16 x i16>, <16 x i16>, i16)

define <16 x i8> @test_mask_adds_epi8_rr_128(<16 x i8> %a, <16 x i8> %b) {
; CHECK-LABEL: test_mask_adds_epi8_rr_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddsb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xec,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_adds_epi8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epi8_rrk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddsb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xec,0xd1]
; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_adds_epi8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epi8_rrkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddsb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xec,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_adds_epi8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
; CHECK-LABEL: test_mask_adds_epi8_rm_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddsb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xec,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_adds_epi8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epi8_rmk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddsb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xec,0x0f]
; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_adds_epi8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epi8_rmkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddsb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xec,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
ret <16 x i8> %res
}

declare <16 x i8> @llvm.x86.avx512.mask.padds.b.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

define <32 x i8> @test_mask_adds_epi8_rr_256(<32 x i8> %a, <32 x i8> %b) {
; CHECK-LABEL: test_mask_adds_epi8_rr_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xec,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_adds_epi8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
; CHECK-LABEL: test_mask_adds_epi8_rrk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddsb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xec,0xd1]
; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_adds_epi8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
; CHECK-LABEL: test_mask_adds_epi8_rrkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xec,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_adds_epi8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
; CHECK-LABEL: test_mask_adds_epi8_rm_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddsb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xec,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_adds_epi8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
; CHECK-LABEL: test_mask_adds_epi8_rmk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddsb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xec,0x0f]
; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_adds_epi8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
; CHECK-LABEL: test_mask_adds_epi8_rmkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddsb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xec,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
ret <32 x i8> %res
}

declare <32 x i8> @llvm.x86.avx512.mask.padds.b.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

define <16 x i8> @test_mask_subs_epi8_rr_128(<16 x i8> %a, <16 x i8> %b) {
; CHECK-LABEL: test_mask_subs_epi8_rr_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubsb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe8,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_subs_epi8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epi8_rrk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubsb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xe8,0xd1]
; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_subs_epi8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epi8_rrkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubsb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xe8,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_subs_epi8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
; CHECK-LABEL: test_mask_subs_epi8_rm_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubsb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe8,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_subs_epi8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epi8_rmk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubsb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xe8,0x0f]
; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_subs_epi8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epi8_rmkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubsb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xe8,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
ret <16 x i8> %res
}

declare <16 x i8> @llvm.x86.avx512.mask.psubs.b.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

define <32 x i8> @test_mask_subs_epi8_rr_256(<32 x i8> %a, <32 x i8> %b) {
; CHECK-LABEL: test_mask_subs_epi8_rr_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubsb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe8,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_subs_epi8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
; CHECK-LABEL: test_mask_subs_epi8_rrk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubsb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xe8,0xd1]
; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_subs_epi8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
; CHECK-LABEL: test_mask_subs_epi8_rrkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubsb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xe8,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_subs_epi8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
; CHECK-LABEL: test_mask_subs_epi8_rm_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubsb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xe8,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_subs_epi8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
; CHECK-LABEL: test_mask_subs_epi8_rmk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubsb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xe8,0x0f]
; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_subs_epi8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
; CHECK-LABEL: test_mask_subs_epi8_rmkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubsb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xe8,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
ret <32 x i8> %res
}

declare <32 x i8> @llvm.x86.avx512.mask.psubs.b.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

define <16 x i8> @test_mask_adds_epu8_rr_128(<16 x i8> %a, <16 x i8> %b) {
; CHECK-LABEL: test_mask_adds_epu8_rr_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddusb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdc,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_adds_epu8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epu8_rrk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddusb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xdc,0xd1]
; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_adds_epu8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epu8_rrkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddusb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xdc,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_adds_epu8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
; CHECK-LABEL: test_mask_adds_epu8_rm_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddusb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdc,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_adds_epu8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epu8_rmk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddusb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xdc,0x0f]
; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_adds_epu8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
; CHECK-LABEL: test_mask_adds_epu8_rmkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddusb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xdc,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
ret <16 x i8> %res
}

declare <16 x i8> @llvm.x86.avx512.mask.paddus.b.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

define <32 x i8> @test_mask_adds_epu8_rr_256(<32 x i8> %a, <32 x i8> %b) {
; CHECK-LABEL: test_mask_adds_epu8_rr_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddusb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdc,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_adds_epu8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
; CHECK-LABEL: test_mask_adds_epu8_rrk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddusb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xdc,0xd1]
; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_adds_epu8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
; CHECK-LABEL: test_mask_adds_epu8_rrkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpaddusb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xdc,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_adds_epu8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
; CHECK-LABEL: test_mask_adds_epu8_rm_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpaddusb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xdc,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_adds_epu8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
; CHECK-LABEL: test_mask_adds_epu8_rmk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddusb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xdc,0x0f]
; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_adds_epu8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
; CHECK-LABEL: test_mask_adds_epu8_rmkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpaddusb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xdc,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
ret <32 x i8> %res
}

declare <32 x i8> @llvm.x86.avx512.mask.paddus.b.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

define <16 x i8> @test_mask_subs_epu8_rr_128(<16 x i8> %a, <16 x i8> %b) {
; CHECK-LABEL: test_mask_subs_epu8_rr_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubusb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd8,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_subs_epu8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epu8_rrk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubusb %xmm1, %xmm0, %xmm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xd8,0xd1]
; CHECK-NEXT: vmovdqa %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_subs_epu8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epu8_rrkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubusb %xmm1, %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xd8,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_subs_epu8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
; CHECK-LABEL: test_mask_subs_epu8_rm_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubusb (%rdi), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd8,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 -1)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_subs_epu8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epu8_rmk_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubusb (%rdi), %xmm0, %xmm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x09,0xd8,0x0f]
; CHECK-NEXT: vmovdqa %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask)
ret <16 x i8> %res
}

define <16 x i8> @test_mask_subs_epu8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
; CHECK-LABEL: test_mask_subs_epu8_rmkz_128:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubusb (%rdi), %xmm0, %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0x89,0xd8,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <16 x i8>, <16 x i8>* %ptr_b
%res = call <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8> %a, <16 x i8> %b, <16 x i8> zeroinitializer, i16 %mask)
ret <16 x i8> %res
}

declare <16 x i8> @llvm.x86.avx512.mask.psubus.b.128(<16 x i8>, <16 x i8>, <16 x i8>, i16)

define <32 x i8> @test_mask_subs_epu8_rr_256(<32 x i8> %a, <32 x i8> %b) {
; CHECK-LABEL: test_mask_subs_epu8_rr_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubusb %ymm1, %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd8,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_subs_epu8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
; CHECK-LABEL: test_mask_subs_epu8_rrk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubusb %ymm1, %ymm0, %ymm2 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xd8,0xd1]
; CHECK-NEXT: vmovdqa %ymm2, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc2]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_subs_epu8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
; CHECK-LABEL: test_mask_subs_epu8_rrkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vpsubusb %ymm1, %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xd8,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_subs_epu8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
; CHECK-LABEL: test_mask_subs_epu8_rm_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: vpsubusb (%rdi), %ymm0, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0xd8,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 -1)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_subs_epu8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
; CHECK-LABEL: test_mask_subs_epu8_rmk_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubusb (%rdi), %ymm0, %ymm1 {%k1} ## encoding: [0x62,0xf1,0x7d,0x29,0xd8,0x0f]
; CHECK-NEXT: vmovdqa %ymm1, %ymm0 ## EVEX TO VEX Compression encoding: [0xc5,0xfd,0x6f,0xc1]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask)
ret <32 x i8> %res
}

define <32 x i8> @test_mask_subs_epu8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
; CHECK-LABEL: test_mask_subs_epu8_rmkz_256:
; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %esi, %k1 ## encoding: [0xc5,0xfb,0x92,0xce]
; CHECK-NEXT: vpsubusb (%rdi), %ymm0, %ymm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7d,0xa9,0xd8,0x07]
; CHECK-NEXT: retq ## encoding: [0xc3]
%b = load <32 x i8>, <32 x i8>* %ptr_b
%res = call <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8> %a, <32 x i8> %b, <32 x i8> zeroinitializer, i32 %mask)
ret <32 x i8> %res
}

declare <32 x i8> @llvm.x86.avx512.mask.psubus.b.256(<32 x i8>, <32 x i8>, <32 x i8>, i32)

declare <8 x i16> @llvm.x86.avx512.mask.vpermt2var.hi.128(<8 x i16>, <8 x i16>, <8 x i16>, i8)		declare <8 x i16> @llvm.x86.avx512.mask.vpermt2var.hi.128(<8 x i16>, <8 x i16>, <8 x i16>, i8)

define <8 x i16>@test_int_x86_avx512_mask_vpermt2var_hi_128(<8 x i16> %x0, <8 x i16> %x1, <8 x i16> %x2, i8 %x3) {		define <8 x i16>@test_int_x86_avx512_mask_vpermt2var_hi_128(<8 x i16> %x0, <8 x i16> %x1, <8 x i16> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_hi_128:		; CHECK-LABEL: test_int_x86_avx512_mask_vpermt2var_hi_128:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]		; CHECK-NEXT: kmovd %edi, %k1 ## encoding: [0xc5,0xfb,0x92,0xcf]
; CHECK-NEXT: vmovdqa %xmm1, %xmm3 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xd9]		; CHECK-NEXT: vmovdqa %xmm1, %xmm3 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6f,0xd9]
; CHECK-NEXT: vpermt2w %xmm2, %xmm0, %xmm3 ## encoding: [0x62,0xf2,0xfd,0x08,0x7d,0xda]		; CHECK-NEXT: vpermt2w %xmm2, %xmm0, %xmm3 ## encoding: [0x62,0xf2,0xfd,0x08,0x7d,0xda]
▲ Show 20 Lines • Show All 679 Lines • Show Last 20 Lines

test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

	Show First 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_adds_epi8:			; X64-LABEL: test_mm_adds_epi8:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: paddsb %xmm1, %xmm0			; X64-NEXT: paddsb %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <16 x i8>			%arg0 = bitcast <2 x i64> %a0 to <16 x i8>
	%arg1 = bitcast <2 x i64> %a1 to <16 x i8>			%arg1 = bitcast <2 x i64> %a1 to <16 x i8>
	%res = call <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8> %arg0, <16 x i8> %arg1)			%1 = sext <16 x i8> %arg0 to <16 x i16>
	%bc = bitcast <16 x i8> %res to <2 x i64>			%2 = sext <16 x i8> %arg1 to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				%bc = bitcast <16 x i8> %8 to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8>, <16 x i8>) nounwind readnone

	define <2 x i64> @test_mm_adds_epi16(<2 x i64> %a0, <2 x i64> %a1) nounwind {			define <2 x i64> @test_mm_adds_epi16(<2 x i64> %a0, <2 x i64> %a1) nounwind {
	; X32-LABEL: test_mm_adds_epi16:			; X32-LABEL: test_mm_adds_epi16:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: paddsw %xmm1, %xmm0			; X32-NEXT: paddsw %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_adds_epi16:			; X64-LABEL: test_mm_adds_epi16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: paddsw %xmm1, %xmm0			; X64-NEXT: paddsw %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <8 x i16>			%arg0 = bitcast <2 x i64> %a0 to <8 x i16>
	%arg1 = bitcast <2 x i64> %a1 to <8 x i16>			%arg1 = bitcast <2 x i64> %a1 to <8 x i16>
	%res = call <8 x i16> @llvm.x86.sse2.padds.w(<8 x i16> %arg0, <8 x i16> %arg1)			%1 = sext <8 x i16> %arg0 to <8 x i32>
	%bc = bitcast <8 x i16> %res to <2 x i64>			%2 = sext <8 x i16> %arg1 to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%bc = bitcast <8 x i16> %8 to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <8 x i16> @llvm.x86.sse2.padds.w(<8 x i16>, <8 x i16>) nounwind readnone

	define <2 x i64> @test_mm_adds_epu8(<2 x i64> %a0, <2 x i64> %a1) nounwind {			define <2 x i64> @test_mm_adds_epu8(<2 x i64> %a0, <2 x i64> %a1) nounwind {
	; X32-LABEL: test_mm_adds_epu8:			; X32-LABEL: test_mm_adds_epu8:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: paddusb %xmm1, %xmm0			; X32-NEXT: paddusb %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_adds_epu8:			; X64-LABEL: test_mm_adds_epu8:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: paddusb %xmm1, %xmm0			; X64-NEXT: paddusb %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <16 x i8>			%arg0 = bitcast <2 x i64> %a0 to <16 x i8>
	%arg1 = bitcast <2 x i64> %a1 to <16 x i8>			%arg1 = bitcast <2 x i64> %a1 to <16 x i8>
	%res = call <16 x i8> @llvm.x86.sse2.paddus.b(<16 x i8> %arg0, <16 x i8> %arg1)			%1 = zext <16 x i8> %arg0 to <16 x i16>
	%bc = bitcast <16 x i8> %res to <2 x i64>			%2 = zext <16 x i8> %arg1 to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp ult <16 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <16 x i16> %5 to <16 x i8>
				%bc = bitcast <16 x i8> %6 to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <16 x i8> @llvm.x86.sse2.paddus.b(<16 x i8>, <16 x i8>) nounwind readnone

	define <2 x i64> @test_mm_adds_epu16(<2 x i64> %a0, <2 x i64> %a1) nounwind {			define <2 x i64> @test_mm_adds_epu16(<2 x i64> %a0, <2 x i64> %a1) nounwind {
	; X32-LABEL: test_mm_adds_epu16:			; X32-LABEL: test_mm_adds_epu16:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: paddusw %xmm1, %xmm0			; X32-NEXT: paddusw %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_adds_epu16:			; X64-LABEL: test_mm_adds_epu16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: paddusw %xmm1, %xmm0			; X64-NEXT: paddusw %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <8 x i16>			%arg0 = bitcast <2 x i64> %a0 to <8 x i16>
	%arg1 = bitcast <2 x i64> %a1 to <8 x i16>			%arg1 = bitcast <2 x i64> %a1 to <8 x i16>
	%res = call <8 x i16> @llvm.x86.sse2.paddus.w(<8 x i16> %arg0, <8 x i16> %arg1)			%1 = zext <8 x i16> %arg0 to <8 x i32>
	%bc = bitcast <8 x i16> %res to <2 x i64>			%2 = zext <8 x i16> %arg1 to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp ult <8 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <8 x i32> %5 to <8 x i16>
				%bc = bitcast <8 x i16> %6 to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <8 x i16> @llvm.x86.sse2.paddus.w(<8 x i16>, <8 x i16>) nounwind readnone

	define <2 x double> @test_mm_and_pd(<2 x double> %a0, <2 x double> %a1) nounwind {			define <2 x double> @test_mm_and_pd(<2 x double> %a0, <2 x double> %a1) nounwind {
	; X32-LABEL: test_mm_and_pd:			; X32-LABEL: test_mm_and_pd:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: andps %xmm1, %xmm0			; X32-NEXT: andps %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_and_pd:			; X64-LABEL: test_mm_and_pd:
	▲ Show 20 Lines • Show All 3,320 Lines • ▼ Show 20 Lines
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_subs_epi8:			; X64-LABEL: test_mm_subs_epi8:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: psubsb %xmm1, %xmm0			; X64-NEXT: psubsb %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <16 x i8>			%arg0 = bitcast <2 x i64> %a0 to <16 x i8>
	%arg1 = bitcast <2 x i64> %a1 to <16 x i8>			%arg1 = bitcast <2 x i64> %a1 to <16 x i8>
	%res = call <16 x i8> @llvm.x86.sse2.psubs.b(<16 x i8> %arg0, <16 x i8> %arg1)			%1 = sext <16 x i8> %arg0 to <16 x i16>
	%bc = bitcast <16 x i8> %res to <2 x i64>			%2 = sext <16 x i8> %arg1 to <16 x i16>
				%3 = sub nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				%bc = bitcast <16 x i8> %8 to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <16 x i8> @llvm.x86.sse2.psubs.b(<16 x i8>, <16 x i8>) nounwind readnone

	define <2 x i64> @test_mm_subs_epi16(<2 x i64> %a0, <2 x i64> %a1) nounwind {			define <2 x i64> @test_mm_subs_epi16(<2 x i64> %a0, <2 x i64> %a1) nounwind {
	; X32-LABEL: test_mm_subs_epi16:			; X32-LABEL: test_mm_subs_epi16:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: psubsw %xmm1, %xmm0			; X32-NEXT: psubsw %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_subs_epi16:			; X64-LABEL: test_mm_subs_epi16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: psubsw %xmm1, %xmm0			; X64-NEXT: psubsw %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <8 x i16>			%arg0 = bitcast <2 x i64> %a0 to <8 x i16>
	%arg1 = bitcast <2 x i64> %a1 to <8 x i16>			%arg1 = bitcast <2 x i64> %a1 to <8 x i16>
	%res = call <8 x i16> @llvm.x86.sse2.psubs.w(<8 x i16> %arg0, <8 x i16> %arg1)			%1 = sext <8 x i16> %arg0 to <8 x i32>
	%bc = bitcast <8 x i16> %res to <2 x i64>			%2 = sext <8 x i16> %arg1 to <8 x i32>
				%3 = sub nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%bc = bitcast <8 x i16> %8 to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <8 x i16> @llvm.x86.sse2.psubs.w(<8 x i16>, <8 x i16>) nounwind readnone

	define <2 x i64> @test_mm_subs_epu8(<2 x i64> %a0, <2 x i64> %a1) nounwind {			define <2 x i64> @test_mm_subs_epu8(<2 x i64> %a0, <2 x i64> %a1) nounwind {
	; X32-LABEL: test_mm_subs_epu8:			; X32-LABEL: test_mm_subs_epu8:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: psubusb %xmm1, %xmm0			; X32-NEXT: pmaxub %xmm1, %xmm0
				; X32-NEXT: psubb %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_subs_epu8:			; X64-LABEL: test_mm_subs_epu8:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: psubusb %xmm1, %xmm0			; X64-NEXT: pmaxub %xmm1, %xmm0
				; X64-NEXT: psubb %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <16 x i8>			%arg0 = bitcast <2 x i64> %a0 to <16 x i8>
	%arg1 = bitcast <2 x i64> %a1 to <16 x i8>			%arg1 = bitcast <2 x i64> %a1 to <16 x i8>
	%res = call <16 x i8> @llvm.x86.sse2.psubus.b(<16 x i8> %arg0, <16 x i8> %arg1)			%cmp = icmp ugt <16 x i8> %arg0, %arg1
	%bc = bitcast <16 x i8> %res to <2 x i64>			%sel = select <16 x i1> %cmp, <16 x i8> %arg0, <16 x i8> %arg1
				%sub = sub <16 x i8> %sel, %arg1
				%bc = bitcast <16 x i8> %sub to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <16 x i8> @llvm.x86.sse2.psubus.b(<16 x i8>, <16 x i8>) nounwind readnone

	define <2 x i64> @test_mm_subs_epu16(<2 x i64> %a0, <2 x i64> %a1) nounwind {			define <2 x i64> @test_mm_subs_epu16(<2 x i64> %a0, <2 x i64> %a1) nounwind {
	; X32-LABEL: test_mm_subs_epu16:			; X32-LABEL: test_mm_subs_epu16:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: psubusw %xmm1, %xmm0			; X32-NEXT: movdqa .LCPI190_0, %xmm2 # xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
				; X32-NEXT: movdqa %xmm1, %xmm3
				; X32-NEXT: pxor %xmm2, %xmm3
				; X32-NEXT: pxor %xmm2, %xmm0
				; X32-NEXT: pmaxsw %xmm3, %xmm0
				; X32-NEXT: pxor %xmm2, %xmm0
				; X32-NEXT: psubw %xmm1, %xmm0
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test_mm_subs_epu16:			; X64-LABEL: test_mm_subs_epu16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: psubusw %xmm1, %xmm0			; X64-NEXT: movdqa .LCPI190_0(%rip), %xmm2 # xmm2 = [32768,32768,32768,32768,32768,32768,32768,32768]
				; X64-NEXT: movdqa %xmm1, %xmm3
				; X64-NEXT: pxor %xmm2, %xmm3
				; X64-NEXT: pxor %xmm2, %xmm0
				; X64-NEXT: pmaxsw %xmm3, %xmm0
				; X64-NEXT: pxor %xmm2, %xmm0
				; X64-NEXT: psubw %xmm1, %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%arg0 = bitcast <2 x i64> %a0 to <8 x i16>			%arg0 = bitcast <2 x i64> %a0 to <8 x i16>
	%arg1 = bitcast <2 x i64> %a1 to <8 x i16>			%arg1 = bitcast <2 x i64> %a1 to <8 x i16>
	%res = call <8 x i16> @llvm.x86.sse2.psubus.w(<8 x i16> %arg0, <8 x i16> %arg1)			%cmp = icmp ugt <8 x i16> %arg0, %arg1
	%bc = bitcast <8 x i16> %res to <2 x i64>			%sel = select <8 x i1> %cmp, <8 x i16> %arg0, <8 x i16> %arg1
				%sub = sub <8 x i16> %sel, %arg1
				%bc = bitcast <8 x i16> %sub to <2 x i64>
	ret <2 x i64> %bc			ret <2 x i64> %bc
	}			}
	declare <8 x i16> @llvm.x86.sse2.psubus.w(<8 x i16>, <8 x i16>) nounwind readnone

	define i32 @test_mm_ucomieq_sd(<2 x double> %a0, <2 x double> %a1) nounwind {			define i32 @test_mm_ucomieq_sd(<2 x double> %a0, <2 x double> %a1) nounwind {
	; X32-LABEL: test_mm_ucomieq_sd:			; X32-LABEL: test_mm_ucomieq_sd:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: ucomisd %xmm1, %xmm0			; X32-NEXT: ucomisd %xmm1, %xmm0
	; X32-NEXT: setnp %al			; X32-NEXT: setnp %al
	; X32-NEXT: sete %cl			; X32-NEXT: sete %cl
	; X32-NEXT: andb %al, %cl			; X32-NEXT: andb %al, %cl
	▲ Show 20 Lines • Show All 328 Lines • Show Last 20 Lines

test/CodeGen/X86/sse2-intrinsics-x86-upgrade.ll

	Show First 20 Lines • Show All 240 Lines • ▼ Show 20 Lines
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: pavgw %xmm1, %xmm0			; CHECK-NEXT: pavgw %xmm1, %xmm0
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	%res = call <8 x i16> @llvm.x86.sse2.pavg.w(<8 x i16> %a0, <8 x i16> %a1) ; <<8 x i16>> [#uses=1]			%res = call <8 x i16> @llvm.x86.sse2.pavg.w(<8 x i16> %a0, <8 x i16> %a1) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}
	declare <8 x i16> @llvm.x86.sse2.pavg.w(<8 x i16>, <8 x i16>) nounwind readnone			declare <8 x i16> @llvm.x86.sse2.pavg.w(<8 x i16>, <8 x i16>) nounwind readnone

				define <16 x i8> @test_x86_sse2_padds_b(<16 x i8> %a0, <16 x i8> %a1) {
				; SSE-LABEL: test_x86_sse2_padds_b:
				; SSE: ## %bb.0:
				; SSE-NEXT: paddsb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xec,0xc1]
				; SSE-NEXT: retl ## encoding: [0xc3]
				;
				; AVX2-LABEL: test_x86_sse2_padds_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddsb %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xec,0xc1]
				; AVX2-NEXT: retl ## encoding: [0xc3]
				;
				; SKX-LABEL: test_x86_sse2_padds_b:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpaddsb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xec,0xc1]
				; SKX-NEXT: retl ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8> %a0, <16 x i8> %a1) ; <<16 x i8>> [#uses=1]
				ret <16 x i8> %res
				}
				declare <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8>, <16 x i8>) nounwind readnone


				define <8 x i16> @test_x86_sse2_padds_w(<8 x i16> %a0, <8 x i16> %a1) {
				; SSE-LABEL: test_x86_sse2_padds_w:
				; SSE: ## %bb.0:
				; SSE-NEXT: paddsw %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xed,0xc1]
				; SSE-NEXT: retl ## encoding: [0xc3]
				;
				; AVX2-LABEL: test_x86_sse2_padds_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xed,0xc1]
				; AVX2-NEXT: retl ## encoding: [0xc3]
				;
				; SKX-LABEL: test_x86_sse2_padds_w:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xed,0xc1]
				; SKX-NEXT: retl ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.sse2.padds.w(<8 x i16> %a0, <8 x i16> %a1) ; <<8 x i16>> [#uses=1]
				ret <8 x i16> %res
				}
				declare <8 x i16> @llvm.x86.sse2.padds.w(<8 x i16>, <8 x i16>) nounwind readnone


				define <16 x i8> @test_x86_sse2_paddus_b(<16 x i8> %a0, <16 x i8> %a1) {
				; SSE-LABEL: test_x86_sse2_paddus_b:
				; SSE: ## %bb.0:
				; SSE-NEXT: paddusb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xdc,0xc1]
				; SSE-NEXT: retl ## encoding: [0xc3]
				;
				; AVX2-LABEL: test_x86_sse2_paddus_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddusb %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xdc,0xc1]
				; AVX2-NEXT: retl ## encoding: [0xc3]
				;
				; SKX-LABEL: test_x86_sse2_paddus_b:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpaddusb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdc,0xc1]
				; SKX-NEXT: retl ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.sse2.paddus.b(<16 x i8> %a0, <16 x i8> %a1) ; <<16 x i8>> [#uses=1]
				ret <16 x i8> %res
				}
				declare <16 x i8> @llvm.x86.sse2.paddus.b(<16 x i8>, <16 x i8>) nounwind readnone


				define <8 x i16> @test_x86_sse2_paddus_w(<8 x i16> %a0, <8 x i16> %a1) {
				; SSE-LABEL: test_x86_sse2_paddus_w:
				; SSE: ## %bb.0:
				; SSE-NEXT: paddusw %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xdd,0xc1]
				; SSE-NEXT: retl ## encoding: [0xc3]
				;
				; AVX2-LABEL: test_x86_sse2_paddus_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddusw %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xdd,0xc1]
				; AVX2-NEXT: retl ## encoding: [0xc3]
				;
				; SKX-LABEL: test_x86_sse2_paddus_w:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpaddusw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdd,0xc1]
				; SKX-NEXT: retl ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.sse2.paddus.w(<8 x i16> %a0, <8 x i16> %a1) ; <<8 x i16>> [#uses=1]
				ret <8 x i16> %res
				}
				declare <8 x i16> @llvm.x86.sse2.paddus.w(<8 x i16>, <8 x i16>) nounwind readnone


				define <16 x i8> @test_x86_sse2_psubs_b(<16 x i8> %a0, <16 x i8> %a1) {
				; SSE-LABEL: test_x86_sse2_psubs_b:
				; SSE: ## %bb.0:
				; SSE-NEXT: psubsb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xe8,0xc1]
				; SSE-NEXT: retl ## encoding: [0xc3]
				;
				; AVX2-LABEL: test_x86_sse2_psubs_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubsb %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xe8,0xc1]
				; AVX2-NEXT: retl ## encoding: [0xc3]
				;
				; SKX-LABEL: test_x86_sse2_psubs_b:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpsubsb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe8,0xc1]
				; SKX-NEXT: retl ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.sse2.psubs.b(<16 x i8> %a0, <16 x i8> %a1) ; <<16 x i8>> [#uses=1]
				ret <16 x i8> %res
				}
				declare <16 x i8> @llvm.x86.sse2.psubs.b(<16 x i8>, <16 x i8>) nounwind readnone


				define <8 x i16> @test_x86_sse2_psubs_w(<8 x i16> %a0, <8 x i16> %a1) {
				; SSE-LABEL: test_x86_sse2_psubs_w:
				; SSE: ## %bb.0:
				; SSE-NEXT: psubsw %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xe9,0xc1]
				; SSE-NEXT: retl ## encoding: [0xc3]
				;
				; AVX2-LABEL: test_x86_sse2_psubs_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubsw %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xe9,0xc1]
				; AVX2-NEXT: retl ## encoding: [0xc3]
				;
				; SKX-LABEL: test_x86_sse2_psubs_w:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpsubsw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe9,0xc1]
				; SKX-NEXT: retl ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.sse2.psubs.w(<8 x i16> %a0, <8 x i16> %a1) ; <<8 x i16>> [#uses=1]
				ret <8 x i16> %res
				}
				declare <8 x i16> @llvm.x86.sse2.psubs.w(<8 x i16>, <8 x i16>) nounwind readnone


				define <16 x i8> @test_x86_sse2_psubus_b(<16 x i8> %a0, <16 x i8> %a1) {
				; SSE-LABEL: test_x86_sse2_psubus_b:
				; SSE: ## %bb.0:
				; SSE-NEXT: psubusb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xd8,0xc1]
				; SSE-NEXT: retl ## encoding: [0xc3]
				;
				; AVX2-LABEL: test_x86_sse2_psubus_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubusb %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xd8,0xc1]
				; AVX2-NEXT: retl ## encoding: [0xc3]
				;
				; SKX-LABEL: test_x86_sse2_psubus_b:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpsubusb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd8,0xc1]
				; SKX-NEXT: retl ## encoding: [0xc3]
				%res = call <16 x i8> @llvm.x86.sse2.psubus.b(<16 x i8> %a0, <16 x i8> %a1) ; <<16 x i8>> [#uses=1]
				ret <16 x i8> %res
				}
				declare <16 x i8> @llvm.x86.sse2.psubus.b(<16 x i8>, <16 x i8>) nounwind readnone


				define <8 x i16> @test_x86_sse2_psubus_w(<8 x i16> %a0, <8 x i16> %a1) {
				; SSE-LABEL: test_x86_sse2_psubus_w:
				; SSE: ## %bb.0:
				; SSE-NEXT: psubusw %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xd9,0xc1]
				; SSE-NEXT: retl ## encoding: [0xc3]
				;
				; AVX2-LABEL: test_x86_sse2_psubus_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubusw %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xd9,0xc1]
				; AVX2-NEXT: retl ## encoding: [0xc3]
				;
				; SKX-LABEL: test_x86_sse2_psubus_w:
				; SKX: ## %bb.0:
				; SKX-NEXT: vpsubusw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd9,0xc1]
				; SKX-NEXT: retl ## encoding: [0xc3]
				%res = call <8 x i16> @llvm.x86.sse2.psubus.w(<8 x i16> %a0, <8 x i16> %a1) ; <<8 x i16>> [#uses=1]
				ret <8 x i16> %res
				}
				declare <8 x i16> @llvm.x86.sse2.psubus.w(<8 x i16>, <8 x i16>) nounwind readnone

	define <2 x i64> @test_x86_sse2_pmulu_dq(<4 x i32> %a0, <4 x i32> %a1) {			define <2 x i64> @test_x86_sse2_pmulu_dq(<4 x i32> %a0, <4 x i32> %a1) {
	; CHECK-LABEL: test_x86_sse2_pmulu_dq:			; CHECK-LABEL: test_x86_sse2_pmulu_dq:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: pmuludq %xmm1, %xmm0			; CHECK-NEXT: pmuludq %xmm1, %xmm0
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	%res = call <2 x i64> @llvm.x86.sse2.pmulu.dq(<4 x i32> %a0, <4 x i32> %a1) ; <<2 x i64>> [#uses=1]			%res = call <2 x i64> @llvm.x86.sse2.pmulu.dq(<4 x i32> %a0, <4 x i32> %a1) ; <<2 x i64>> [#uses=1]
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}
	declare <2 x i64> @llvm.x86.sse2.pmulu.dq(<4 x i32>, <4 x i32>) nounwind readnone			declare <2 x i64> @llvm.x86.sse2.pmulu.dq(<4 x i32>, <4 x i32>) nounwind readnone

test/CodeGen/X86/sse2-intrinsics-x86.ll

	Show First 20 Lines • Show All 876 Lines • ▼ Show 20 Lines
	; SKX-NEXT: ## encoding: [0xc5,0xf8,0x28,0x05,A,A,A,A]			; SKX-NEXT: ## encoding: [0xc5,0xf8,0x28,0x05,A,A,A,A]
	; SKX-NEXT: ## fixup A - offset: 4, value: LCPI39_0, kind: FK_Data_4			; SKX-NEXT: ## fixup A - offset: 4, value: LCPI39_0, kind: FK_Data_4
	; SKX-NEXT: retl ## encoding: [0xc3]			; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <8 x i16> zeroinitializer)			%res = call <16 x i8> @llvm.x86.sse2.packuswb.128(<8 x i16> <i16 0, i16 255, i16 256, i16 65535, i16 -1, i16 -255, i16 -256, i16 -32678>, <8 x i16> zeroinitializer)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}


	define <16 x i8> @test_x86_sse2_padds_b(<16 x i8> %a0, <16 x i8> %a1) {
	; SSE-LABEL: test_x86_sse2_padds_b:
	; SSE: ## %bb.0:
	; SSE-NEXT: paddsb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xec,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_padds_b:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpaddsb %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xec,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_padds_b:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpaddsb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xec,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8> %a0, <16 x i8> %a1) ; <<16 x i8>> [#uses=1]
	ret <16 x i8> %res
	}
	declare <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8>, <16 x i8>) nounwind readnone


	define <8 x i16> @test_x86_sse2_padds_w(<8 x i16> %a0, <8 x i16> %a1) {
	; SSE-LABEL: test_x86_sse2_padds_w:
	; SSE: ## %bb.0:
	; SSE-NEXT: paddsw %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xed,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_padds_w:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xed,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_padds_w:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xed,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.sse2.padds.w(<8 x i16> %a0, <8 x i16> %a1) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res
	}
	declare <8 x i16> @llvm.x86.sse2.padds.w(<8 x i16>, <8 x i16>) nounwind readnone


	define <16 x i8> @test_x86_sse2_paddus_b(<16 x i8> %a0, <16 x i8> %a1) {
	; SSE-LABEL: test_x86_sse2_paddus_b:
	; SSE: ## %bb.0:
	; SSE-NEXT: paddusb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xdc,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_paddus_b:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpaddusb %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xdc,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_paddus_b:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpaddusb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdc,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.sse2.paddus.b(<16 x i8> %a0, <16 x i8> %a1) ; <<16 x i8>> [#uses=1]
	ret <16 x i8> %res
	}
	declare <16 x i8> @llvm.x86.sse2.paddus.b(<16 x i8>, <16 x i8>) nounwind readnone


	define <8 x i16> @test_x86_sse2_paddus_w(<8 x i16> %a0, <8 x i16> %a1) {
	; SSE-LABEL: test_x86_sse2_paddus_w:
	; SSE: ## %bb.0:
	; SSE-NEXT: paddusw %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xdd,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_paddus_w:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpaddusw %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xdd,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_paddus_w:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpaddusw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdd,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.sse2.paddus.w(<8 x i16> %a0, <8 x i16> %a1) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res
	}
	declare <8 x i16> @llvm.x86.sse2.paddus.w(<8 x i16>, <8 x i16>) nounwind readnone


	define <4 x i32> @test_x86_sse2_pmadd_wd(<8 x i16> %a0, <8 x i16> %a1) {			define <4 x i32> @test_x86_sse2_pmadd_wd(<8 x i16> %a0, <8 x i16> %a1) {
	; SSE-LABEL: test_x86_sse2_pmadd_wd:			; SSE-LABEL: test_x86_sse2_pmadd_wd:
	; SSE: ## %bb.0:			; SSE: ## %bb.0:
	; SSE-NEXT: pmaddwd %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xf5,0xc1]			; SSE-NEXT: pmaddwd %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xf5,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]			; SSE-NEXT: retl ## encoding: [0xc3]
	;			;
	; AVX2-LABEL: test_x86_sse2_pmadd_wd:			; AVX2-LABEL: test_x86_sse2_pmadd_wd:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	▲ Show 20 Lines • Show All 504 Lines • ▼ Show 20 Lines
	; SKX-NEXT: vpsrlw $7, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x71,0xd0,0x07]			; SKX-NEXT: vpsrlw $7, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x71,0xd0,0x07]
	; SKX-NEXT: retl ## encoding: [0xc3]			; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.sse2.psrli.w(<8 x i16> %a0, i32 7) ; <<8 x i16>> [#uses=1]			%res = call <8 x i16> @llvm.x86.sse2.psrli.w(<8 x i16> %a0, i32 7) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res			ret <8 x i16> %res
	}			}
	declare <8 x i16> @llvm.x86.sse2.psrli.w(<8 x i16>, i32) nounwind readnone			declare <8 x i16> @llvm.x86.sse2.psrli.w(<8 x i16>, i32) nounwind readnone


	define <16 x i8> @test_x86_sse2_psubs_b(<16 x i8> %a0, <16 x i8> %a1) {
	; SSE-LABEL: test_x86_sse2_psubs_b:
	; SSE: ## %bb.0:
	; SSE-NEXT: psubsb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xe8,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_psubs_b:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpsubsb %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xe8,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_psubs_b:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpsubsb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe8,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.sse2.psubs.b(<16 x i8> %a0, <16 x i8> %a1) ; <<16 x i8>> [#uses=1]
	ret <16 x i8> %res
	}
	declare <16 x i8> @llvm.x86.sse2.psubs.b(<16 x i8>, <16 x i8>) nounwind readnone


	define <8 x i16> @test_x86_sse2_psubs_w(<8 x i16> %a0, <8 x i16> %a1) {
	; SSE-LABEL: test_x86_sse2_psubs_w:
	; SSE: ## %bb.0:
	; SSE-NEXT: psubsw %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xe9,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_psubs_w:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpsubsw %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xe9,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_psubs_w:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpsubsw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xe9,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.sse2.psubs.w(<8 x i16> %a0, <8 x i16> %a1) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res
	}
	declare <8 x i16> @llvm.x86.sse2.psubs.w(<8 x i16>, <8 x i16>) nounwind readnone


	define <16 x i8> @test_x86_sse2_psubus_b(<16 x i8> %a0, <16 x i8> %a1) {
	; SSE-LABEL: test_x86_sse2_psubus_b:
	; SSE: ## %bb.0:
	; SSE-NEXT: psubusb %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xd8,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_psubus_b:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpsubusb %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xd8,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_psubus_b:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpsubusb %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd8,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <16 x i8> @llvm.x86.sse2.psubus.b(<16 x i8> %a0, <16 x i8> %a1) ; <<16 x i8>> [#uses=1]
	ret <16 x i8> %res
	}
	declare <16 x i8> @llvm.x86.sse2.psubus.b(<16 x i8>, <16 x i8>) nounwind readnone


	define <8 x i16> @test_x86_sse2_psubus_w(<8 x i16> %a0, <8 x i16> %a1) {
	; SSE-LABEL: test_x86_sse2_psubus_w:
	; SSE: ## %bb.0:
	; SSE-NEXT: psubusw %xmm1, %xmm0 ## encoding: [0x66,0x0f,0xd9,0xc1]
	; SSE-NEXT: retl ## encoding: [0xc3]
	;
	; AVX2-LABEL: test_x86_sse2_psubus_w:
	; AVX2: ## %bb.0:
	; AVX2-NEXT: vpsubusw %xmm1, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xd9,0xc1]
	; AVX2-NEXT: retl ## encoding: [0xc3]
	;
	; SKX-LABEL: test_x86_sse2_psubus_w:
	; SKX: ## %bb.0:
	; SKX-NEXT: vpsubusw %xmm1, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xd9,0xc1]
	; SKX-NEXT: retl ## encoding: [0xc3]
	%res = call <8 x i16> @llvm.x86.sse2.psubus.w(<8 x i16> %a0, <8 x i16> %a1) ; <<8 x i16>> [#uses=1]
	ret <8 x i16> %res
	}
	declare <8 x i16> @llvm.x86.sse2.psubus.w(<8 x i16>, <8 x i16>) nounwind readnone


	define <2 x double> @test_x86_sse2_sqrt_pd(<2 x double> %a0) {			define <2 x double> @test_x86_sse2_sqrt_pd(<2 x double> %a0) {
	; SSE-LABEL: test_x86_sse2_sqrt_pd:			; SSE-LABEL: test_x86_sse2_sqrt_pd:
	; SSE: ## %bb.0:			; SSE: ## %bb.0:
	; SSE-NEXT: sqrtpd %xmm0, %xmm0 ## encoding: [0x66,0x0f,0x51,0xc0]			; SSE-NEXT: sqrtpd %xmm0, %xmm0 ## encoding: [0x66,0x0f,0x51,0xc0]
	; SSE-NEXT: retl ## encoding: [0xc3]			; SSE-NEXT: retl ## encoding: [0xc3]
	;			;
	; AVX2-LABEL: test_x86_sse2_sqrt_pd:			; AVX2-LABEL: test_x86_sse2_sqrt_pd:
	; AVX2: ## %bb.0:			; AVX2: ## %bb.0:
	▲ Show 20 Lines • Show All 274 Lines • Show Last 20 Lines

test/CodeGen/X86/sse2-schedule.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 7,116 Lines • ▼ Show 20 Lines
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8> %a0, <16 x i8> %a1)			%1 = call <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8> %a0, <16 x i8> %a1)
	%2 = load <16 x i8>, <16 x i8> *%a2, align 16			%2 = load <16 x i8>, <16 x i8> *%a2, align 16
	%3 = call <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8> %1, <16 x i8> %2)			%3 = call <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8> %1, <16 x i8> %2)
	ret <16 x i8> %3			ret <16 x i8> %3
	}			}
	declare <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8>, <16 x i8>) nounwind readnone			declare <16 x i8> @llvm.x86.sse2.padds.b(<16 x i8>, <16 x i8>) nounwind readnone


	define <8 x i16> @test_paddsw(<8 x i16> %a0, <8 x i16> %a1, <8 x i16> *%a2) {			define <8 x i16> @test_paddsw(<8 x i16> %a0, <8 x i16> %a1, <8 x i16> *%a2) {
	; GENERIC-LABEL: test_paddsw:			; GENERIC-LABEL: test_paddsw:
	; GENERIC: # %bb.0:			; GENERIC: # %bb.0:
	; GENERIC-NEXT: paddsw %xmm1, %xmm0 # sched: [1:0.50]			; GENERIC-NEXT: paddsw %xmm1, %xmm0 # sched: [1:0.50]
	; GENERIC-NEXT: paddsw (%rdi), %xmm0 # sched: [7:0.50]			; GENERIC-NEXT: paddsw (%rdi), %xmm0 # sched: [7:0.50]
	; GENERIC-NEXT: retq # sched: [1:1.00]			; GENERIC-NEXT: retq # sched: [1:1.00]
	;			;
	; ATOM-LABEL: test_paddsw:			; ATOM-LABEL: test_paddsw:
	▲ Show 20 Lines • Show All 90 Lines • ▼ Show 20 Lines
	; ZNVER1-SSE-NEXT: paddsw (%rdi), %xmm0 # sched: [8:0.50]			; ZNVER1-SSE-NEXT: paddsw (%rdi), %xmm0 # sched: [8:0.50]
	; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]			; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]
	;			;
	; ZNVER1-LABEL: test_paddsw:			; ZNVER1-LABEL: test_paddsw:
	; ZNVER1: # %bb.0:			; ZNVER1: # %bb.0:
	; ZNVER1-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 # sched: [1:0.25]			; ZNVER1-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vpaddsw (%rdi), %xmm0, %xmm0 # sched: [8:0.50]			; ZNVER1-NEXT: vpaddsw (%rdi), %xmm0, %xmm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <8 x i16> @llvm.x86.sse2.padds.w(<8 x i16> %a0, <8 x i16> %a1)			%1 = sext <8 x i16> %a0 to <8 x i32>
	%2 = load <8 x i16>, <8 x i16> *%a2, align 16			%2 = sext <8 x i16> %a1 to <8 x i32>
	%3 = call <8 x i16> @llvm.x86.sse2.padds.w(<8 x i16> %1, <8 x i16> %2)			%3 = add nsw <8 x i32> %1, %2
	ret <8 x i16> %3			%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%9 = load <8 x i16>, <8 x i16> *%a2, align 16
				%10 = sext <8 x i16> %8 to <8 x i32>
				%11 = sext <8 x i16> %9 to <8 x i32>
				%12 = add nsw <8 x i32> %10, %11
				%13 = icmp slt <8 x i32> %12, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%14 = select <8 x i1> %13, <8 x i32> %12, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%15 = icmp sgt <8 x i32> %14, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%16 = select <8 x i1> %15, <8 x i32> %14, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%17 = trunc <8 x i32> %16 to <8 x i16>
				ret <8 x i16> %17
	}			}
	declare <8 x i16> @llvm.x86.sse2.padds.w(<8 x i16>, <8 x i16>) nounwind readnone

	define <16 x i8> @test_paddusb(<16 x i8> %a0, <16 x i8> %a1, <16 x i8> *%a2) {			define <16 x i8> @test_paddusb(<16 x i8> %a0, <16 x i8> %a1, <16 x i8> *%a2) {
	; GENERIC-LABEL: test_paddusb:			; GENERIC-LABEL: test_paddusb:
	; GENERIC: # %bb.0:			; GENERIC: # %bb.0:
	; GENERIC-NEXT: paddusb %xmm1, %xmm0 # sched: [1:0.50]			; GENERIC-NEXT: paddusb %xmm1, %xmm0 # sched: [1:0.50]
	; GENERIC-NEXT: paddusb (%rdi), %xmm0 # sched: [7:0.50]			; GENERIC-NEXT: paddusb (%rdi), %xmm0 # sched: [7:0.50]
	; GENERIC-NEXT: retq # sched: [1:1.00]			; GENERIC-NEXT: retq # sched: [1:1.00]
	;			;
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; ZNVER1-SSE-NEXT: paddusb (%rdi), %xmm0 # sched: [8:0.50]			; ZNVER1-SSE-NEXT: paddusb (%rdi), %xmm0 # sched: [8:0.50]
	; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]			; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]
	;			;
	; ZNVER1-LABEL: test_paddusb:			; ZNVER1-LABEL: test_paddusb:
	; ZNVER1: # %bb.0:			; ZNVER1: # %bb.0:
	; ZNVER1-NEXT: vpaddusb %xmm1, %xmm0, %xmm0 # sched: [1:0.25]			; ZNVER1-NEXT: vpaddusb %xmm1, %xmm0, %xmm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vpaddusb (%rdi), %xmm0, %xmm0 # sched: [8:0.50]			; ZNVER1-NEXT: vpaddusb (%rdi), %xmm0, %xmm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <16 x i8> @llvm.x86.sse2.paddus.b(<16 x i8> %a0, <16 x i8> %a1)			%1 = zext <16 x i8> %a0 to <16 x i16>
	%2 = load <16 x i8>, <16 x i8> *%a2, align 16			%2 = zext <16 x i8> %a1 to <16 x i16>
	%3 = call <16 x i8> @llvm.x86.sse2.paddus.b(<16 x i8> %1, <16 x i8> %2)			%3 = add nsw <16 x i16> %1, %2
	ret <16 x i8> %3			%4 = icmp ult <16 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <16 x i16> %5 to <16 x i8>
				%7 = load <16 x i8>, <16 x i8> *%a2, align 16
				%8 = zext <16 x i8> %6 to <16 x i16>
				%9 = zext <16 x i8> %7 to <16 x i16>
				%10 = add nsw <16 x i16> %8, %9
				%11 = icmp ult <16 x i16> %10, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%12 = select <16 x i1> %11, <16 x i16> %10, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%13 = trunc <16 x i16> %12 to <16 x i8>
				ret <16 x i8> %13
	}			}
	declare <16 x i8> @llvm.x86.sse2.paddus.b(<16 x i8>, <16 x i8>) nounwind readnone

	define <8 x i16> @test_paddusw(<8 x i16> %a0, <8 x i16> %a1, <8 x i16> *%a2) {			define <8 x i16> @test_paddusw(<8 x i16> %a0, <8 x i16> %a1, <8 x i16> *%a2) {
	; GENERIC-LABEL: test_paddusw:			; GENERIC-LABEL: test_paddusw:
	; GENERIC: # %bb.0:			; GENERIC: # %bb.0:
	; GENERIC-NEXT: paddusw %xmm1, %xmm0 # sched: [1:0.50]			; GENERIC-NEXT: paddusw %xmm1, %xmm0 # sched: [1:0.50]
	; GENERIC-NEXT: paddusw (%rdi), %xmm0 # sched: [7:0.50]			; GENERIC-NEXT: paddusw (%rdi), %xmm0 # sched: [7:0.50]
	; GENERIC-NEXT: retq # sched: [1:1.00]			; GENERIC-NEXT: retq # sched: [1:1.00]
	;			;
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; ZNVER1-SSE-NEXT: paddusw (%rdi), %xmm0 # sched: [8:0.50]			; ZNVER1-SSE-NEXT: paddusw (%rdi), %xmm0 # sched: [8:0.50]
	; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]			; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]
	;			;
	; ZNVER1-LABEL: test_paddusw:			; ZNVER1-LABEL: test_paddusw:
	; ZNVER1: # %bb.0:			; ZNVER1: # %bb.0:
	; ZNVER1-NEXT: vpaddusw %xmm1, %xmm0, %xmm0 # sched: [1:0.25]			; ZNVER1-NEXT: vpaddusw %xmm1, %xmm0, %xmm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vpaddusw (%rdi), %xmm0, %xmm0 # sched: [8:0.50]			; ZNVER1-NEXT: vpaddusw (%rdi), %xmm0, %xmm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <8 x i16> @llvm.x86.sse2.paddus.w(<8 x i16> %a0, <8 x i16> %a1)			%1 = zext <8 x i16> %a0 to <8 x i32>
	%2 = load <8 x i16>, <8 x i16> *%a2, align 16			%2 = zext <8 x i16> %a1 to <8 x i32>
	%3 = call <8 x i16> @llvm.x86.sse2.paddus.w(<8 x i16> %1, <8 x i16> %2)			%3 = add nsw <8 x i32> %1, %2
	ret <8 x i16> %3			%4 = icmp ult <8 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <8 x i32> %5 to <8 x i16>
				%7 = load <8 x i16>, <8 x i16> *%a2, align 16
				%8 = zext <8 x i16> %6 to <8 x i32>
				%9 = zext <8 x i16> %7 to <8 x i32>
				%10 = add nsw <8 x i32> %8, %9
				%11 = icmp ult <8 x i32> %10, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%12 = select <8 x i1> %11, <8 x i32> %10, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%13 = trunc <8 x i32> %12 to <8 x i16>
				ret <8 x i16> %13
	}			}
	declare <8 x i16> @llvm.x86.sse2.paddus.w(<8 x i16>, <8 x i16>) nounwind readnone

	define <8 x i16> @test_paddw(<8 x i16> %a0, <8 x i16> %a1, <8 x i16> *%a2) {			define <8 x i16> @test_paddw(<8 x i16> %a0, <8 x i16> %a1, <8 x i16> *%a2) {
	; GENERIC-LABEL: test_paddw:			; GENERIC-LABEL: test_paddw:
	; GENERIC: # %bb.0:			; GENERIC: # %bb.0:
	; GENERIC-NEXT: paddw %xmm1, %xmm0 # sched: [1:0.50]			; GENERIC-NEXT: paddw %xmm1, %xmm0 # sched: [1:0.50]
	; GENERIC-NEXT: paddw (%rdi), %xmm0 # sched: [7:0.50]			; GENERIC-NEXT: paddw (%rdi), %xmm0 # sched: [7:0.50]
	; GENERIC-NEXT: retq # sched: [1:1.00]			; GENERIC-NEXT: retq # sched: [1:1.00]
	;			;
	▲ Show 20 Lines • Show All 5,109 Lines • ▼ Show 20 Lines
	; ZNVER1-SSE-NEXT: psubsw (%rdi), %xmm0 # sched: [8:0.50]			; ZNVER1-SSE-NEXT: psubsw (%rdi), %xmm0 # sched: [8:0.50]
	; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]			; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]
	;			;
	; ZNVER1-LABEL: test_psubsw:			; ZNVER1-LABEL: test_psubsw:
	; ZNVER1: # %bb.0:			; ZNVER1: # %bb.0:
	; ZNVER1-NEXT: vpsubsw %xmm1, %xmm0, %xmm0 # sched: [1:0.25]			; ZNVER1-NEXT: vpsubsw %xmm1, %xmm0, %xmm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vpsubsw (%rdi), %xmm0, %xmm0 # sched: [8:0.50]			; ZNVER1-NEXT: vpsubsw (%rdi), %xmm0, %xmm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <8 x i16> @llvm.x86.sse2.psubs.w(<8 x i16> %a0, <8 x i16> %a1)			%1 = sext <8 x i16> %a0 to <8 x i32>
	%2 = load <8 x i16>, <8 x i16> *%a2, align 16			%2 = sext <8 x i16> %a1 to <8 x i32>
	%3 = call <8 x i16> @llvm.x86.sse2.psubs.w(<8 x i16> %1, <8 x i16> %2)			%3 = sub nsw <8 x i32> %1, %2
	ret <8 x i16> %3			%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%9 = load <8 x i16>, <8 x i16> *%a2, align 16
				%10 = sext <8 x i16> %8 to <8 x i32>
				%11 = sext <8 x i16> %9 to <8 x i32>
				%12 = sub nsw <8 x i32> %10, %11
				%13 = icmp slt <8 x i32> %12, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%14 = select <8 x i1> %13, <8 x i32> %12, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%15 = icmp sgt <8 x i32> %14, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%16 = select <8 x i1> %15, <8 x i32> %14, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%17 = trunc <8 x i32> %16 to <8 x i16>
				ret <8 x i16> %17
	}			}
	declare <8 x i16> @llvm.x86.sse2.psubs.w(<8 x i16>, <8 x i16>) nounwind readnone

	define <16 x i8> @test_psubusb(<16 x i8> %a0, <16 x i8> %a1, <16 x i8> *%a2) {			define <16 x i8> @test_psubusb(<16 x i8> %a0, <16 x i8> %a1, <16 x i8> *%a2) {
	; GENERIC-LABEL: test_psubusb:			; GENERIC-LABEL: test_psubusb:
	; GENERIC: # %bb.0:			; GENERIC: # %bb.0:
	; GENERIC-NEXT: psubusb %xmm1, %xmm0 # sched: [1:0.50]			; GENERIC-NEXT: psubusb %xmm1, %xmm0 # sched: [1:0.50]
	; GENERIC-NEXT: psubusb (%rdi), %xmm0 # sched: [7:0.50]			; GENERIC-NEXT: psubusb (%rdi), %xmm0 # sched: [7:0.50]
	; GENERIC-NEXT: retq # sched: [1:1.00]			; GENERIC-NEXT: retq # sched: [1:1.00]
	;			;
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; ZNVER1-SSE-NEXT: psubusb (%rdi), %xmm0 # sched: [8:0.50]			; ZNVER1-SSE-NEXT: psubusb (%rdi), %xmm0 # sched: [8:0.50]
	; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]			; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]
	;			;
	; ZNVER1-LABEL: test_psubusb:			; ZNVER1-LABEL: test_psubusb:
	; ZNVER1: # %bb.0:			; ZNVER1: # %bb.0:
	; ZNVER1-NEXT: vpsubusb %xmm1, %xmm0, %xmm0 # sched: [1:0.25]			; ZNVER1-NEXT: vpsubusb %xmm1, %xmm0, %xmm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vpsubusb (%rdi), %xmm0, %xmm0 # sched: [8:0.50]			; ZNVER1-NEXT: vpsubusb (%rdi), %xmm0, %xmm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <16 x i8> @llvm.x86.sse2.psubus.b(<16 x i8> %a0, <16 x i8> %a1)			%1 = icmp ugt <16 x i8> %a0, %a1
	%2 = load <16 x i8>, <16 x i8> *%a2, align 16			%2 = select <16 x i1> %1, <16 x i8> %a0, <16 x i8> %a1
	%3 = call <16 x i8> @llvm.x86.sse2.psubus.b(<16 x i8> %1, <16 x i8> %2)			%3 = sub <16 x i8> %2, %a1
	ret <16 x i8> %3			%4 = load <16 x i8>, <16 x i8> *%a2, align 16
				%5 = icmp ugt <16 x i8> %3, %4
				%6 = select <16 x i1> %5, <16 x i8> %3, <16 x i8> %4
				%7 = sub <16 x i8> %6, %4
				ret <16 x i8> %7
	}			}
	declare <16 x i8> @llvm.x86.sse2.psubus.b(<16 x i8>, <16 x i8>) nounwind readnone

	define <8 x i16> @test_psubusw(<8 x i16> %a0, <8 x i16> %a1, <8 x i16> *%a2) {			define <8 x i16> @test_psubusw(<8 x i16> %a0, <8 x i16> %a1, <8 x i16> *%a2) {
	; GENERIC-LABEL: test_psubusw:			; GENERIC-LABEL: test_psubusw:
	; GENERIC: # %bb.0:			; GENERIC: # %bb.0:
	; GENERIC-NEXT: psubusw %xmm1, %xmm0 # sched: [1:0.50]			; GENERIC-NEXT: psubusw %xmm1, %xmm0 # sched: [1:0.50]
	; GENERIC-NEXT: psubusw (%rdi), %xmm0 # sched: [7:0.50]			; GENERIC-NEXT: psubusw (%rdi), %xmm0 # sched: [7:0.50]
	; GENERIC-NEXT: retq # sched: [1:1.00]			; GENERIC-NEXT: retq # sched: [1:1.00]
	;			;
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; ZNVER1-SSE-NEXT: psubusw (%rdi), %xmm0 # sched: [8:0.50]			; ZNVER1-SSE-NEXT: psubusw (%rdi), %xmm0 # sched: [8:0.50]
	; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]			; ZNVER1-SSE-NEXT: retq # sched: [1:0.50]
	;			;
	; ZNVER1-LABEL: test_psubusw:			; ZNVER1-LABEL: test_psubusw:
	; ZNVER1: # %bb.0:			; ZNVER1: # %bb.0:
	; ZNVER1-NEXT: vpsubusw %xmm1, %xmm0, %xmm0 # sched: [1:0.25]			; ZNVER1-NEXT: vpsubusw %xmm1, %xmm0, %xmm0 # sched: [1:0.25]
	; ZNVER1-NEXT: vpsubusw (%rdi), %xmm0, %xmm0 # sched: [8:0.50]			; ZNVER1-NEXT: vpsubusw (%rdi), %xmm0, %xmm0 # sched: [8:0.50]
	; ZNVER1-NEXT: retq # sched: [1:0.50]			; ZNVER1-NEXT: retq # sched: [1:0.50]
	%1 = call <8 x i16> @llvm.x86.sse2.psubus.w(<8 x i16> %a0, <8 x i16> %a1)			%1 = icmp ugt <8 x i16> %a0, %a1
	%2 = load <8 x i16>, <8 x i16> *%a2, align 16			%2 = select <8 x i1> %1, <8 x i16> %a0, <8 x i16> %a1
	%3 = call <8 x i16> @llvm.x86.sse2.psubus.w(<8 x i16> %1, <8 x i16> %2)			%3 = sub <8 x i16> %2, %a1
	ret <8 x i16> %3			%4 = load <8 x i16>, <8 x i16> *%a2, align 16
				%5 = icmp ugt <8 x i16> %3, %4
				%6 = select <8 x i1> %5, <8 x i16> %3, <8 x i16> %4
				%7 = sub <8 x i16> %6, %4
				ret <8 x i16> %7
	}			}
	declare <8 x i16> @llvm.x86.sse2.psubus.w(<8 x i16>, <8 x i16>) nounwind readnone

	define <8 x i16> @test_psubw(<8 x i16> %a0, <8 x i16> %a1, <8 x i16> *%a2) {			define <8 x i16> @test_psubw(<8 x i16> %a0, <8 x i16> %a1, <8 x i16> *%a2) {
	; GENERIC-LABEL: test_psubw:			; GENERIC-LABEL: test_psubw:
	; GENERIC: # %bb.0:			; GENERIC: # %bb.0:
	; GENERIC-NEXT: psubw %xmm1, %xmm0 # sched: [1:0.50]			; GENERIC-NEXT: psubw %xmm1, %xmm0 # sched: [1:0.50]
	; GENERIC-NEXT: psubw (%rdi), %xmm0 # sched: [7:0.50]			; GENERIC-NEXT: psubw (%rdi), %xmm0 # sched: [7:0.50]
	; GENERIC-NEXT: retq # sched: [1:1.00]			; GENERIC-NEXT: retq # sched: [1:1.00]
	;			;
	▲ Show 20 Lines • Show All 2,452 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-arith-sat.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=avx2 \| FileCheck %s --check-prefix=AVX2 --check-prefix=X86 --check-prefix=X86-AVX
				; RUN: llc < %s -mtriple=i686-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq -show-mc-encoding \| FileCheck %s --check-prefix=AVX512VL --check-prefix=X86 --check-prefix=X86-AVX512VL
				; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=avx2 \| FileCheck %s --check-prefix=AVX2 --check-prefix=X64 --check-prefix=X64-AVX
				; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512bw,+avx512vl,+avx512dq -show-mc-encoding \| FileCheck %s --check-prefix=AVX512VL --check-prefix=X64 --check-prefix=X64-AVX512VL
				; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512BW
				; RUN: llc < %s -mtriple=i386-unknown-linux-gnu -mcpu=knl -mattr=+avx512bw \| FileCheck %s --check-prefix=ALL --check-prefix=AVX512F-32
				; RUN: llc < %s -mtriple=x86_64-apple-darwin -mcpu=knl -mattr=+avx512bw -mattr=+avx512vl --show-mc-encoding \| FileCheck %s
				; RUN: llc < %s -disable-peephole -mtriple=i386-apple-darwin -mattr=-avx,+sse2 \| FileCheck %s --check-prefix=SSE

				define <32 x i8> @test_x86_avx2_padds_b(<32 x i8> %a0, <32 x i8> %a1) {
				craig.topperUnsubmitted Done Reply Inline Actions Add a blank line here. craig.topper: Add a blank line here.
				; AVX2-LABEL: test_x86_avx2_padds_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddsb %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_padds_b:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpaddsb %ymm1, %ymm0, %ymm0
				; AVX512VL-NEXT: ret{{[l\|q]}}
				%1 = sext <32 x i8> %a0 to <32 x i16>
				%2 = sext <32 x i8> %a1 to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				ret <32 x i8> %8
				}


				define <16 x i16> @test_x86_avx2_padds_w(<16 x i16> %a0, <16 x i16> %a1) {
				; AVX2-LABEL: test_x86_avx2_padds_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddsw %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_padds_w:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpaddsw %ymm1, %ymm0, %ymm0
				; AVX512VL-NEXT: ret{{[l\|q]}}
				%1 = sext <16 x i16> %a0 to <16 x i32>
				%2 = sext <16 x i16> %a1 to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				ret <16 x i16> %8
				}


				define <32 x i16> @test_mask_adds_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {
				; X86-AVX-LABEL: test_mask_adds_epi16_rr_512:
				; X86-AVX: ## %bb.0:
				; X86-AVX-NEXT: vpaddsw %ymm2, %ymm0, %ymm0
				; X86-AVX-NEXT: vpaddsw %ymm3, %ymm1, %ymm1
				; X86-AVX-NEXT: retl
				;
				; X86-AVX512VL-LABEL: test_mask_adds_epi16_rr_512:
				; X86-AVX512VL: ## %bb.0:
				; X86-AVX512VL-NEXT: vpaddsw %zmm1, %zmm0, %zmm0
				; X86-AVX512VL-NEXT: retl
				;
				; X64-AVX-LABEL: test_mask_adds_epi16_rr_512:
				; X64-AVX: ## %bb.0:
				; X64-AVX-NEXT: vpaddsw %ymm2, %ymm0, %ymm0
				; X64-AVX-NEXT: vpaddsw %ymm3, %ymm1, %ymm1
				; X64-AVX-NEXT: retq
				;
				; X64-AVX512VL-LABEL: test_mask_adds_epi16_rr_512:
				; X64-AVX512VL: ## %bb.0:
				; X64-AVX512VL-NEXT: vpaddsw %zmm1, %zmm0, %zmm0
				; X64-AVX512VL-NEXT: retq
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				ret <32 x i16> %8
				}


				define <32 x i8> @test_x86_avx2_paddus_b(<32 x i8> %a0, <32 x i8> %a1) {
				; AVX2-LABEL: test_x86_avx2_paddus_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddusb %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_paddus_b:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpaddusb %ymm1, %ymm0, %ymm0
				; AVX512VL-NEXT: ret{{[l\|q]}}
				%1 = zext <32 x i8> %a0 to <32 x i16>
				%2 = zext <32 x i8> %a1 to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp ult <32 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <32 x i16> %5 to <32 x i8>
				ret <32 x i8> %6
				}


				define <16 x i16> @test_x86_avx2_paddus_w(<16 x i16> %a0, <16 x i16> %a1) {
				; AVX2-LABEL: test_x86_avx2_paddus_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpaddusw %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_paddus_w:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpaddusw %ymm1, %ymm0, %ymm0
				; AVX512VL-NEXT: ret{{[l\|q]}}
				%1 = zext <16 x i16> %a0 to <16 x i32>
				%2 = zext <16 x i16> %a1 to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp ult <16 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <16 x i32> %5 to <16 x i16>
				ret <16 x i16> %6
				}


				define <32 x i16> @test_mask_adds_epu16_rr_512(<32 x i16> %a, <32 x i16> %b) {
				; X86-AVX-LABEL: test_mask_adds_epu16_rr_512:
				; X86-AVX: ## %bb.0:
				; X86-AVX-NEXT: vpaddusw %ymm2, %ymm0, %ymm0
				; X86-AVX-NEXT: vpaddusw %ymm3, %ymm1, %ymm1
				; X86-AVX-NEXT: retl
				;
				; X86-AVX512VL-LABEL: test_mask_adds_epu16_rr_512:
				; X86-AVX512VL: ## %bb.0:
				; X86-AVX512VL-NEXT: vpaddusw %zmm1, %zmm0, %zmm0
				; X86-AVX512VL-NEXT: retl
				;
				; X64-AVX-LABEL: test_mask_adds_epu16_rr_512:
				; X64-AVX: ## %bb.0:
				; X64-AVX-NEXT: vpaddusw %ymm2, %ymm0, %ymm0
				; X64-AVX-NEXT: vpaddusw %ymm3, %ymm1, %ymm1
				; X64-AVX-NEXT: retq
				;
				; X64-AVX512VL-LABEL: test_mask_adds_epu16_rr_512:
				; X64-AVX512VL: ## %bb.0:
				; X64-AVX512VL-NEXT: vpaddusw %zmm1, %zmm0, %zmm0
				; X64-AVX512VL-NEXT: retq
				%1 = zext <32 x i16> %a to <32 x i32>
				%2 = zext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp ult <32 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <32 x i32> %5 to <32 x i16>
				ret <32 x i16> %6
				}

				define <32 x i8> @test_x86_avx2_psubs_b(<32 x i8> %a0, <32 x i8> %a1) {
				; AVX2-LABEL: test_x86_avx2_psubs_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubsb %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_psubs_b:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpsubsb %ymm1, %ymm0, %ymm0
				; AVX512VL-NEXT: ret{{[l\|q]}}
				%1 = sext <32 x i8> %a0 to <32 x i16>
				%2 = sext <32 x i8> %a1 to <32 x i16>
				%3 = sub nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				ret <32 x i8> %8
				}


				define <16 x i16> @test_x86_avx2_psubs_w(<16 x i16> %a0, <16 x i16> %a1) {
				; AVX2-LABEL: test_x86_avx2_psubs_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubsw %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_psubs_w:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpsubsw %ymm1, %ymm0, %ymm0
				; AVX512VL-NEXT: ret{{[l\|q]}}
				%1 = sext <16 x i16> %a0 to <16 x i32>
				%2 = sext <16 x i16> %a1 to <16 x i32>
				%3 = sub nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				ret <16 x i16> %8
				}


				define <32 x i16> @test_mask_subs_epi16_rr_512(<32 x i16> %a, <32 x i16> %b) {
				; X86-AVX-LABEL: test_mask_subs_epi16_rr_512:
				; X86-AVX: ## %bb.0:
				; X86-AVX-NEXT: vpsubsw %ymm2, %ymm0, %ymm0
				; X86-AVX-NEXT: vpsubsw %ymm3, %ymm1, %ymm1
				; X86-AVX-NEXT: retl
				;
				; X86-AVX512VL-LABEL: test_mask_subs_epi16_rr_512:
				; X86-AVX512VL: ## %bb.0:
				; X86-AVX512VL-NEXT: vpsubsw %zmm1, %zmm0, %zmm0
				; X86-AVX512VL-NEXT: retl
				;
				; X64-AVX-LABEL: test_mask_subs_epi16_rr_512:
				; X64-AVX: ## %bb.0:
				; X64-AVX-NEXT: vpsubsw %ymm2, %ymm0, %ymm0
				; X64-AVX-NEXT: vpsubsw %ymm3, %ymm1, %ymm1
				; X64-AVX-NEXT: retq
				;
				; X64-AVX512VL-LABEL: test_mask_subs_epi16_rr_512:
				; X64-AVX512VL: ## %bb.0:
				; X64-AVX512VL-NEXT: vpsubsw %zmm1, %zmm0, %zmm0
				; X64-AVX512VL-NEXT: retq
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = sub nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				ret <32 x i16> %8
				}


				define <32 x i8> @test_x86_avx2_psubus_b(<32 x i8> %a0, <32 x i8> %a1) {
				; AVX2-LABEL: test_x86_avx2_psubus_b:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubusb %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_psubus_b:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpsubusb %ymm1, %ymm0, %ymm0
				; AVX512VL-NEXT: ret{{[l\|q]}}
				%cmp = icmp ugt <32 x i8> %a0, %a1
				%sel = select <32 x i1> %cmp, <32 x i8> %a0, <32 x i8> %a1
				%sub = sub <32 x i8> %sel, %a1
				ret <32 x i8> %sub
				}


				define <16 x i16> @test_x86_avx2_psubus_w(<16 x i16> %a0, <16 x i16> %a1) {
				; AVX2-LABEL: test_x86_avx2_psubus_w:
				; AVX2: ## %bb.0:
				; AVX2-NEXT: vpsubusw %ymm1, %ymm0, %ymm0
				; AVX2-NEXT: ret{{[l\|q]}}
				;
				; AVX512VL-LABEL: test_x86_avx2_psubus_w:
				; AVX512VL: ## %bb.0:
				; AVX512VL-NEXT: vpsubusw %ymm1, %ymm0, %ymm0
				; AVX512VL-NEXT: ret{{[l\|q]}}
				%cmp = icmp ugt <16 x i16> %a0, %a1
				%sel = select <16 x i1> %cmp, <16 x i16> %a0, <16 x i16> %a1
				%sub = sub <16 x i16> %sel, %a1
				ret <16 x i16> %sub
				}


				define <32 x i16> @test_mask_subs_epu16_rr_512(<32 x i16> %a, <32 x i16> %b) {
				; X86-AVX-LABEL: test_mask_subs_epu16_rr_512:
				; X86-AVX: ## %bb.0:
				; X86-AVX-NEXT: vpsubusw %ymm2, %ymm0, %ymm0
				; X86-AVX-NEXT: vpsubusw %ymm3, %ymm1, %ymm1
				; X86-AVX-NEXT: retl
				;
				; X86-AVX512VL-LABEL: test_mask_subs_epu16_rr_512:
				; X86-AVX512VL: ## %bb.0:
				; X86-AVX512VL-NEXT: vpsubusw %zmm1, %zmm0, %zmm0
				; X86-AVX512VL-NEXT: retl
				;
				; X64-AVX-LABEL: test_mask_subs_epu16_rr_512:
				; X64-AVX: ## %bb.0:
				; X64-AVX-NEXT: vpsubusw %ymm2, %ymm0, %ymm0
				; X64-AVX-NEXT: vpsubusw %ymm3, %ymm1, %ymm1
				; X64-AVX-NEXT: retq
				;
				; X64-AVX512VL-LABEL: test_mask_subs_epu16_rr_512:
				; X64-AVX512VL: ## %bb.0:
				; X64-AVX512VL-NEXT: vpsubusw %zmm1, %zmm0, %zmm0
				; X64-AVX512VL-NEXT: retq
				%cmp = icmp ugt <32 x i16> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i16> %a, <32 x i16> %b
				%sub = sub <32 x i16> %sel, %b
				ret <32 x i16> %sub
				}

				define <32 x i16> @test_mask_adds_epi16_rr_512_avx512(<32 x i16> %a, <32 x i16> %b) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rr_512_avx512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpaddsw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rr_512_avx512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpaddsw %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				ret <32 x i16> %8
				}

				define <32 x i16> @test_mask_adds_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpaddsw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddsw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i16> %8, <32 x i16> %passThru
				ret <32 x i16> %10
				}

				define <32 x i16> @test_mask_adds_epi16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpaddsw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddsw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i16> %8, <32 x i16> zeroinitializer
				ret <32 x i16> %10
				}

				define <32 x i16> @test_mask_adds_epi16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpaddsw (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpaddsw (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				ret <32 x i16> %8
				}

				define <32 x i16> @test_mask_adds_epi16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpaddsw (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddsw (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i16> %8, <32 x i16> %passThru
				ret <32 x i16> %10
				}

				define <32 x i16> @test_mask_adds_epi16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpaddsw (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddsw (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i16> %8, <32 x i16> zeroinitializer
				ret <32 x i16> %10
				}

				define <64 x i16> @test_mask_adds_epi16_rr_1024(<64 x i16> %a, <64 x i16> %b) {
				; AVX512BW-LABEL: test_mask_adds_epi16_rr_1024:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpaddsw %zmm2, %zmm0, %zmm0
				; AVX512BW-NEXT: vpaddsw %zmm3, %zmm1, %zmm1
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epi16_rr_1024:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: pushl %ebp
				; AVX512F-32-NEXT: .cfi_def_cfa_offset 8
				; AVX512F-32-NEXT: .cfi_offset %ebp, -8
				; AVX512F-32-NEXT: movl %esp, %ebp
				; AVX512F-32-NEXT: .cfi_def_cfa_register %ebp
				; AVX512F-32-NEXT: andl $-64, %esp
				; AVX512F-32-NEXT: subl $64, %esp
				; AVX512F-32-NEXT: vpaddsw %zmm2, %zmm0, %zmm0
				; AVX512F-32-NEXT: vpaddsw 8(%ebp), %zmm1, %zmm1
				; AVX512F-32-NEXT: movl %ebp, %esp
				; AVX512F-32-NEXT: popl %ebp
				; AVX512F-32-NEXT: retl
				%1 = sext <64 x i16> %a to <64 x i32>
				%2 = sext <64 x i16> %b to <64 x i32>
				%3 = add nsw <64 x i32> %1, %2
				%4 = icmp slt <64 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <64 x i1> %4, <64 x i32> %3, <64 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <64 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <64 x i1> %6, <64 x i32> %5, <64 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <64 x i32> %7 to <64 x i16>
				ret <64 x i16> %8
				}

				define <32 x i16> @test_mask_subs_epi16_rr_512_avx512(<32 x i16> %a, <32 x i16> %b) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rr_512_avx512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsubsw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rr_512_avx512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpsubsw %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = sub nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				ret <32 x i16> %8
				}

				define <32 x i16> @test_mask_subs_epi16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpsubsw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubsw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = sub nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i16> %8, <32 x i16> %passThru
				ret <32 x i16> %10
				}

				define <32 x i16> @test_mask_subs_epi16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpsubsw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubsw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = sub nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i16> %8, <32 x i16> zeroinitializer
				ret <32 x i16> %10
				}

				define <32 x i16> @test_mask_subs_epi16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsubsw (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpsubsw (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = sub nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				ret <32 x i16> %8
				}

				define <32 x i16> @test_mask_subs_epi16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpsubsw (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubsw (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = sub nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i16> %8, <32 x i16> %passThru
				ret <32 x i16> %10
				}

				define <32 x i16> @test_mask_subs_epi16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpsubsw (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubsw (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = sext <32 x i16> %a to <32 x i32>
				%2 = sext <32 x i16> %b to <32 x i32>
				%3 = sub nsw <32 x i32> %1, %2
				%4 = icmp slt <32 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <32 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <32 x i1> %6, <32 x i32> %5, <32 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <32 x i32> %7 to <32 x i16>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i16> %8, <32 x i16> zeroinitializer
				ret <32 x i16> %10
				}

				define <64 x i16> @test_mask_subs_epi16_rr_1024(<64 x i16> %a, <64 x i16> %b) {
				; AVX512BW-LABEL: test_mask_subs_epi16_rr_1024:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsubsw %zmm2, %zmm0, %zmm0
				; AVX512BW-NEXT: vpsubsw %zmm3, %zmm1, %zmm1
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epi16_rr_1024:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: pushl %ebp
				; AVX512F-32-NEXT: .cfi_def_cfa_offset 8
				; AVX512F-32-NEXT: .cfi_offset %ebp, -8
				; AVX512F-32-NEXT: movl %esp, %ebp
				; AVX512F-32-NEXT: .cfi_def_cfa_register %ebp
				; AVX512F-32-NEXT: andl $-64, %esp
				; AVX512F-32-NEXT: subl $64, %esp
				; AVX512F-32-NEXT: vpsubsw %zmm2, %zmm0, %zmm0
				; AVX512F-32-NEXT: vpsubsw 8(%ebp), %zmm1, %zmm1
				; AVX512F-32-NEXT: movl %ebp, %esp
				; AVX512F-32-NEXT: popl %ebp
				; AVX512F-32-NEXT: retl
				%1 = sext <64 x i16> %a to <64 x i32>
				%2 = sext <64 x i16> %b to <64 x i32>
				%3 = sub nsw <64 x i32> %1, %2
				%4 = icmp slt <64 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <64 x i1> %4, <64 x i32> %3, <64 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <64 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <64 x i1> %6, <64 x i32> %5, <64 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <64 x i32> %7 to <64 x i16>
				ret <64 x i16> %8
				}

				define <32 x i16> @test_mask_adds_epu16_rr_512_avx512(<32 x i16> %a, <32 x i16> %b) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rr_512_avx512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpaddusw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rr_512_avx512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpaddusw %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = zext <32 x i16> %a to <32 x i32>
				%2 = zext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp ult <32 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <32 x i32> %5 to <32 x i16>
				ret <32 x i16> %6
				}

				define <32 x i16> @test_mask_adds_epu16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpaddusw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddusw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%1 = zext <32 x i16> %a to <32 x i32>
				%2 = zext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp ult <32 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <32 x i32> %5 to <32 x i16>
				%7 = bitcast i32 %mask to <32 x i1>
				%8 = select <32 x i1> %7, <32 x i16> %6, <32 x i16> %passThru
				ret <32 x i16> %8
				}

				define <32 x i16> @test_mask_adds_epu16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpaddusw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddusw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%1 = zext <32 x i16> %a to <32 x i32>
				%2 = zext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp ult <32 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <32 x i32> %5 to <32 x i16>
				%7 = bitcast i32 %mask to <32 x i1>
				%8 = select <32 x i1> %7, <32 x i16> %6, <32 x i16> zeroinitializer
				ret <32 x i16> %8
				}

				define <32 x i16> @test_mask_adds_epu16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpaddusw (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpaddusw (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = zext <32 x i16> %a to <32 x i32>
				%2 = zext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp ult <32 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <32 x i32> %5 to <32 x i16>
				ret <32 x i16> %6
				}

				define <32 x i16> @test_mask_adds_epu16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpaddusw (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddusw (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = zext <32 x i16> %a to <32 x i32>
				%2 = zext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp ult <32 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <32 x i32> %5 to <32 x i16>
				%7 = bitcast i32 %mask to <32 x i1>
				%8 = select <32 x i1> %7, <32 x i16> %6, <32 x i16> %passThru
				ret <32 x i16> %8
				}

				define <32 x i16> @test_mask_adds_epu16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpaddusw (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpaddusw (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%1 = zext <32 x i16> %a to <32 x i32>
				%2 = zext <32 x i16> %b to <32 x i32>
				%3 = add nsw <32 x i32> %1, %2
				%4 = icmp ult <32 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <32 x i1> %4, <32 x i32> %3, <32 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <32 x i32> %5 to <32 x i16>
				%7 = bitcast i32 %mask to <32 x i1>
				%8 = select <32 x i1> %7, <32 x i16> %6, <32 x i16> zeroinitializer
				ret <32 x i16> %8
				}

				define <64 x i16> @test_mask_adds_epu16_rr_1024(<64 x i16> %a, <64 x i16> %b) {
				; AVX512BW-LABEL: test_mask_adds_epu16_rr_1024:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpaddusw %zmm2, %zmm0, %zmm0
				; AVX512BW-NEXT: vpaddusw %zmm3, %zmm1, %zmm1
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_adds_epu16_rr_1024:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: pushl %ebp
				; AVX512F-32-NEXT: .cfi_def_cfa_offset 8
				; AVX512F-32-NEXT: .cfi_offset %ebp, -8
				; AVX512F-32-NEXT: movl %esp, %ebp
				; AVX512F-32-NEXT: .cfi_def_cfa_register %ebp
				; AVX512F-32-NEXT: andl $-64, %esp
				; AVX512F-32-NEXT: subl $64, %esp
				; AVX512F-32-NEXT: vpaddusw %zmm2, %zmm0, %zmm0
				; AVX512F-32-NEXT: vpaddusw 8(%ebp), %zmm1, %zmm1
				; AVX512F-32-NEXT: movl %ebp, %esp
				; AVX512F-32-NEXT: popl %ebp
				; AVX512F-32-NEXT: retl
				%1 = zext <64 x i16> %a to <64 x i32>
				%2 = zext <64 x i16> %b to <64 x i32>
				%3 = add nsw <64 x i32> %1, %2
				%4 = icmp ult <64 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <64 x i1> %4, <64 x i32> %3, <64 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <64 x i32> %5 to <64 x i16>
				ret <64 x i16> %6
				}

				define <32 x i16> @test_mask_subs_epu16_rr_512_avx512(<32 x i16> %a, <32 x i16> %b) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rr_512_avx512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsubusw %zmm1, %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rr_512_avx512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: vpsubusw %zmm1, %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%cmp = icmp ugt <32 x i16> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i16> %a, <32 x i16> %b
				%sub = sub <32 x i16> %sel, %b
				ret <32 x i16> %sub
				}

				define <32 x i16> @test_mask_subs_epu16_rrk_512(<32 x i16> %a, <32 x i16> %b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rrk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpsubusw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rrk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubusw %zmm1, %zmm0, %zmm2 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm2, %zmm0
				; AVX512F-32-NEXT: retl
				%cmp = icmp ugt <32 x i16> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i16> %a, <32 x i16> %b
				%sub = sub <32 x i16> %sel, %b
				%bc = bitcast i32 %mask to <32 x i1>
				%res = select <32 x i1> %bc, <32 x i16> %sub, <32 x i16> %passThru
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epu16_rrkz_512(<32 x i16> %a, <32 x i16> %b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rrkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %edi, %k1
				; AVX512BW-NEXT: vpsubusw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rrkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubusw %zmm1, %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%cmp = icmp ugt <32 x i16> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i16> %a, <32 x i16> %b
				%sub = sub <32 x i16> %sel, %b
				%bc = bitcast i32 %mask to <32 x i1>
				%res = select <32 x i1> %bc, <32 x i16> %sub, <32 x i16> zeroinitializer
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epu16_rm_512(<32 x i16> %a, <32 x i16>* %ptr_b) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rm_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsubusw (%rdi), %zmm0, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rm_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: vpsubusw (%eax), %zmm0, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%cmp = icmp ugt <32 x i16> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i16> %a, <32 x i16> %b
				%sub = sub <32 x i16> %sel, %b
				ret <32 x i16> %sub
				}

				define <32 x i16> @test_mask_subs_epu16_rmk_512(<32 x i16> %a, <32 x i16>* %ptr_b, <32 x i16> %passThru, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rmk_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpsubusw (%rdi), %zmm0, %zmm1 {%k1}
				; AVX512BW-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rmk_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubusw (%eax), %zmm0, %zmm1 {%k1}
				; AVX512F-32-NEXT: vmovdqa64 %zmm1, %zmm0
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%cmp = icmp ugt <32 x i16> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i16> %a, <32 x i16> %b
				%sub = sub <32 x i16> %sel, %b
				%bc = bitcast i32 %mask to <32 x i1>
				%res = select <32 x i1> %bc, <32 x i16> %sub, <32 x i16> %passThru
				ret <32 x i16> %res
				}

				define <32 x i16> @test_mask_subs_epu16_rmkz_512(<32 x i16> %a, <32 x i16>* %ptr_b, i32 %mask) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rmkz_512:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: kmovd %esi, %k1
				; AVX512BW-NEXT: vpsubusw (%rdi), %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rmkz_512:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: movl {{[0-9]+}}(%esp), %eax
				; AVX512F-32-NEXT: kmovd {{[0-9]+}}(%esp), %k1
				; AVX512F-32-NEXT: vpsubusw (%eax), %zmm0, %zmm0 {%k1} {z}
				; AVX512F-32-NEXT: retl
				%b = load <32 x i16>, <32 x i16>* %ptr_b
				%cmp = icmp ugt <32 x i16> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i16> %a, <32 x i16> %b
				%sub = sub <32 x i16> %sel, %b
				%bc = bitcast i32 %mask to <32 x i1>
				%res = select <32 x i1> %bc, <32 x i16> %sub, <32 x i16> zeroinitializer
				ret <32 x i16> %res
				}

				define <64 x i16> @test_mask_subs_epu16_rr_1024(<64 x i16> %a, <64 x i16> %b) {
				; AVX512BW-LABEL: test_mask_subs_epu16_rr_1024:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsubusw %zmm2, %zmm0, %zmm0
				; AVX512BW-NEXT: vpsubusw %zmm3, %zmm1, %zmm1
				; AVX512BW-NEXT: retq
				;
				; AVX512F-32-LABEL: test_mask_subs_epu16_rr_1024:
				; AVX512F-32: # %bb.0:
				; AVX512F-32-NEXT: pushl %ebp
				; AVX512F-32-NEXT: .cfi_def_cfa_offset 8
				; AVX512F-32-NEXT: .cfi_offset %ebp, -8
				; AVX512F-32-NEXT: movl %esp, %ebp
				; AVX512F-32-NEXT: .cfi_def_cfa_register %ebp
				; AVX512F-32-NEXT: andl $-64, %esp
				; AVX512F-32-NEXT: subl $64, %esp
				; AVX512F-32-NEXT: vpsubusw %zmm2, %zmm0, %zmm0
				; AVX512F-32-NEXT: vpsubusw 8(%ebp), %zmm1, %zmm1
				; AVX512F-32-NEXT: movl %ebp, %esp
				; AVX512F-32-NEXT: popl %ebp
				; AVX512F-32-NEXT: retl
				%cmp = icmp ugt <64 x i16> %a, %b
				%sel = select <64 x i1> %cmp, <64 x i16> %a, <64 x i16> %b
				%sub = sub <64 x i16> %sel, %b
				ret <64 x i16> %sub
				}

				define <8 x i16> @test_mask_adds_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_mask_adds_epi16_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsw %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				ret <8 x i16> %8
				}

				define <8 x i16> @test_mask_adds_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddsw %xmm1, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0
				; CHECK-NEXT: retq
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%9 = bitcast i8 %mask to <8 x i1>
				%10 = select <8 x i1> %9, <8 x i16> %8, <8 x i16> %passThru
				ret <8 x i16> %10
				}

				define <8 x i16> @test_mask_adds_epi16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddsw %xmm1, %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%9 = bitcast i8 %mask to <8 x i1>
				%10 = select <8 x i1> %9, <8 x i16> %8, <8 x i16> zeroinitializer
				ret <8 x i16> %10
				}

				define <8 x i16> @test_mask_adds_epi16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epi16_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsw (%rdi), %xmm0, %xmm0
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				ret <8 x i16> %8
				}

				define <8 x i16> @test_mask_adds_epi16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddsw (%rdi), %xmm0, %xmm1 {%k1}
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%9 = bitcast i8 %mask to <8 x i1>
				%10 = select <8 x i1> %9, <8 x i16> %8, <8 x i16> %passThru
				ret <8 x i16> %10
				}

				define <8 x i16> @test_mask_adds_epi16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddsw (%rdi), %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%9 = bitcast i8 %mask to <8 x i1>
				%10 = select <8 x i1> %9, <8 x i16> %8, <8 x i16> zeroinitializer
				ret <8 x i16> %10
				}


				define <16 x i16> @test_mask_adds_epi16_rr_256(<16 x i16> %a, <16 x i16> %b) {
				; CHECK-LABEL: test_mask_adds_epi16_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsw %ymm1, %ymm0, %ymm0
				; CHECK-NEXT: retq
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				ret <16 x i16> %8
				}

				define <16 x i16> @test_mask_adds_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddsw %ymm1, %ymm0, %ymm2 {%k1}
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0
				; CHECK-NEXT: retq
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i16> %8, <16 x i16> %passThru
				ret <16 x i16> %10
				}

				define <16 x i16> @test_mask_adds_epi16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddsw %ymm1, %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i16> %8, <16 x i16> zeroinitializer
				ret <16 x i16> %10
				}

				define <16 x i16> @test_mask_adds_epi16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epi16_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsw (%rdi), %ymm0, %ymm0
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				ret <16 x i16> %8
				}

				define <16 x i16> @test_mask_adds_epi16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddsw (%rdi), %ymm0, %ymm1 {%k1}
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i16> %8, <16 x i16> %passThru
				ret <16 x i16> %10
				}

				define <16 x i16> @test_mask_adds_epi16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi16_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddsw (%rdi), %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i16> %8, <16 x i16> zeroinitializer
				ret <16 x i16> %10
				}

				define <8 x i16> @test_mask_subs_epi16_rr_128(<8 x i16> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_mask_subs_epi16_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsw %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = sub nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				ret <8 x i16> %8
				}

				define <8 x i16> @test_mask_subs_epi16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubsw %xmm1, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0
				; CHECK-NEXT: retq
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = sub nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%9 = bitcast i8 %mask to <8 x i1>
				%10 = select <8 x i1> %9, <8 x i16> %8, <8 x i16> %passThru
				ret <8 x i16> %10
				}

				define <8 x i16> @test_mask_subs_epi16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubsw %xmm1, %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = sub nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%9 = bitcast i8 %mask to <8 x i1>
				%10 = select <8 x i1> %9, <8 x i16> %8, <8 x i16> zeroinitializer
				ret <8 x i16> %10
				}

				define <8 x i16> @test_mask_subs_epi16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epi16_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsw (%rdi), %xmm0, %xmm0
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = sub nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				ret <8 x i16> %8
				}

				define <8 x i16> @test_mask_subs_epi16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubsw (%rdi), %xmm0, %xmm1 {%k1}
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = sub nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%9 = bitcast i8 %mask to <8 x i1>
				%10 = select <8 x i1> %9, <8 x i16> %8, <8 x i16> %passThru
				ret <8 x i16> %10
				}

				define <8 x i16> @test_mask_subs_epi16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubsw (%rdi), %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = sext <8 x i16> %a to <8 x i32>
				%2 = sext <8 x i16> %b to <8 x i32>
				%3 = sub nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				%9 = bitcast i8 %mask to <8 x i1>
				%10 = select <8 x i1> %9, <8 x i16> %8, <8 x i16> zeroinitializer
				ret <8 x i16> %10
				}

				define <16 x i16> @test_mask_subs_epi16_rr_256(<16 x i16> %a, <16 x i16> %b) {
				; CHECK-LABEL: test_mask_subs_epi16_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsw %ymm1, %ymm0, %ymm0
				; CHECK-NEXT: retq
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = sub nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				ret <16 x i16> %8
				}

				define <16 x i16> @test_mask_subs_epi16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubsw %ymm1, %ymm0, %ymm2 {%k1}
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0
				; CHECK-NEXT: retq
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = sub nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i16> %8, <16 x i16> %passThru
				ret <16 x i16> %10
				}

				define <16 x i16> @test_mask_subs_epi16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubsw %ymm1, %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = sub nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i16> %8, <16 x i16> zeroinitializer
				ret <16 x i16> %10
				}

				define <16 x i16> @test_mask_subs_epi16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epi16_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsw (%rdi), %ymm0, %ymm0
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = sub nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				ret <16 x i16> %8
				}

				define <16 x i16> @test_mask_subs_epi16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubsw (%rdi), %ymm0, %ymm1 {%k1}
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = sub nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i16> %8, <16 x i16> %passThru
				ret <16 x i16> %10
				}

				define <16 x i16> @test_mask_subs_epi16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi16_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubsw (%rdi), %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = sext <16 x i16> %a to <16 x i32>
				%2 = sext <16 x i16> %b to <16 x i32>
				%3 = sub nsw <16 x i32> %1, %2
				%4 = icmp slt <16 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <16 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <16 x i1> %6, <16 x i32> %5, <16 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <16 x i32> %7 to <16 x i16>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i16> %8, <16 x i16> zeroinitializer
				ret <16 x i16> %10
				}

				define <8 x i16> @test_mask_adds_epu16_rr_128(<8 x i16> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_mask_adds_epu16_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusw %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%1 = zext <8 x i16> %a to <8 x i32>
				%2 = zext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp ult <8 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <8 x i32> %5 to <8 x i16>
				ret <8 x i16> %6
				}

				define <8 x i16> @test_mask_adds_epu16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddusw %xmm1, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0
				; CHECK-NEXT: retq
				%1 = zext <8 x i16> %a to <8 x i32>
				%2 = zext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp ult <8 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <8 x i32> %5 to <8 x i16>
				%7 = bitcast i8 %mask to <8 x i1>
				%8 = select <8 x i1> %7, <8 x i16> %6, <8 x i16> %passThru
				ret <8 x i16> %8
				}

				define <8 x i16> @test_mask_adds_epu16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddusw %xmm1, %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = zext <8 x i16> %a to <8 x i32>
				%2 = zext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp ult <8 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <8 x i32> %5 to <8 x i16>
				%7 = bitcast i8 %mask to <8 x i1>
				%8 = select <8 x i1> %7, <8 x i16> %6, <8 x i16> zeroinitializer
				ret <8 x i16> %8
				}

				define <8 x i16> @test_mask_adds_epu16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epu16_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusw (%rdi), %xmm0, %xmm0
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = zext <8 x i16> %a to <8 x i32>
				%2 = zext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp ult <8 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <8 x i32> %5 to <8 x i16>
				ret <8 x i16> %6
				}

				define <8 x i16> @test_mask_adds_epu16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddusw (%rdi), %xmm0, %xmm1 {%k1}
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = zext <8 x i16> %a to <8 x i32>
				%2 = zext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp ult <8 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <8 x i32> %5 to <8 x i16>
				%7 = bitcast i8 %mask to <8 x i1>
				%8 = select <8 x i1> %7, <8 x i16> %6, <8 x i16> %passThru
				ret <8 x i16> %8
				}

				define <8 x i16> @test_mask_adds_epu16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddusw (%rdi), %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%1 = zext <8 x i16> %a to <8 x i32>
				%2 = zext <8 x i16> %b to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp ult <8 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <8 x i32> %5 to <8 x i16>
				%7 = bitcast i8 %mask to <8 x i1>
				%8 = select <8 x i1> %7, <8 x i16> %6, <8 x i16> zeroinitializer
				ret <8 x i16> %8
				}

				define <16 x i16> @test_mask_adds_epu16_rr_256(<16 x i16> %a, <16 x i16> %b) {
				; CHECK-LABEL: test_mask_adds_epu16_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusw %ymm1, %ymm0, %ymm0
				; CHECK-NEXT: retq
				%1 = zext <16 x i16> %a to <16 x i32>
				%2 = zext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp ult <16 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <16 x i32> %5 to <16 x i16>
				ret <16 x i16> %6
				}

				define <16 x i16> @test_mask_adds_epu16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddusw %ymm1, %ymm0, %ymm2 {%k1}
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0
				; CHECK-NEXT: retq
				%1 = zext <16 x i16> %a to <16 x i32>
				%2 = zext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp ult <16 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <16 x i32> %5 to <16 x i16>
				%7 = bitcast i16 %mask to <16 x i1>
				%8 = select <16 x i1> %7, <16 x i16> %6, <16 x i16> %passThru
				ret <16 x i16> %8
				}

				define <16 x i16> @test_mask_adds_epu16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddusw %ymm1, %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = zext <16 x i16> %a to <16 x i32>
				%2 = zext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp ult <16 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <16 x i32> %5 to <16 x i16>
				%7 = bitcast i16 %mask to <16 x i1>
				%8 = select <16 x i1> %7, <16 x i16> %6, <16 x i16> zeroinitializer
				ret <16 x i16> %8
				}

				define <16 x i16> @test_mask_adds_epu16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epu16_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusw (%rdi), %ymm0, %ymm0
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = zext <16 x i16> %a to <16 x i32>
				%2 = zext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp ult <16 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <16 x i32> %5 to <16 x i16>
				ret <16 x i16> %6
				}

				define <16 x i16> @test_mask_adds_epu16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddusw (%rdi), %ymm0, %ymm1 {%k1}
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = zext <16 x i16> %a to <16 x i32>
				%2 = zext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp ult <16 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <16 x i32> %5 to <16 x i16>
				%7 = bitcast i16 %mask to <16 x i1>
				%8 = select <16 x i1> %7, <16 x i16> %6, <16 x i16> %passThru
				ret <16 x i16> %8
				}

				define <16 x i16> @test_mask_adds_epu16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu16_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddusw (%rdi), %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%1 = zext <16 x i16> %a to <16 x i32>
				%2 = zext <16 x i16> %b to <16 x i32>
				%3 = add nsw <16 x i32> %1, %2
				%4 = icmp ult <16 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <16 x i1> %4, <16 x i32> %3, <16 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <16 x i32> %5 to <16 x i16>
				%7 = bitcast i16 %mask to <16 x i1>
				%8 = select <16 x i1> %7, <16 x i16> %6, <16 x i16> zeroinitializer
				ret <16 x i16> %8
				}

				define <8 x i16> @test_mask_subs_epu16_rr_128(<8 x i16> %a, <8 x i16> %b) {
				; CHECK-LABEL: test_mask_subs_epu16_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusw %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%cmp = icmp ugt <8 x i16> %a, %b
				%sel = select <8 x i1> %cmp, <8 x i16> %a, <8 x i16> %b
				%sub = sub <8 x i16> %sel, %b
				ret <8 x i16> %sub
				}

				define <8 x i16> @test_mask_subs_epu16_rrk_128(<8 x i16> %a, <8 x i16> %b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubusw %xmm1, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0
				; CHECK-NEXT: retq
				%cmp = icmp ugt <8 x i16> %a, %b
				%sel = select <8 x i1> %cmp, <8 x i16> %a, <8 x i16> %b
				%sub = sub <8 x i16> %sel, %b
				%bc = bitcast i8 %mask to <8 x i1>
				%res = select <8 x i1> %bc, <8 x i16> %sub, <8 x i16> %passThru
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epu16_rrkz_128(<8 x i16> %a, <8 x i16> %b, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubusw %xmm1, %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%cmp = icmp ugt <8 x i16> %a, %b
				%sel = select <8 x i1> %cmp, <8 x i16> %a, <8 x i16> %b
				%sub = sub <8 x i16> %sel, %b
				%bc = bitcast i8 %mask to <8 x i1>
				%res = select <8 x i1> %bc, <8 x i16> %sub, <8 x i16> zeroinitializer
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epu16_rm_128(<8 x i16> %a, <8 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epu16_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusw (%rdi), %xmm0, %xmm0
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%cmp = icmp ugt <8 x i16> %a, %b
				%sel = select <8 x i1> %cmp, <8 x i16> %a, <8 x i16> %b
				%sub = sub <8 x i16> %sel, %b
				ret <8 x i16> %sub
				}

				define <8 x i16> @test_mask_subs_epu16_rmk_128(<8 x i16> %a, <8 x i16>* %ptr_b, <8 x i16> %passThru, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubusw (%rdi), %xmm0, %xmm1 {%k1}
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%cmp = icmp ugt <8 x i16> %a, %b
				%sel = select <8 x i1> %cmp, <8 x i16> %a, <8 x i16> %b
				%sub = sub <8 x i16> %sel, %b
				%bc = bitcast i8 %mask to <8 x i1>
				%res = select <8 x i1> %bc, <8 x i16> %sub, <8 x i16> %passThru
				ret <8 x i16> %res
				}

				define <8 x i16> @test_mask_subs_epu16_rmkz_128(<8 x i16> %a, <8 x i16>* %ptr_b, i8 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubusw (%rdi), %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <8 x i16>, <8 x i16>* %ptr_b
				%cmp = icmp ugt <8 x i16> %a, %b
				%sel = select <8 x i1> %cmp, <8 x i16> %a, <8 x i16> %b
				%sub = sub <8 x i16> %sel, %b
				%bc = bitcast i8 %mask to <8 x i1>
				%res = select <8 x i1> %bc, <8 x i16> %sub, <8 x i16> zeroinitializer
				ret <8 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epu16_rr_256(<16 x i16> %a, <16 x i16> %b) {
				; CHECK-LABEL: test_mask_subs_epu16_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusw %ymm1, %ymm0, %ymm0
				; CHECK-NEXT: retq
				%cmp = icmp ugt <16 x i16> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i16> %a, <16 x i16> %b
				%sub = sub <16 x i16> %sel, %b
				ret <16 x i16> %sub
				}

				define <16 x i16> @test_mask_subs_epu16_rrk_256(<16 x i16> %a, <16 x i16> %b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubusw %ymm1, %ymm0, %ymm2 {%k1}
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0
				; CHECK-NEXT: retq
				%cmp = icmp ugt <16 x i16> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i16> %a, <16 x i16> %b
				%sub = sub <16 x i16> %sel, %b
				%bc = bitcast i16 %mask to <16 x i1>
				%res = select <16 x i1> %bc, <16 x i16> %sub, <16 x i16> %passThru
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epu16_rrkz_256(<16 x i16> %a, <16 x i16> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubusw %ymm1, %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%cmp = icmp ugt <16 x i16> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i16> %a, <16 x i16> %b
				%sub = sub <16 x i16> %sel, %b
				%bc = bitcast i16 %mask to <16 x i1>
				%res = select <16 x i1> %bc, <16 x i16> %sub, <16 x i16> zeroinitializer
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epu16_rm_256(<16 x i16> %a, <16 x i16>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epu16_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusw (%rdi), %ymm0, %ymm0
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%cmp = icmp ugt <16 x i16> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i16> %a, <16 x i16> %b
				%sub = sub <16 x i16> %sel, %b
				ret <16 x i16> %sub
				}

				define <16 x i16> @test_mask_subs_epu16_rmk_256(<16 x i16> %a, <16 x i16>* %ptr_b, <16 x i16> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubusw (%rdi), %ymm0, %ymm1 {%k1}
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%cmp = icmp ugt <16 x i16> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i16> %a, <16 x i16> %b
				%sub = sub <16 x i16> %sel, %b
				%bc = bitcast i16 %mask to <16 x i1>
				%res = select <16 x i1> %bc, <16 x i16> %sub, <16 x i16> %passThru
				ret <16 x i16> %res
				}

				define <16 x i16> @test_mask_subs_epu16_rmkz_256(<16 x i16> %a, <16 x i16>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu16_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubusw (%rdi), %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <16 x i16>, <16 x i16>* %ptr_b
				%cmp = icmp ugt <16 x i16> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i16> %a, <16 x i16> %b
				%sub = sub <16 x i16> %sel, %b
				%bc = bitcast i16 %mask to <16 x i1>
				%res = select <16 x i1> %bc, <16 x i16> %sub, <16 x i16> zeroinitializer
				ret <16 x i16> %res
				}

				define <16 x i8> @test_mask_adds_epi8_rr_128(<16 x i8> %a, <16 x i8> %b) {
				; CHECK-LABEL: test_mask_adds_epi8_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsb %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				ret <16 x i8> %8
				}

				define <16 x i8> @test_mask_adds_epi8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddsb %xmm1, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0
				; CHECK-NEXT: retq
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i8> %8, <16 x i8> %passThru
				ret <16 x i8> %10
				}

				define <16 x i8> @test_mask_adds_epi8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddsb %xmm1, %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i8> %8, <16 x i8> zeroinitializer
				ret <16 x i8> %10
				}

				define <16 x i8> @test_mask_adds_epi8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epi8_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsb (%rdi), %xmm0, %xmm0
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				ret <16 x i8> %8
				}

				define <16 x i8> @test_mask_adds_epi8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddsb (%rdi), %xmm0, %xmm1 {%k1}
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i8> %8, <16 x i8> %passThru
				ret <16 x i8> %10
				}

				define <16 x i8> @test_mask_adds_epi8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddsb (%rdi), %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i8> %8, <16 x i8> zeroinitializer
				ret <16 x i8> %10
				}

				define <32 x i8> @test_mask_adds_epi8_rr_256(<32 x i8> %a, <32 x i8> %b) {
				; CHECK-LABEL: test_mask_adds_epi8_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsb %ymm1, %ymm0, %ymm0
				; CHECK-NEXT: retq
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				ret <32 x i8> %8
				}

				define <32 x i8> @test_mask_adds_epi8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddsb %ymm1, %ymm0, %ymm2 {%k1}
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0
				; CHECK-NEXT: retq
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i8> %8, <32 x i8> %passThru
				ret <32 x i8> %10
				}

				define <32 x i8> @test_mask_adds_epi8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddsb %ymm1, %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i8> %8, <32 x i8> zeroinitializer
				ret <32 x i8> %10
				}

				define <32 x i8> @test_mask_adds_epi8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epi8_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddsb (%rdi), %ymm0, %ymm0
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				ret <32 x i8> %8
				}

				define <32 x i8> @test_mask_adds_epi8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddsb (%rdi), %ymm0, %ymm1 {%k1}
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i8> %8, <32 x i8> %passThru
				ret <32 x i8> %10
				}

				define <32 x i8> @test_mask_adds_epi8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epi8_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddsb (%rdi), %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i8> %8, <32 x i8> zeroinitializer
				ret <32 x i8> %10
				}

				define <16 x i8> @test_mask_subs_epi8_rr_128(<16 x i8> %a, <16 x i8> %b) {
				; CHECK-LABEL: test_mask_subs_epi8_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsb %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = sub nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				ret <16 x i8> %8
				}

				define <16 x i8> @test_mask_subs_epi8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubsb %xmm1, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0
				; CHECK-NEXT: retq
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = sub nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i8> %8, <16 x i8> %passThru
				ret <16 x i8> %10
				}

				define <16 x i8> @test_mask_subs_epi8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubsb %xmm1, %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = sub nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i8> %8, <16 x i8> zeroinitializer
				ret <16 x i8> %10
				}

				define <16 x i8> @test_mask_subs_epi8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epi8_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsb (%rdi), %xmm0, %xmm0
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = sub nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				ret <16 x i8> %8
				}

				define <16 x i8> @test_mask_subs_epi8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubsb (%rdi), %xmm0, %xmm1 {%k1}
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = sub nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i8> %8, <16 x i8> %passThru
				ret <16 x i8> %10
				}

				define <16 x i8> @test_mask_subs_epi8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubsb (%rdi), %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%1 = sext <16 x i8> %a to <16 x i16>
				%2 = sext <16 x i8> %b to <16 x i16>
				%3 = sub nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				%9 = bitcast i16 %mask to <16 x i1>
				%10 = select <16 x i1> %9, <16 x i8> %8, <16 x i8> zeroinitializer
				ret <16 x i8> %10
				}

				define <32 x i8> @test_mask_subs_epi8_rr_256(<32 x i8> %a, <32 x i8> %b) {
				; CHECK-LABEL: test_mask_subs_epi8_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsb %ymm1, %ymm0, %ymm0
				; CHECK-NEXT: retq
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = sub nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				ret <32 x i8> %8
				}

				define <32 x i8> @test_mask_subs_epi8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubsb %ymm1, %ymm0, %ymm2 {%k1}
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0
				; CHECK-NEXT: retq
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = sub nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i8> %8, <32 x i8> %passThru
				ret <32 x i8> %10
				}

				define <32 x i8> @test_mask_subs_epi8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubsb %ymm1, %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = sub nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i8> %8, <32 x i8> zeroinitializer
				ret <32 x i8> %10
				}

				define <32 x i8> @test_mask_subs_epi8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epi8_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubsb (%rdi), %ymm0, %ymm0
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = sub nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				ret <32 x i8> %8
				}

				define <32 x i8> @test_mask_subs_epi8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubsb (%rdi), %ymm0, %ymm1 {%k1}
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = sub nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i8> %8, <32 x i8> %passThru
				ret <32 x i8> %10
				}

				define <32 x i8> @test_mask_subs_epi8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epi8_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubsb (%rdi), %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%1 = sext <32 x i8> %a to <32 x i16>
				%2 = sext <32 x i8> %b to <32 x i16>
				%3 = sub nsw <32 x i16> %1, %2
				%4 = icmp slt <32 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <32 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <32 x i1> %6, <32 x i16> %5, <32 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <32 x i16> %7 to <32 x i8>
				%9 = bitcast i32 %mask to <32 x i1>
				%10 = select <32 x i1> %9, <32 x i8> %8, <32 x i8> zeroinitializer
				ret <32 x i8> %10
				}

				define <16 x i8> @test_mask_adds_epu8_rr_128(<16 x i8> %a, <16 x i8> %b) {
				; CHECK-LABEL: test_mask_adds_epu8_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusb %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%1 = zext <16 x i8> %a to <16 x i16>
				%2 = zext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp ult <16 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <16 x i16> %5 to <16 x i8>
				ret <16 x i8> %6
				}

				define <16 x i8> @test_mask_adds_epu8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddusb %xmm1, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0
				; CHECK-NEXT: retq
				%1 = zext <16 x i8> %a to <16 x i16>
				%2 = zext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp ult <16 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <16 x i16> %5 to <16 x i8>
				%7 = bitcast i16 %mask to <16 x i1>
				%8 = select <16 x i1> %7, <16 x i8> %6, <16 x i8> %passThru
				ret <16 x i8> %8
				}

				define <16 x i8> @test_mask_adds_epu8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddusb %xmm1, %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = zext <16 x i8> %a to <16 x i16>
				%2 = zext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp ult <16 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <16 x i16> %5 to <16 x i8>
				%7 = bitcast i16 %mask to <16 x i1>
				%8 = select <16 x i1> %7, <16 x i8> %6, <16 x i8> zeroinitializer
				ret <16 x i8> %8
				}

				define <16 x i8> @test_mask_adds_epu8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epu8_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusb (%rdi), %xmm0, %xmm0
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%1 = zext <16 x i8> %a to <16 x i16>
				%2 = zext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp ult <16 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <16 x i16> %5 to <16 x i8>
				ret <16 x i8> %6
				}

				define <16 x i8> @test_mask_adds_epu8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddusb (%rdi), %xmm0, %xmm1 {%k1}
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%1 = zext <16 x i8> %a to <16 x i16>
				%2 = zext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp ult <16 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <16 x i16> %5 to <16 x i8>
				%7 = bitcast i16 %mask to <16 x i1>
				%8 = select <16 x i1> %7, <16 x i8> %6, <16 x i8> %passThru
				ret <16 x i8> %8
				}

				define <16 x i8> @test_mask_adds_epu8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddusb (%rdi), %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%1 = zext <16 x i8> %a to <16 x i16>
				%2 = zext <16 x i8> %b to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp ult <16 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <16 x i16> %5 to <16 x i8>
				%7 = bitcast i16 %mask to <16 x i1>
				%8 = select <16 x i1> %7, <16 x i8> %6, <16 x i8> zeroinitializer
				ret <16 x i8> %8
				}

				define <32 x i8> @test_mask_adds_epu8_rr_256(<32 x i8> %a, <32 x i8> %b) {
				; CHECK-LABEL: test_mask_adds_epu8_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusb %ymm1, %ymm0, %ymm0
				; CHECK-NEXT: retq
				%1 = zext <32 x i8> %a to <32 x i16>
				%2 = zext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp ult <32 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <32 x i16> %5 to <32 x i8>
				ret <32 x i8> %6
				}

				define <32 x i8> @test_mask_adds_epu8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddusb %ymm1, %ymm0, %ymm2 {%k1}
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0
				; CHECK-NEXT: retq
				%1 = zext <32 x i8> %a to <32 x i16>
				%2 = zext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp ult <32 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <32 x i16> %5 to <32 x i8>
				%7 = bitcast i32 %mask to <32 x i1>
				%8 = select <32 x i1> %7, <32 x i8> %6, <32 x i8> %passThru
				ret <32 x i8> %8
				}

				define <32 x i8> @test_mask_adds_epu8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpaddusb %ymm1, %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%1 = zext <32 x i8> %a to <32 x i16>
				%2 = zext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp ult <32 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <32 x i16> %5 to <32 x i8>
				%7 = bitcast i32 %mask to <32 x i1>
				%8 = select <32 x i1> %7, <32 x i8> %6, <32 x i8> zeroinitializer
				ret <32 x i8> %8
				}

				define <32 x i8> @test_mask_adds_epu8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_adds_epu8_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpaddusb (%rdi), %ymm0, %ymm0
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%1 = zext <32 x i8> %a to <32 x i16>
				%2 = zext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp ult <32 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <32 x i16> %5 to <32 x i8>
				ret <32 x i8> %6
				}

				define <32 x i8> @test_mask_adds_epu8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddusb (%rdi), %ymm0, %ymm1 {%k1}
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%1 = zext <32 x i8> %a to <32 x i16>
				%2 = zext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp ult <32 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <32 x i16> %5 to <32 x i8>
				%7 = bitcast i32 %mask to <32 x i1>
				%8 = select <32 x i1> %7, <32 x i8> %6, <32 x i8> %passThru
				ret <32 x i8> %8
				}

				define <32 x i8> @test_mask_adds_epu8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
				; CHECK-LABEL: test_mask_adds_epu8_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpaddusb (%rdi), %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%1 = zext <32 x i8> %a to <32 x i16>
				%2 = zext <32 x i8> %b to <32 x i16>
				%3 = add nsw <32 x i16> %1, %2
				%4 = icmp ult <32 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <32 x i1> %4, <32 x i16> %3, <32 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <32 x i16> %5 to <32 x i8>
				%7 = bitcast i32 %mask to <32 x i1>
				%8 = select <32 x i1> %7, <32 x i8> %6, <32 x i8> zeroinitializer
				ret <32 x i8> %8
				}

				define <16 x i8> @test_mask_subs_epu8_rr_128(<16 x i8> %a, <16 x i8> %b) {
				; CHECK-LABEL: test_mask_subs_epu8_rr_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusb %xmm1, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%cmp = icmp ugt <16 x i8> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i8> %a, <16 x i8> %b
				%sub = sub <16 x i8> %sel, %b
				ret <16 x i8> %sub
				}

				define <16 x i8> @test_mask_subs_epu8_rrk_128(<16 x i8> %a, <16 x i8> %b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rrk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubusb %xmm1, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0
				; CHECK-NEXT: retq
				%cmp = icmp ugt <16 x i8> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i8> %a, <16 x i8> %b
				%sub = sub <16 x i8> %sel, %b
				%bc = bitcast i16 %mask to <16 x i1>
				%res = select <16 x i1> %bc, <16 x i8> %sub, <16 x i8> %passThru
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epu8_rrkz_128(<16 x i8> %a, <16 x i8> %b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rrkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubusb %xmm1, %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%cmp = icmp ugt <16 x i8> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i8> %a, <16 x i8> %b
				%sub = sub <16 x i8> %sel, %b
				%bc = bitcast i16 %mask to <16 x i1>
				%res = select <16 x i1> %bc, <16 x i8> %sub, <16 x i8> zeroinitializer
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epu8_rm_128(<16 x i8> %a, <16 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epu8_rm_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusb (%rdi), %xmm0, %xmm0
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%cmp = icmp ugt <16 x i8> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i8> %a, <16 x i8> %b
				%sub = sub <16 x i8> %sel, %b
				ret <16 x i8> %sub
				}

				define <16 x i8> @test_mask_subs_epu8_rmk_128(<16 x i8> %a, <16 x i8>* %ptr_b, <16 x i8> %passThru, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rmk_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubusb (%rdi), %xmm0, %xmm1 {%k1}
				; CHECK-NEXT: vmovdqa %xmm1, %xmm0
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%cmp = icmp ugt <16 x i8> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i8> %a, <16 x i8> %b
				%sub = sub <16 x i8> %sel, %b
				%bc = bitcast i16 %mask to <16 x i1>
				%res = select <16 x i1> %bc, <16 x i8> %sub, <16 x i8> %passThru
				ret <16 x i8> %res
				}

				define <16 x i8> @test_mask_subs_epu8_rmkz_128(<16 x i8> %a, <16 x i8>* %ptr_b, i16 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rmkz_128:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubusb (%rdi), %xmm0, %xmm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <16 x i8>, <16 x i8>* %ptr_b
				%cmp = icmp ugt <16 x i8> %a, %b
				%sel = select <16 x i1> %cmp, <16 x i8> %a, <16 x i8> %b
				%sub = sub <16 x i8> %sel, %b
				%bc = bitcast i16 %mask to <16 x i1>
				%res = select <16 x i1> %bc, <16 x i8> %sub, <16 x i8> zeroinitializer
				ret <16 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epu8_rr_256(<32 x i8> %a, <32 x i8> %b) {
				; CHECK-LABEL: test_mask_subs_epu8_rr_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusb %ymm1, %ymm0, %ymm0
				; CHECK-NEXT: retq
				%cmp = icmp ugt <32 x i8> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i8> %a, <32 x i8> %b
				%sub = sub <32 x i8> %sel, %b
				ret <32 x i8> %sub
				}

				define <32 x i8> @test_mask_subs_epu8_rrk_256(<32 x i8> %a, <32 x i8> %b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rrk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubusb %ymm1, %ymm0, %ymm2 {%k1}
				; CHECK-NEXT: vmovdqa %ymm2, %ymm0
				; CHECK-NEXT: retq
				%cmp = icmp ugt <32 x i8> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i8> %a, <32 x i8> %b
				%sub = sub <32 x i8> %sel, %b
				%bc = bitcast i32 %mask to <32 x i1>
				%res = select <32 x i1> %bc, <32 x i8> %sub, <32 x i8> %passThru
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epu8_rrkz_256(<32 x i8> %a, <32 x i8> %b, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rrkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %edi, %k1
				; CHECK-NEXT: vpsubusb %ymm1, %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%cmp = icmp ugt <32 x i8> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i8> %a, <32 x i8> %b
				%sub = sub <32 x i8> %sel, %b
				%bc = bitcast i32 %mask to <32 x i1>
				%res = select <32 x i1> %bc, <32 x i8> %sub, <32 x i8> zeroinitializer
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epu8_rm_256(<32 x i8> %a, <32 x i8>* %ptr_b) {
				; CHECK-LABEL: test_mask_subs_epu8_rm_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: vpsubusb (%rdi), %ymm0, %ymm0
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%cmp = icmp ugt <32 x i8> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i8> %a, <32 x i8> %b
				%sub = sub <32 x i8> %sel, %b
				ret <32 x i8> %sub
				}

				define <32 x i8> @test_mask_subs_epu8_rmk_256(<32 x i8> %a, <32 x i8>* %ptr_b, <32 x i8> %passThru, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rmk_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubusb (%rdi), %ymm0, %ymm1 {%k1}
				; CHECK-NEXT: vmovdqa %ymm1, %ymm0
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%cmp = icmp ugt <32 x i8> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i8> %a, <32 x i8> %b
				%sub = sub <32 x i8> %sel, %b
				%bc = bitcast i32 %mask to <32 x i1>
				%res = select <32 x i1> %bc, <32 x i8> %sub, <32 x i8> %passThru
				ret <32 x i8> %res
				}

				define <32 x i8> @test_mask_subs_epu8_rmkz_256(<32 x i8> %a, <32 x i8>* %ptr_b, i32 %mask) {
				; CHECK-LABEL: test_mask_subs_epu8_rmkz_256:
				; CHECK: ## %bb.0:
				; CHECK-NEXT: kmovd %esi, %k1
				; CHECK-NEXT: vpsubusb (%rdi), %ymm0, %ymm0 {%k1} {z}
				; CHECK-NEXT: retq
				%b = load <32 x i8>, <32 x i8>* %ptr_b
				%cmp = icmp ugt <32 x i8> %a, %b
				%sel = select <32 x i1> %cmp, <32 x i8> %a, <32 x i8> %b
				%sub = sub <32 x i8> %sel, %b
				%bc = bitcast i32 %mask to <32 x i1>
				%res = select <32 x i1> %bc, <32 x i8> %sub, <32 x i8> zeroinitializer
				ret <32 x i8> %res
				}

				define <16 x i8> @test_x86_sse2_padds_b(<16 x i8> %a0, <16 x i8> %a1) {
				; SSE-LABEL: test_x86_sse2_padds_b:
				; SSE: ## %bb.0:
				; SSE-NEXT: paddsb %xmm1, %xmm0
				; SSE-NEXT: retl
				%1 = sext <16 x i8> %a0 to <16 x i16>
				%2 = sext <16 x i8> %a1 to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				ret <16 x i8> %8
				}


				define <8 x i16> @test_x86_sse2_padds_w(<8 x i16> %a0, <8 x i16> %a1) {
				; SSE-LABEL: test_x86_sse2_padds_w:
				; SSE: ## %bb.0:
				; SSE-NEXT: paddsw %xmm1, %xmm0
				; SSE-NEXT: retl
				%1 = sext <8 x i16> %a0 to <8 x i32>
				%2 = sext <8 x i16> %a1 to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				ret <8 x i16> %8
				}


				define <16 x i8> @test_x86_sse2_paddus_b(<16 x i8> %a0, <16 x i8> %a1) {
				; SSE-LABEL: test_x86_sse2_paddus_b:
				; SSE: ## %bb.0:
				; SSE-NEXT: paddusb %xmm1, %xmm0
				; SSE-NEXT: retl
				%1 = zext <16 x i8> %a0 to <16 x i16>
				%2 = zext <16 x i8> %a1 to <16 x i16>
				%3 = add nsw <16 x i16> %1, %2
				%4 = icmp ult <16 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <16 x i16> %5 to <16 x i8>
				ret <16 x i8> %6
				}


				define <8 x i16> @test_x86_sse2_paddus_w(<8 x i16> %a0, <8 x i16> %a1) {
				; SSE-LABEL: test_x86_sse2_paddus_w:
				; SSE: ## %bb.0:
				; SSE-NEXT: paddusw %xmm1, %xmm0
				; SSE-NEXT: retl
				%1 = zext <8 x i16> %a0 to <8 x i32>
				%2 = zext <8 x i16> %a1 to <8 x i32>
				%3 = add nsw <8 x i32> %1, %2
				%4 = icmp ult <8 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <8 x i32> %5 to <8 x i16>
				ret <8 x i16> %6
				}

				define <16 x i8> @test_x86_sse2_psubs_b(<16 x i8> %a0, <16 x i8> %a1) {
				; SSE-LABEL: test_x86_sse2_psubs_b:
				; SSE: ## %bb.0:
				; SSE-NEXT: psubsb %xmm1, %xmm0
				; SSE-NEXT: retl
				%1 = sext <16 x i8> %a0 to <16 x i16>
				%2 = sext <16 x i8> %a1 to <16 x i16>
				%3 = sub nsw <16 x i16> %1, %2
				%4 = icmp slt <16 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <16 x i1> %4, <16 x i16> %3, <16 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <16 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <16 x i1> %6, <16 x i16> %5, <16 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <16 x i16> %7 to <16 x i8>
				ret <16 x i8> %8
				}


				define <8 x i16> @test_x86_sse2_psubs_w(<8 x i16> %a0, <8 x i16> %a1) {
				; SSE-LABEL: test_x86_sse2_psubs_w:
				; SSE: ## %bb.0:
				; SSE-NEXT: psubsw %xmm1, %xmm0
				; SSE-NEXT: retl
				%1 = sext <8 x i16> %a0 to <8 x i32>
				%2 = sext <8 x i16> %a1 to <8 x i32>
				%3 = sub nsw <8 x i32> %1, %2
				%4 = icmp slt <8 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <8 x i1> %4, <8 x i32> %3, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <8 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <8 x i1> %6, <8 x i32> %5, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <8 x i32> %7 to <8 x i16>
				ret <8 x i16> %8
				}


				define <16 x i8> @test_x86_sse2_psubus_b(<16 x i8> %a0, <16 x i8> %a1) {
				; SSE-LABEL: test_x86_sse2_psubus_b:
				; SSE: ## %bb.0:
				; SSE-NEXT: psubusb %xmm1, %xmm0
				; SSE-NEXT: retl
				%cmp = icmp ugt <16 x i8> %a0, %a1
				%sel = select <16 x i1> %cmp, <16 x i8> %a0, <16 x i8> %a1
				%sub = sub <16 x i8> %sel, %a1
				ret <16 x i8> %sub
				}


				define <8 x i16> @test_x86_sse2_psubus_w(<8 x i16> %a0, <8 x i16> %a1) {
				; SSE-LABEL: test_x86_sse2_psubus_w:
				; SSE: ## %bb.0:
				; SSE-NEXT: psubusw %xmm1, %xmm0
				; SSE-NEXT: retl
				%cmp = icmp ugt <8 x i16> %a0, %a1
				%sel = select <8 x i1> %cmp, <8 x i16> %a0, <8 x i16> %a1
				%sub = sub <8 x i16> %sel, %a1
				ret <8 x i16> %sub
				}

				define <8 x i8> @test_x86_sse2_padds_b_64(<8 x i8> %a0, <8 x i8> %a1) {
				; AVX512BW-LABEL: test_x86_sse2_padds_b_64:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsllw $8, %xmm0, %xmm0
				; AVX512BW-NEXT: vpsraw $8, %xmm0, %xmm0
				; AVX512BW-NEXT: vpsllw $8, %xmm1, %xmm1
				; AVX512BW-NEXT: vpsraw $8, %xmm1, %xmm1
				; AVX512BW-NEXT: vpaddw %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: vpminsw {{.*}}(%rip), %xmm0, %xmm0
				; AVX512BW-NEXT: vpmaxsw {{.*}}(%rip), %xmm0, %xmm0
				; AVX512BW-NEXT: retq
				;
				; SSE-LABEL: test_x86_sse2_padds_b_64:
				; SSE: ## %bb.0:
				; SSE-NEXT: psllw $8, %xmm0
				; SSE-NEXT: psraw $8, %xmm0
				; SSE-NEXT: psllw $8, %xmm1
				; SSE-NEXT: psraw $8, %xmm1
				; SSE-NEXT: paddw %xmm1, %xmm0
				; SSE-NEXT: pminsw LCPI144_0, %xmm0
				; SSE-NEXT: pmaxsw LCPI144_1, %xmm0
				; SSE-NEXT: retl
				%1 = sext <8 x i8> %a0 to <8 x i16>
				%2 = sext <8 x i8> %a1 to <8 x i16>
				%3 = add nsw <8 x i16> %1, %2
				%4 = icmp slt <8 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <8 x i1> %4, <8 x i16> %3, <8 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <8 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <8 x i1> %6, <8 x i16> %5, <8 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <8 x i16> %7 to <8 x i8>
				ret <8 x i8> %8
				}

				define <4 x i16> @test_x86_sse2_padds_w_64(<4 x i16> %a0, <4 x i16> %a1) {
				; AVX512BW-LABEL: test_x86_sse2_padds_w_64:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpslld $16, %xmm0, %xmm0
				; AVX512BW-NEXT: vpsrad $16, %xmm0, %xmm0
				; AVX512BW-NEXT: vpslld $16, %xmm1, %xmm1
				; AVX512BW-NEXT: vpsrad $16, %xmm1, %xmm1
				; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: vpbroadcastd {{.*#+}} xmm1 = [32767,32767,32767,32767]
				; AVX512BW-NEXT: vpminsd %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: vpbroadcastd {{.*#+}} xmm1 = [4294934528,4294934528,4294934528,4294934528]
				; AVX512BW-NEXT: vpmaxsd %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: retq
				;
				; SSE-LABEL: test_x86_sse2_padds_w_64:
				; SSE: ## %bb.0:
				; SSE-NEXT: pslld $16, %xmm0
				; SSE-NEXT: psrad $16, %xmm0
				; SSE-NEXT: pslld $16, %xmm1
				; SSE-NEXT: psrad $16, %xmm1
				; SSE-NEXT: paddd %xmm0, %xmm1
				; SSE-NEXT: movdqa {{.*#+}} xmm0 = [32767,32767,32767,32767]
				; SSE-NEXT: movdqa %xmm0, %xmm2
				; SSE-NEXT: pcmpgtd %xmm1, %xmm2
				; SSE-NEXT: pand %xmm2, %xmm1
				; SSE-NEXT: pandn %xmm0, %xmm2
				; SSE-NEXT: por %xmm1, %xmm2
				; SSE-NEXT: movdqa {{.*#+}} xmm1 = [4294934528,4294934528,4294934528,4294934528]
				; SSE-NEXT: movdqa %xmm2, %xmm0
				; SSE-NEXT: pcmpgtd %xmm1, %xmm0
				; SSE-NEXT: pand %xmm0, %xmm2
				; SSE-NEXT: pandn %xmm1, %xmm0
				; SSE-NEXT: por %xmm2, %xmm0
				; SSE-NEXT: retl
				%1 = sext <4 x i16> %a0 to <4 x i32>
				%2 = sext <4 x i16> %a1 to <4 x i32>
				%3 = add nsw <4 x i32> %1, %2
				%4 = icmp slt <4 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <4 x i1> %4, <4 x i32> %3, <4 x i32> <i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <4 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <4 x i1> %6, <4 x i32> %5, <4 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <4 x i32> %7 to <4 x i16>
				ret <4 x i16> %8
				}


				define <8 x i8> @test_x86_sse2_paddus_b_64(<8 x i8> %a0, <8 x i8> %a1) {
				; AVX512BW-LABEL: test_x86_sse2_paddus_b_64:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
				; AVX512BW-NEXT: vpand %xmm2, %xmm0, %xmm0
				; AVX512BW-NEXT: vpand %xmm2, %xmm1, %xmm1
				; AVX512BW-NEXT: vpaddw %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: vpminuw {{.*}}(%rip), %xmm0, %xmm0
				; AVX512BW-NEXT: retq
				;
				; SSE-LABEL: test_x86_sse2_paddus_b_64:
				; SSE: ## %bb.0:
				; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
				; SSE-NEXT: pand %xmm2, %xmm0
				; SSE-NEXT: pand %xmm2, %xmm1
				; SSE-NEXT: paddw %xmm1, %xmm0
				; SSE-NEXT: pminsw LCPI146_0, %xmm0
				; SSE-NEXT: retl
				%1 = zext <8 x i8> %a0 to <8 x i16>
				%2 = zext <8 x i8> %a1 to <8 x i16>
				%3 = add nsw <8 x i16> %1, %2
				%4 = icmp ult <8 x i16> %3, <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%5 = select <8 x i1> %4, <8 x i16> %3, <8 x i16> <i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255, i16 255>
				%6 = trunc <8 x i16> %5 to <8 x i8>
				ret <8 x i8> %6
				}


				define <4 x i16> @test_x86_sse2_paddus_w_64(<4 x i16> %a0, <4 x i16> %a1) {
				; AVX512BW-LABEL: test_x86_sse2_paddus_w_64:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpxor %xmm2, %xmm2, %xmm2
				; AVX512BW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
				; AVX512BW-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
				; AVX512BW-NEXT: vpaddd %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: vpbroadcastd {{.*#+}} xmm1 = [65535,65535,65535,65535]
				; AVX512BW-NEXT: vpminud %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: retq
				;
				; SSE-LABEL: test_x86_sse2_paddus_w_64:
				; SSE: ## %bb.0:
				; SSE-NEXT: movdqa {{.*#+}} xmm2 = [65535,0,65535,0,65535,0,65535,0]
				; SSE-NEXT: pand %xmm2, %xmm0
				; SSE-NEXT: pand %xmm2, %xmm1
				; SSE-NEXT: paddd %xmm0, %xmm1
				; SSE-NEXT: movdqa %xmm2, %xmm0
				; SSE-NEXT: pcmpgtd %xmm1, %xmm0
				; SSE-NEXT: pand %xmm0, %xmm1
				; SSE-NEXT: pandn %xmm2, %xmm0
				; SSE-NEXT: por %xmm1, %xmm0
				; SSE-NEXT: retl
				%1 = zext <4 x i16> %a0 to <4 x i32>
				%2 = zext <4 x i16> %a1 to <4 x i32>
				%3 = add nsw <4 x i32> %1, %2
				%4 = icmp ult <4 x i32> %3, <i32 65535, i32 65535, i32 65535, i32 65535>
				%5 = select <4 x i1> %4, <4 x i32> %3, <4 x i32> <i32 65535, i32 65535, i32 65535, i32 65535>
				%6 = trunc <4 x i32> %5 to <4 x i16>
				ret <4 x i16> %6
				}

				define <8 x i8> @test_x86_sse2_psubs_b_64(<8 x i8> %a0, <8 x i8> %a1) {
				; AVX512BW-LABEL: test_x86_sse2_psubs_b_64:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpsllw $8, %xmm0, %xmm0
				; AVX512BW-NEXT: vpsraw $8, %xmm0, %xmm0
				; AVX512BW-NEXT: vpsllw $8, %xmm1, %xmm1
				; AVX512BW-NEXT: vpsraw $8, %xmm1, %xmm1
				; AVX512BW-NEXT: vpsubw %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: vpminsw {{.*}}(%rip), %xmm0, %xmm0
				; AVX512BW-NEXT: vpmaxsw {{.*}}(%rip), %xmm0, %xmm0
				; AVX512BW-NEXT: retq
				;
				; SSE-LABEL: test_x86_sse2_psubs_b_64:
				; SSE: ## %bb.0:
				; SSE-NEXT: psllw $8, %xmm0
				; SSE-NEXT: psraw $8, %xmm0
				; SSE-NEXT: psllw $8, %xmm1
				; SSE-NEXT: psraw $8, %xmm1
				; SSE-NEXT: psubw %xmm1, %xmm0
				; SSE-NEXT: pminsw LCPI148_0, %xmm0
				; SSE-NEXT: pmaxsw LCPI148_1, %xmm0
				; SSE-NEXT: retl
				%1 = sext <8 x i8> %a0 to <8 x i16>
				%2 = sext <8 x i8> %a1 to <8 x i16>
				%3 = sub nsw <8 x i16> %1, %2
				%4 = icmp slt <8 x i16> %3, <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%5 = select <8 x i1> %4, <8 x i16> %3, <8 x i16> <i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127, i16 127>
				%6 = icmp sgt <8 x i16> %5, <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%7 = select <8 x i1> %6, <8 x i16> %5, <8 x i16> <i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128, i16 -128>
				%8 = trunc <8 x i16> %7 to <8 x i8>
				ret <8 x i8> %8
				}


				define <4 x i16> @test_x86_sse2_psubs_w_64(<4 x i16> %a0, <4 x i16> %a1) {
				; AVX512BW-LABEL: test_x86_sse2_psubs_w_64:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpslld $16, %xmm0, %xmm0
				; AVX512BW-NEXT: vpsrad $16, %xmm0, %xmm0
				; AVX512BW-NEXT: vpslld $16, %xmm1, %xmm1
				; AVX512BW-NEXT: vpsrad $16, %xmm1, %xmm1
				; AVX512BW-NEXT: vpsubd %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: vpbroadcastd {{.*#+}} xmm1 = [32767,32767,32767,32767]
				; AVX512BW-NEXT: vpminsd %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: vpbroadcastd {{.*#+}} xmm1 = [4294934528,4294934528,4294934528,4294934528]
				; AVX512BW-NEXT: vpmaxsd %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: retq
				;
				; SSE-LABEL: test_x86_sse2_psubs_w_64:
				; SSE: ## %bb.0:
				; SSE-NEXT: pslld $16, %xmm0
				; SSE-NEXT: psrad $16, %xmm0
				; SSE-NEXT: pslld $16, %xmm1
				; SSE-NEXT: psrad $16, %xmm1
				; SSE-NEXT: psubd %xmm1, %xmm0
				; SSE-NEXT: movdqa {{.*#+}} xmm1 = [32767,32767,32767,32767]
				; SSE-NEXT: movdqa %xmm1, %xmm2
				; SSE-NEXT: pcmpgtd %xmm0, %xmm2
				; SSE-NEXT: pand %xmm2, %xmm0
				; SSE-NEXT: pandn %xmm1, %xmm2
				; SSE-NEXT: por %xmm0, %xmm2
				; SSE-NEXT: movdqa {{.*#+}} xmm1 = [4294934528,4294934528,4294934528,4294934528]
				; SSE-NEXT: movdqa %xmm2, %xmm0
				; SSE-NEXT: pcmpgtd %xmm1, %xmm0
				; SSE-NEXT: pand %xmm0, %xmm2
				; SSE-NEXT: pandn %xmm1, %xmm0
				; SSE-NEXT: por %xmm2, %xmm0
				; SSE-NEXT: retl
				%1 = sext <4 x i16> %a0 to <4 x i32>
				%2 = sext <4 x i16> %a1 to <4 x i32>
				%3 = sub nsw <4 x i32> %1, %2
				%4 = icmp slt <4 x i32> %3, <i32 32767, i32 32767, i32 32767, i32 32767>
				%5 = select <4 x i1> %4, <4 x i32> %3, <4 x i32> <i32 32767, i32 32767, i32 32767, i32 32767>
				%6 = icmp sgt <4 x i32> %5, <i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%7 = select <4 x i1> %6, <4 x i32> %5, <4 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768>
				%8 = trunc <4 x i32> %7 to <4 x i16>
				ret <4 x i16> %8
				}


				define <8 x i8> @test_x86_sse2_psubus_b_64(<8 x i8> %a0, <8 x i8> %a1) {
				; AVX512BW-LABEL: test_x86_sse2_psubus_b_64:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vmovdqa {{.*#+}} xmm2 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
				; AVX512BW-NEXT: vpand %xmm2, %xmm1, %xmm3
				; AVX512BW-NEXT: vpand %xmm2, %xmm0, %xmm0
				; AVX512BW-NEXT: vpmaxuw %xmm3, %xmm0, %xmm0
				; AVX512BW-NEXT: vpsubw %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: retq
				;
				; SSE-LABEL: test_x86_sse2_psubus_b_64:
				; SSE: ## %bb.0:
				; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,0,255,0,255,0,255,0,255,0,255,0,255,0,255,0]
				; SSE-NEXT: movdqa %xmm1, %xmm3
				; SSE-NEXT: pand %xmm2, %xmm3
				; SSE-NEXT: pand %xmm2, %xmm0
				; SSE-NEXT: pmaxsw %xmm3, %xmm0
				; SSE-NEXT: psubw %xmm1, %xmm0
				; SSE-NEXT: retl
				%cmp = icmp ugt <8 x i8> %a0, %a1
				%sel = select <8 x i1> %cmp, <8 x i8> %a0, <8 x i8> %a1
				%sub = sub <8 x i8> %sel, %a1
				ret <8 x i8> %sub
				}


				define <4 x i16> @test_x86_sse2_psubus_w_64(<4 x i16> %a0, <4 x i16> %a1) {
				; AVX512BW-LABEL: test_x86_sse2_psubus_w_64:
				; AVX512BW: ## %bb.0:
				; AVX512BW-NEXT: vpxor %xmm2, %xmm2, %xmm2
				; AVX512BW-NEXT: vpblendw {{.*#+}} xmm3 = xmm1[0],xmm2[1],xmm1[2],xmm2[3],xmm1[4],xmm2[5],xmm1[6],xmm2[7]
				; AVX512BW-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0],xmm2[1],xmm0[2],xmm2[3],xmm0[4],xmm2[5],xmm0[6],xmm2[7]
				; AVX512BW-NEXT: vpmaxud %xmm3, %xmm0, %xmm0
				; AVX512BW-NEXT: vpsubd %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: retq
				;
				; SSE-LABEL: test_x86_sse2_psubus_w_64:
				; SSE: ## %bb.0:
				; SSE-NEXT: movdqa {{.*#+}} xmm2 = [65535,0,65535,0,65535,0,65535,0]
				; SSE-NEXT: movdqa %xmm1, %xmm3
				; SSE-NEXT: pand %xmm2, %xmm3
				; SSE-NEXT: pand %xmm2, %xmm0
				; SSE-NEXT: movdqa %xmm0, %xmm2
				; SSE-NEXT: pcmpgtd %xmm3, %xmm2
				; SSE-NEXT: pand %xmm2, %xmm0
				; SSE-NEXT: pandn %xmm3, %xmm2
				; SSE-NEXT: por %xmm0, %xmm2
				; SSE-NEXT: psubd %xmm1, %xmm2
				; SSE-NEXT: movdqa %xmm2, %xmm0
				; SSE-NEXT: retl
				%cmp = icmp ugt <4 x i16> %a0, %a1
				%sel = select <4 x i1> %cmp, <4 x i16> %a0, <4 x i16> %a1
				%sub = sub <4 x i16> %sel, %a1
				ret <4 x i16> %sub
				}

test/Instrumentation/MemorySanitizer/msan_x86intrinsics.ll

	Show All 40 Lines
	; CHECK-ORIGINS: store i32 {{.}}[[ORIGIN]], i32 @__msan_retval_origin_tls			; CHECK-ORIGINS: store i32 {{.}}[[ORIGIN]], i32 @__msan_retval_origin_tls
	; CHECK: ret <16 x i8>			; CHECK: ret <16 x i8>


	; Simple NoMem intrinsic			; Simple NoMem intrinsic
	; Check that shadow is OR'ed, and origin is Select'ed			; Check that shadow is OR'ed, and origin is Select'ed
	; And no shadow checks!			; And no shadow checks!

	define <8 x i16> @Paddsw128(<8 x i16> %a, <8 x i16> %b) nounwind uwtable sanitize_memory {			define <8 x i16> @Pmulhuw128(<8 x i16> %a, <8 x i16> %b) nounwind uwtable sanitize_memory {
	%call = call <8 x i16> @llvm.x86.sse2.padds.w(<8 x i16> %a, <8 x i16> %b)			%call = call <8 x i16> @llvm.x86.sse2.pmulhu.w(<8 x i16> %a, <8 x i16> %b)
	ret <8 x i16> %call			ret <8 x i16> %call
	}			}

	declare <8 x i16> @llvm.x86.sse2.padds.w(<8 x i16> %a, <8 x i16> %b) nounwind			declare <8 x i16> @llvm.x86.sse2.pmulhu.w(<8 x i16> %a, <8 x i16> %b) nounwind

	; CHECK-LABEL: @Paddsw128			; CHECK-LABEL: @Pmulhuw128
	; CHECK-NEXT: load <8 x i16>, <8 x i16>* {{.*}} @__msan_param_tls			; CHECK-NEXT: load <8 x i16>, <8 x i16>* {{.*}} @__msan_param_tls
	; CHECK-ORIGINS: load i32, i32* {{.*}} @__msan_param_origin_tls			; CHECK-ORIGINS: load i32, i32* {{.*}} @__msan_param_origin_tls
	; CHECK-NEXT: load <8 x i16>, <8 x i16>* {{.*}} @__msan_param_tls			; CHECK-NEXT: load <8 x i16>, <8 x i16>* {{.*}} @__msan_param_tls
	; CHECK-ORIGINS: load i32, i32* {{.*}} @__msan_param_origin_tls			; CHECK-ORIGINS: load i32, i32* {{.*}} @__msan_param_origin_tls
	; CHECK-NEXT: = or <8 x i16>			; CHECK-NEXT: = or <8 x i16>
	; CHECK-ORIGINS: = bitcast <8 x i16> {{.*}} to i128			; CHECK-ORIGINS: = bitcast <8 x i16> {{.*}} to i128
	; CHECK-ORIGINS-NEXT: = icmp ne i128 {{.*}}, 0			; CHECK-ORIGINS-NEXT: = icmp ne i128 {{.*}}, 0
	; CHECK-ORIGINS-NEXT: = select i1 {{.}}, i32 {{.}}, i32			; CHECK-ORIGINS-NEXT: = select i1 {{.}}, i32 {{.}}, i32
	; CHECK-NEXT: call <8 x i16> @llvm.x86.sse2.padds.w			; CHECK-NEXT: call <8 x i16> @llvm.x86.sse2.pmulhu.w
	; CHECK-NEXT: store <8 x i16> {{.*}} @__msan_retval_tls			; CHECK-NEXT: store <8 x i16> {{.*}} @__msan_retval_tls
	; CHECK-ORIGINS: store i32 {{.*}} @__msan_retval_origin_tls			; CHECK-ORIGINS: store i32 {{.*}} @__msan_retval_origin_tls
	; CHECK-NEXT: ret <8 x i16>			; CHECK-NEXT: ret <8 x i16>

This is an archive of the discontinued LLVM Phabricator instance.

Lowering x86 adds/addus/subs/subus intrinsics (llvm part)ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 143865

include/llvm/IR/IntrinsicsX86.td

lib/IR/AutoUpgrade.cpp

lib/Target/X86/X86ISelLowering.cpp

lib/Target/X86/X86IntrinsicsInfo.h

test/CodeGen/X86/avx2-intrinsics-fast-isel.ll

test/CodeGen/X86/avx2-intrinsics-x86-upgrade.ll

test/CodeGen/X86/avx2-intrinsics-x86.ll

test/CodeGen/X86/avx512bw-intrinsics-upgrade.ll

test/CodeGen/X86/avx512bw-intrinsics.ll

test/CodeGen/X86/avx512bwvl-intrinsics-upgrade.ll

test/CodeGen/X86/avx512bwvl-intrinsics.ll

test/CodeGen/X86/sse2-intrinsics-fast-isel.ll

test/CodeGen/X86/sse2-intrinsics-x86-upgrade.ll

test/CodeGen/X86/sse2-intrinsics-x86.ll

test/CodeGen/X86/sse2-schedule.ll

test/CodeGen/X86/vector-arith-sat.ll

test/Instrumentation/MemorySanitizer/msan_x86intrinsics.ll

Lowering x86 adds/addus/subs/subus intrinsics (llvm part)
ClosedPublic