This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/X86/
-
Target/
-
X86/
2
X86ISelLowering.cpp
-
X86InstrAVX512.td
2/4
X86InstrSSE.td
-
X86TargetTransformInfo.cpp
-
test/
-
Analysis/CostModel/X86/
-
CostModel/
-
X86/
-
fptoi_sat.ll
-
shuffle-load.ll
-
shuffle-two-src-fp16.ll
-
CodeGen/X86/
-
X86/
-
avx512-insert-extract.ll
-
avx512-masked_memop-16-8.ll
-
avx512-vec-cmp.ll
-
avx512fp16-mov.ll
-
avx512fp16-unsafe-fp-math.ll
-
fpclamptosat_vec.ll
-
fptosi-sat-vector-128.ll
-
fptoui-sat-vector-128.ll
-
frem.ll
-
half.ll
-
pr31088.ll
-
pr47000.ll
-
shuffle-extract-subvector.ll
1/2
vec_fp_to_int.ll
-
vector-half-conversions.ll
-
vector-reduce-fmax-nnan.ll
-
vector-reduce-fmin-nnan.ll

Differential D127982

[X86][FP16] Enable vector support for FP16 emulation
ClosedPublic

Authored by pengfei on Jun 16 2022, 9:24 AM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
spatel
LuoYuanke
annita.zhang
hjl.tools
efriedma
sjarus
skan

Commits

rGf18794816270: [X86][FP16] Enable vector support for FP16 emulation

Summary

This is follow up of D107082, which enable vector support according to psABI.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

pengfei created this revision.Jun 16 2022, 9:24 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 16 2022, 9:24 AM

Herald added subscribers: jsji, armkevincheng, eric-k256 and 2 others. · View Herald Transcript

pengfei requested review of this revision.Jun 16 2022, 9:24 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 16 2022, 9:24 AM

Herald added a subscriber: llvm-commits. · View Herald Transcript

Harbormaster completed remote builds in B170290: Diff 437574.Jun 16 2022, 9:24 AM

pengfei mentioned this in D107082: [X86][RFC] Enable `_Float16` type support on X86 following the psABI.Jun 16 2022, 9:25 AM

FreddyYe added a subscriber: FreddyYe.Jun 16 2022, 5:32 PM

Rebase.

Harbormaster completed remote builds in B170450: Diff 437815.Jun 17 2022, 2:17 AM

Rebase

Harbormaster completed remote builds in B170508: Diff 437896.Jun 17 2022, 9:09 AM

Rebase + Fix FP16 <-> INT problem.

Harbormaster completed remote builds in B174515: Diff 443443.Jul 9 2022, 11:05 AM

skan added inline comments.Jul 13 2022, 12:17 AM

llvm/lib/Target/X86/X86InstrSSE.td
571	Why did you move the pattern down?

skan added inline comments.Jul 13 2022, 12:23 AM

llvm/lib/Target/X86/X86InstrSSE.td
635	Should we use `UseSSE2` here?

Address Shengchen's comments and fix an infinite loop issue.

llvm/lib/Target/X86/X86InstrSSE.td
571	No idea. Should be accident :)
635	I think AVX instruction is always preferred, but yes, `UseSSE2` can make sure of that.

RKSimon added inline comments.Jul 14 2022, 3:32 AM

llvm/test/CodeGen/X86/vec_fp_to_int.ll
2160	Why are we removing these?

pengfei added inline comments.Jul 14 2022, 3:59 AM

llvm/test/CodeGen/X86/vec_fp_to_int.ll
2160	It has been moved to "llvm/test/CodeGen/X86/vector-half-conversions.ll" The reason is it's failed with `-mtriple=i686` and `-mtriple=i686 -mattr=+sse` in this file now. This is expected because the ABI requests targets that at least have SSE2 to support the `half` type.

Harbormaster completed remote builds in B175343: Diff 444579.Jul 14 2022, 4:43 AM

LGTM

This revision is now accepted and ready to land.Jul 14 2022, 5:04 AM

Thanks Shengchen!

Rebase.

This revision was landed with ongoing or failed builds.Jul 15 2022, 6:55 PM

Closed by commit rGf18794816270: [X86][FP16] Enable vector support for FP16 emulation (authored by pengfei). · Explain Why

This revision was automatically updated to reflect the committed changes.

pengfei added a commit: rGf18794816270: [X86][FP16] Enable vector support for FP16 emulation.

Harbormaster completed remote builds in B175774: Diff 445167.Jul 15 2022, 7:26 PM

yubing added a subscriber: yubing.Jul 18 2022, 12:37 AM

yubing added inline comments.

llvm/lib/Target/X86/X86ISelLowering.cpp
1873	it seems you forgot v32f16's fadd. now you make v32f16 type legal, then v32f16's fadd become legal, but there is no v32f16's fadd's instruction for avx512 without fp16. it will lead to crash. i would like to suggest that we can promote v32f16's fadd to v32f32's fadd, which can be split into two v16f32's fadd by legalizeType(after vector legalization). what do you think? for (unsigned Opc : { ISD::FADD, ISD::FSUB, ISD::FMUL, ISD::FDIV }) setOperationPromotedToType(Opc, MVT::v32f16, MVT::v32f32);

yubing added inline comments.Jul 18 2022, 2:14 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
1105	besides, since we have addps(xmm) for sse2, so we can lower v8f16 into two v4f32, here setting v8f16's fadd as expand will lead to performance issue.

hi, we're seeing flaky crashes after this patch and I'm having trouble figuring out what's going wrong

xla.ll10 KBDownload

llc -O3 /tmp/xla.ll

diff before/after this patch

3,4c3,4
<       .section        .rodata,"a",@progbits
<       .p2align        1                               # -- Begin function main.34
---
>       .section        .rodata.cst16,"aM",@progbits,16
>       .p2align        4                               # -- Begin function main.34
6a7,17
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .section        .rodata,"a",@progbits
>       .p2align        1
> .LCPI0_1:
>       .short  0x6056                          # half 555
15a27,28
>       movdqa  .LCPI0_0(%rip), %xmm0           # xmm0 = [5.55E+2,5.55E+2,5.55E+2,5.55E+2,5.55E+2,5.55E+2,5.55E+2,5.55E+2]
>       movdqa  %xmm0, (%rax)
17,18d29
<       movq    %rsi, (%rax)
<       movq    %rsi, 8(%rax)
21c32
<       pinsrw  $0, .LCPI0_0(%rip), %xmm0
---
>       pinsrw  $0, .LCPI0_1(%rip), %xmm0

full assembly

good.s1 KBDownload

bad.s1 KBDownload

we had theories that there was something to do with alignment with the movdqa?

durin42 added a subscriber: durin42.Jul 18 2022, 12:41 PM

In D127982#3660741, @aeubanks wrote:

hi, we're seeing flaky crashes after this patch and I'm having trouble figuring out what's going wrong

xla.ll10 KBDownload

llc -O3 /tmp/xla.ll

diff before/after this patch

3,4c3,4
<       .section        .rodata,"a",@progbits
<       .p2align        1                               # -- Begin function main.34
---
>       .section        .rodata.cst16,"aM",@progbits,16
>       .p2align        4                               # -- Begin function main.34
6a7,17
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .short  0x6056                          # half 555
>       .section        .rodata,"a",@progbits
>       .p2align        1
> .LCPI0_1:
>       .short  0x6056                          # half 555
15a27,28
>       movdqa  .LCPI0_0(%rip), %xmm0           # xmm0 = [5.55E+2,5.55E+2,5.55E+2,5.55E+2,5.55E+2,5.55E+2,5.55E+2,5.55E+2]
>       movdqa  %xmm0, (%rax)
17,18d29
<       movq    %rsi, (%rax)
<       movq    %rsi, 8(%rax)
21c32
<       pinsrw  $0, .LCPI0_0(%rip), %xmm0
---
>       pinsrw  $0, .LCPI0_1(%rip), %xmm0

full assembly

good.s1 KBDownload

bad.s1 KBDownload

we had theories that there was something to do with alignment with the movdqa?

Hi @aeubanks, I think it should be an inherent problem in the application and just exposed by this patch. The diff in the assembly is as expected. The problem is the align 16 in below IR:

%fusion = load ptr, ptr %buffer_table, align 8, !invariant.load !0, !dereferenceable !2, !align !1
store half 0xH6056, ptr %fusion, align 16, !alias.scope !3, !noalias !6

which makes codegen to select movdqa, while the flaky crashes turn out %fusion is not always aligned to 16.

In D127982#3661389, @pengfei wrote:
Hi @aeubanks, I think it should be an inherent problem in the application and just exposed by this patch. The diff in the assembly is as expected. The problem is the align 16 in below IR:
%fusion = load ptr, ptr %buffer_table, align 8, !invariant.load !0, !dereferenceable !2, !align !1
store half 0xH6056, ptr %fusion, align 16, !alias.scope !3, !noalias !6
which makes codegen to select movdqa, while the flaky crashes turn out %fusion is not always aligned to 16.

The pointers in %buffer_table are known to be always 16-byte aligned, so this shouldn't be a problem. If I run this with llc -mcpu=skx I get

movq    (%rcx), %rax  # load %fusion into %rax
...
vmovdqu %ymm0, 44(%rax)
vmovdqa 44(%rax), %xmm0  # crash here

I haven't figured out yet why this happens, but adding 44 to a 16-byte aligned pointer will never be 16-byte aligned.

bkramer mentioned this in rG8aff88fd3a5f: [LegalizeDAG] Propagate alignment in ExpandExtractFromVectorThroughStack.Jul 19 2022, 4:17 AM

Hi @pengfei, this patch is causing clang to crash with a "fatal error: error in backend" when compiling some code with -mno-avx2. A (mostly automatically) reduced test case (thanks @joanahalili for preparing it) is below. I imagine it may already be a not perfectly valid C++, but the original code was a quite hairy template beast to be a good example. I hope, this helps fixing the issue soon.

$ cat input.cc
typedef long __m128i __attribute__((__vector_size__(16)));
struct half {
  short x;
};
__m128i pset1(half from) {
  short __w7, __w6, __w5, __w4, __w3, __w2;
  return (__attribute__((__vector_size__(8 * sizeof(short)))) short){
          from.x, from.x, __w2, __w3, __w4, __w5, __w6, __w7};
}
__attribute__((__vector_size__(8 * sizeof(float)))) float pmul___trans_tmp_8;
void g(int *);
struct S {
  S() { g(&n); }
  virtual void c() {
    pmul___trans_tmp_8 = __builtin_ia32_vcvtph2ps256(pset1(m_value));
  }
  half m_value;
  int n;
};
void f() { S(); }
$ ./clang-good -std=gnu++17 -O3 --target=x86_64--linux-gnu  -m64 -march=haswell -maes -mprefer-vector-width=128 -mno-avx2 -c input.cc
$ ./clang-good --version
clang version trunk (e97b2d413849d3dbc8b49740ce5a07ed0382309c)
Target: x86_64-unknown-linux-gnu
Thread model: posix
InstalledDir: ...
$ ./clang -std=gnu++17 -O3 --target=x86_64--linux-gnu  -m64 -march=haswell -maes -mprefer-vector-width=128 -c input.cc
$ ./clang -std=gnu++17 -O3 --target=x86_64--linux-gnu  -m64 -march=haswell -maes -mprefer-vector-width=128 -mno-avx2 -c input.cc
fatal error: error in backend: Cannot select: 0x55233f9ad270: v8f16,ch = X86ISD::VBROADCAST_LOAD<(dereferenceable load (s16) from %ir.0 + 8, align 8)> 0x55233f922068, 0x55233f9ad4e0
  0x55233f9ad4e0: i64 = add 0x55233f9ad750, Constant:i64<8>
    0x55233f9ad750: i64,ch = CopyFromReg 0x55233f922068, Register:i64 %0
      0x55233f9ad478: i64 = Register %0
    0x55233f9ad680: i64 = Constant<8>
In function: _ZN1S1cEv
clang: error: clang frontend command failed with exit code 70 (use -v to see invocation)
clang version trunk (f18794816270244f9942e9217b96e23a94a7f32c)
Target: x86_64-unknown-linux-gnu
Thread model: posix
InstalledDir: ...
clang: note: diagnostic msg:
********************

PLEASE ATTACH THE FOLLOWING FILES TO THE BUG REPORT:
Preprocessed source(s) and associated run script(s) are located at:
clang: note: diagnostic msg: /tmp/input-188997.cpp
clang: note: diagnostic msg: /tmp/input-188997.sh
clang: note: diagnostic msg:

********************

In D127982#3687605, @alexfh wrote:

$ cat input.cc
typedef long __m128i __attribute__((__vector_size__(16)));
struct half {
  short x;
};
__m128i pset1(half from) {
  short __w7, __w6, __w5, __w4, __w3, __w2;
  return (__attribute__((__vector_size__(8 * sizeof(short)))) short){
          from.x, from.x, __w2, __w3, __w4, __w5, __w6, __w7};
}
__attribute__((__vector_size__(8 * sizeof(float)))) float pmul___trans_tmp_8;
void g(int *);
struct S {
  S() { g(&n); }
  virtual void c() {
    pmul___trans_tmp_8 = __builtin_ia32_vcvtph2ps256(pset1(m_value));
  }
  half m_value;
  int n;
};
void f() { S(); }
$ ./clang-good -std=gnu++17 -O3 --target=x86_64--linux-gnu  -m64 -march=haswell -maes -mprefer-vector-width=128 -mno-avx2 -c input.cc
$ ./clang-good --version
clang version trunk (e97b2d413849d3dbc8b49740ce5a07ed0382309c)
Target: x86_64-unknown-linux-gnu
Thread model: posix
InstalledDir: ...
$ ./clang -std=gnu++17 -O3 --target=x86_64--linux-gnu  -m64 -march=haswell -maes -mprefer-vector-width=128 -c input.cc
$ ./clang -std=gnu++17 -O3 --target=x86_64--linux-gnu  -m64 -march=haswell -maes -mprefer-vector-width=128 -mno-avx2 -c input.cc
fatal error: error in backend: Cannot select: 0x55233f9ad270: v8f16,ch = X86ISD::VBROADCAST_LOAD<(dereferenceable load (s16) from %ir.0 + 8, align 8)> 0x55233f922068, 0x55233f9ad4e0
  0x55233f9ad4e0: i64 = add 0x55233f9ad750, Constant:i64<8>
    0x55233f9ad750: i64,ch = CopyFromReg 0x55233f922068, Register:i64 %0
      0x55233f9ad478: i64 = Register %0
    0x55233f9ad680: i64 = Constant<8>
In function: _ZN1S1cEv
clang: error: clang frontend command failed with exit code 70 (use -v to see invocation)
clang version trunk (f18794816270244f9942e9217b96e23a94a7f32c)
Target: x86_64-unknown-linux-gnu
Thread model: posix
InstalledDir: ...
clang: note: diagnostic msg:
********************

PLEASE ATTACH THE FOLLOWING FILES TO THE BUG REPORT:
Preprocessed source(s) and associated run script(s) are located at:
clang: note: diagnostic msg: /tmp/input-188997.cpp
clang: note: diagnostic msg: /tmp/input-188997.sh
clang: note: diagnostic msg:

********************

Thanks @alexfh ! The test case is good enough. I'll investigate it. Thanks again!

pengfei mentioned this in D130817: [X86][FP16] Fix vector_shuffle and lowering without f16c feature problems.Jul 29 2022, 9:18 PM

pengfei mentioned this in rG23021d4d8c6b: [X86][FP16] Fix vector_shuffle and lowering without f16c feature problems.Aug 2 2022, 7:55 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

436 lines

X86InstrAVX512.td

48 lines

X86InstrSSE.td

70 lines

X86TargetTransformInfo.cpp

65 lines

test/

Analysis/

CostModel/

X86/

fptoi_sat.ll

374 lines

shuffle-load.ll

72 lines

shuffle-two-src-fp16.ll

4 lines

CodeGen/

X86/

avx512-insert-extract.ll

105 lines

avx512-masked_memop-16-8.ll

271 lines

avx512-vec-cmp.ll

137 lines

avx512fp16-mov.ll

16 lines

avx512fp16-unsafe-fp-math.ll

4 lines

fpclamptosat_vec.ll

920 lines

fptosi-sat-vector-128.ll

315 lines

fptoui-sat-vector-128.ll

323 lines

1083 lines

44 lines

139 lines

65 lines

shuffle-extract-subvector.ll

24 lines

vec_fp_to_int.ll

65 lines

vector-half-conversions.ll

468 lines

vector-reduce-fmax-nnan.ll

73 lines

vector-reduce-fmin-nnan.ll

73 lines

Diff 445169

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 549 Lines • ▼ Show 20 Lines	X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM,
setOperationAction(ISD::DYNAMIC_STACKALLOC, PtrVT, Custom);		setOperationAction(ISD::DYNAMIC_STACKALLOC, PtrVT, Custom);

// GC_TRANSITION_START and GC_TRANSITION_END need custom lowering.		// GC_TRANSITION_START and GC_TRANSITION_END need custom lowering.
setOperationAction(ISD::GC_TRANSITION_START, MVT::Other, Custom);		setOperationAction(ISD::GC_TRANSITION_START, MVT::Other, Custom);
setOperationAction(ISD::GC_TRANSITION_END, MVT::Other, Custom);		setOperationAction(ISD::GC_TRANSITION_END, MVT::Other, Custom);

setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f64, Legal);		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f64, Legal);

		auto setF16Action = [&] (MVT VT, LegalizeAction Action) {
		setOperationAction(ISD::FABS, VT, Action);
		setOperationAction(ISD::FNEG, VT, Action);
		setOperationAction(ISD::FCOPYSIGN, VT, Expand);
		setOperationAction(ISD::FREM, VT, Action);
		setOperationAction(ISD::FMA, VT, Action);
		setOperationAction(ISD::FMINNUM, VT, Action);
		setOperationAction(ISD::FMAXNUM, VT, Action);
		setOperationAction(ISD::FMINIMUM, VT, Action);
		setOperationAction(ISD::FMAXIMUM, VT, Action);
		setOperationAction(ISD::FSIN, VT, Action);
		setOperationAction(ISD::FCOS, VT, Action);
		setOperationAction(ISD::FSINCOS, VT, Action);
		setOperationAction(ISD::FSQRT, VT, Action);
		setOperationAction(ISD::FPOW, VT, Action);
		setOperationAction(ISD::FLOG, VT, Action);
		setOperationAction(ISD::FLOG2, VT, Action);
		setOperationAction(ISD::FLOG10, VT, Action);
		setOperationAction(ISD::FEXP, VT, Action);
		setOperationAction(ISD::FEXP2, VT, Action);
		setOperationAction(ISD::FCEIL, VT, Action);
		setOperationAction(ISD::FFLOOR, VT, Action);
		setOperationAction(ISD::FNEARBYINT, VT, Action);
		setOperationAction(ISD::FRINT, VT, Action);
		setOperationAction(ISD::BR_CC, VT, Action);
		setOperationAction(ISD::SETCC, VT, Action);
		setOperationAction(ISD::SELECT, VT, Custom);
		setOperationAction(ISD::SELECT_CC, VT, Action);
		setOperationAction(ISD::FROUND, VT, Action);
		setOperationAction(ISD::FROUNDEVEN, VT, Action);
		setOperationAction(ISD::FTRUNC, VT, Action);
		};

if (!Subtarget.useSoftFloat() && Subtarget.hasSSE2()) {		if (!Subtarget.useSoftFloat() && Subtarget.hasSSE2()) {
// f16, f32 and f64 use SSE.		// f16, f32 and f64 use SSE.
// Set up the FP register classes.		// Set up the FP register classes.
addRegisterClass(MVT::f16, Subtarget.hasAVX512() ? &X86::FR16XRegClass		addRegisterClass(MVT::f16, Subtarget.hasAVX512() ? &X86::FR16XRegClass
: &X86::FR16RegClass);		: &X86::FR16RegClass);
addRegisterClass(MVT::f32, Subtarget.hasAVX512() ? &X86::FR32XRegClass		addRegisterClass(MVT::f32, Subtarget.hasAVX512() ? &X86::FR32XRegClass
: &X86::FR32RegClass);		: &X86::FR32RegClass);
addRegisterClass(MVT::f64, Subtarget.hasAVX512() ? &X86::FR64XRegClass		addRegisterClass(MVT::f64, Subtarget.hasAVX512() ? &X86::FR64XRegClass
Show All 21 Lines	for (auto VT : { MVT::f32, MVT::f64 }) {

// We don't support sin/cos/fmod		// We don't support sin/cos/fmod
setOperationAction(ISD::FSIN , VT, Expand);		setOperationAction(ISD::FSIN , VT, Expand);
setOperationAction(ISD::FCOS , VT, Expand);		setOperationAction(ISD::FCOS , VT, Expand);
setOperationAction(ISD::FSINCOS, VT, Expand);		setOperationAction(ISD::FSINCOS, VT, Expand);
}		}

// Half type will be promoted by default.		// Half type will be promoted by default.
setOperationAction(ISD::FABS, MVT::f16, Promote);		setF16Action(MVT::f16, Promote);
setOperationAction(ISD::FNEG, MVT::f16, Promote);
setOperationAction(ISD::FCOPYSIGN, MVT::f16, Expand);
setOperationAction(ISD::FADD, MVT::f16, Promote);		setOperationAction(ISD::FADD, MVT::f16, Promote);
setOperationAction(ISD::FSUB, MVT::f16, Promote);		setOperationAction(ISD::FSUB, MVT::f16, Promote);
setOperationAction(ISD::FMUL, MVT::f16, Promote);		setOperationAction(ISD::FMUL, MVT::f16, Promote);
setOperationAction(ISD::FDIV, MVT::f16, Promote);		setOperationAction(ISD::FDIV, MVT::f16, Promote);
setOperationAction(ISD::FREM, MVT::f16, Promote);
setOperationAction(ISD::FMA, MVT::f16, Promote);
setOperationAction(ISD::FMINNUM, MVT::f16, Promote);
setOperationAction(ISD::FMAXNUM, MVT::f16, Promote);
setOperationAction(ISD::FMINIMUM, MVT::f16, Promote);
setOperationAction(ISD::FMAXIMUM, MVT::f16, Promote);
setOperationAction(ISD::FSIN, MVT::f16, Promote);
setOperationAction(ISD::FCOS, MVT::f16, Promote);
setOperationAction(ISD::FSINCOS, MVT::f16, Promote);
setOperationAction(ISD::FSQRT, MVT::f16, Promote);
setOperationAction(ISD::FPOW, MVT::f16, Promote);
setOperationAction(ISD::FLOG, MVT::f16, Promote);
setOperationAction(ISD::FLOG2, MVT::f16, Promote);
setOperationAction(ISD::FLOG10, MVT::f16, Promote);
setOperationAction(ISD::FEXP, MVT::f16, Promote);
setOperationAction(ISD::FEXP2, MVT::f16, Promote);
setOperationAction(ISD::FCEIL, MVT::f16, Promote);
setOperationAction(ISD::FFLOOR, MVT::f16, Promote);
setOperationAction(ISD::FNEARBYINT, MVT::f16, Promote);
setOperationAction(ISD::FRINT, MVT::f16, Promote);
setOperationAction(ISD::BR_CC, MVT::f16, Promote);
setOperationAction(ISD::SETCC, MVT::f16, Promote);
setOperationAction(ISD::SELECT, MVT::f16, Custom);
setOperationAction(ISD::SELECT_CC, MVT::f16, Promote);
setOperationAction(ISD::FROUND, MVT::f16, Promote);
setOperationAction(ISD::FROUNDEVEN, MVT::f16, Promote);
setOperationAction(ISD::FTRUNC, MVT::f16, Promote);
setOperationAction(ISD::FP_ROUND, MVT::f16, LibCall);		setOperationAction(ISD::FP_ROUND, MVT::f16, LibCall);
setOperationAction(ISD::FP_EXTEND, MVT::f32, LibCall);		setOperationAction(ISD::FP_EXTEND, MVT::f32, LibCall);
setOperationAction(ISD::FP_EXTEND, MVT::f64, Custom);		setOperationAction(ISD::FP_EXTEND, MVT::f64, Custom);

setOperationAction(ISD::STRICT_FADD, MVT::f16, Promote);		setOperationAction(ISD::STRICT_FADD, MVT::f16, Promote);
setOperationAction(ISD::STRICT_FSUB, MVT::f16, Promote);		setOperationAction(ISD::STRICT_FSUB, MVT::f16, Promote);
setOperationAction(ISD::STRICT_FMUL, MVT::f16, Promote);		setOperationAction(ISD::STRICT_FMUL, MVT::f16, Promote);
setOperationAction(ISD::STRICT_FDIV, MVT::f16, Promote);		setOperationAction(ISD::STRICT_FDIV, MVT::f16, Promote);
▲ Show 20 Lines • Show All 361 Lines • ▼ Show 20 Lines	addRegisterClass(MVT::v2f64, Subtarget.hasVLX() ? &X86::VR128XRegClass
: &X86::VR128RegClass);		: &X86::VR128RegClass);

// FIXME: Unfortunately, -soft-float and -no-implicit-float mean XMM		// FIXME: Unfortunately, -soft-float and -no-implicit-float mean XMM
// registers cannot be used even for integer operations.		// registers cannot be used even for integer operations.
addRegisterClass(MVT::v16i8, Subtarget.hasVLX() ? &X86::VR128XRegClass		addRegisterClass(MVT::v16i8, Subtarget.hasVLX() ? &X86::VR128XRegClass
: &X86::VR128RegClass);		: &X86::VR128RegClass);
addRegisterClass(MVT::v8i16, Subtarget.hasVLX() ? &X86::VR128XRegClass		addRegisterClass(MVT::v8i16, Subtarget.hasVLX() ? &X86::VR128XRegClass
: &X86::VR128RegClass);		: &X86::VR128RegClass);
		addRegisterClass(MVT::v8f16, Subtarget.hasVLX() ? &X86::VR128XRegClass
		: &X86::VR128RegClass);
addRegisterClass(MVT::v4i32, Subtarget.hasVLX() ? &X86::VR128XRegClass		addRegisterClass(MVT::v4i32, Subtarget.hasVLX() ? &X86::VR128XRegClass
: &X86::VR128RegClass);		: &X86::VR128RegClass);
addRegisterClass(MVT::v2i64, Subtarget.hasVLX() ? &X86::VR128XRegClass		addRegisterClass(MVT::v2i64, Subtarget.hasVLX() ? &X86::VR128XRegClass
: &X86::VR128RegClass);		: &X86::VR128RegClass);

for (auto VT : { MVT::v2i8, MVT::v4i8, MVT::v8i8,		for (auto VT : { MVT::v2i8, MVT::v4i8, MVT::v8i8,
MVT::v2i16, MVT::v4i16, MVT::v2i32 }) {		MVT::v2i16, MVT::v4i16, MVT::v2i32 }) {
setOperationAction(ISD::SDIV, VT, Custom);		setOperationAction(ISD::SDIV, VT, Custom);
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasSSE2()) {
for (auto VT : { MVT::v16i8, MVT::v8i16, MVT::v4i32 }) {		for (auto VT : { MVT::v16i8, MVT::v8i16, MVT::v4i32 }) {
setOperationAction(ISD::SCALAR_TO_VECTOR, VT, Custom);		setOperationAction(ISD::SCALAR_TO_VECTOR, VT, Custom);
setOperationAction(ISD::BUILD_VECTOR, VT, Custom);		setOperationAction(ISD::BUILD_VECTOR, VT, Custom);
setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);		setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);
setOperationAction(ISD::VSELECT, VT, Custom);		setOperationAction(ISD::VSELECT, VT, Custom);
setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);		setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);
}		}

for (auto VT : { MVT::v2f64, MVT::v2i64 }) {		for (auto VT : { MVT::v8f16, MVT::v2f64, MVT::v2i64 }) {
setOperationAction(ISD::BUILD_VECTOR, VT, Custom);		setOperationAction(ISD::BUILD_VECTOR, VT, Custom);
setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);		setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);
setOperationAction(ISD::VSELECT, VT, Custom);		setOperationAction(ISD::VSELECT, VT, Custom);

if (VT == MVT::v2i64 && !Subtarget.is64Bit())		if (VT == MVT::v2i64 && !Subtarget.is64Bit())
continue;		continue;

setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Custom);
setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);		setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);
}		}
		setF16Action(MVT::v8f16, Expand);
		setOperationAction(ISD::FADD, MVT::v8f16, Expand);
		yubingUnsubmitted Not Done Reply Inline Actions besides, since we have addps(xmm) for sse2, so we can lower v8f16 into two v4f32, here setting v8f16's fadd as expand will lead to performance issue. yubing: besides, since we have addps(xmm) for sse2, so we can lower v8f16 into two v4f32, here setting…
		setOperationAction(ISD::FSUB, MVT::v8f16, Expand);
		setOperationAction(ISD::FMUL, MVT::v8f16, Expand);
		setOperationAction(ISD::FDIV, MVT::v8f16, Expand);

// Custom lower v2i64 and v2f64 selects.		// Custom lower v2i64 and v2f64 selects.
setOperationAction(ISD::SELECT, MVT::v2f64, Custom);		setOperationAction(ISD::SELECT, MVT::v2f64, Custom);
setOperationAction(ISD::SELECT, MVT::v2i64, Custom);		setOperationAction(ISD::SELECT, MVT::v2i64, Custom);
setOperationAction(ISD::SELECT, MVT::v4i32, Custom);		setOperationAction(ISD::SELECT, MVT::v4i32, Custom);
setOperationAction(ISD::SELECT, MVT::v8i16, Custom);		setOperationAction(ISD::SELECT, MVT::v8i16, Custom);
		setOperationAction(ISD::SELECT, MVT::v8f16, Custom);
setOperationAction(ISD::SELECT, MVT::v16i8, Custom);		setOperationAction(ISD::SELECT, MVT::v16i8, Custom);

setOperationAction(ISD::FP_TO_SINT, MVT::v4i32, Legal);		setOperationAction(ISD::FP_TO_SINT, MVT::v4i32, Custom);
setOperationAction(ISD::FP_TO_UINT, MVT::v4i32, Custom);		setOperationAction(ISD::FP_TO_UINT, MVT::v4i32, Custom);
setOperationAction(ISD::FP_TO_SINT, MVT::v2i32, Custom);		setOperationAction(ISD::FP_TO_SINT, MVT::v2i32, Custom);
setOperationAction(ISD::FP_TO_UINT, MVT::v2i32, Custom);		setOperationAction(ISD::FP_TO_UINT, MVT::v2i32, Custom);
setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v4i32, Legal);		setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v4i32, Custom);
setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v2i32, Custom);		setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v2i32, Custom);

// Custom legalize these to avoid over promotion or custom promotion.		// Custom legalize these to avoid over promotion or custom promotion.
for (auto VT : {MVT::v2i8, MVT::v4i8, MVT::v8i8, MVT::v2i16, MVT::v4i16}) {		for (auto VT : {MVT::v2i8, MVT::v4i8, MVT::v8i8, MVT::v2i16, MVT::v4i16}) {
setOperationAction(ISD::FP_TO_SINT, VT, Custom);		setOperationAction(ISD::FP_TO_SINT, VT, Custom);
setOperationAction(ISD::FP_TO_UINT, VT, Custom);		setOperationAction(ISD::FP_TO_UINT, VT, Custom);
setOperationAction(ISD::STRICT_FP_TO_SINT, VT, Custom);		setOperationAction(ISD::STRICT_FP_TO_SINT, VT, Custom);
setOperationAction(ISD::STRICT_FP_TO_UINT, VT, Custom);		setOperationAction(ISD::STRICT_FP_TO_UINT, VT, Custom);
}		}

setOperationAction(ISD::SINT_TO_FP, MVT::v4i32, Legal);		setOperationAction(ISD::SINT_TO_FP, MVT::v4i32, Custom);
setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v4i32, Legal);		setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v4i32, Custom);
setOperationAction(ISD::SINT_TO_FP, MVT::v2i32, Custom);		setOperationAction(ISD::SINT_TO_FP, MVT::v2i32, Custom);
setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v2i32, Custom);		setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v2i32, Custom);

setOperationAction(ISD::UINT_TO_FP, MVT::v2i32, Custom);		setOperationAction(ISD::UINT_TO_FP, MVT::v2i32, Custom);
setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v2i32, Custom);		setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v2i32, Custom);

setOperationAction(ISD::UINT_TO_FP, MVT::v4i32, Custom);		setOperationAction(ISD::UINT_TO_FP, MVT::v4i32, Custom);
setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v4i32, Custom);		setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v4i32, Custom);
▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines

if (!Subtarget.useSoftFloat() && Subtarget.hasAVX()) {		if (!Subtarget.useSoftFloat() && Subtarget.hasAVX()) {
bool HasInt256 = Subtarget.hasInt256();		bool HasInt256 = Subtarget.hasInt256();

addRegisterClass(MVT::v32i8, Subtarget.hasVLX() ? &X86::VR256XRegClass		addRegisterClass(MVT::v32i8, Subtarget.hasVLX() ? &X86::VR256XRegClass
: &X86::VR256RegClass);		: &X86::VR256RegClass);
addRegisterClass(MVT::v16i16, Subtarget.hasVLX() ? &X86::VR256XRegClass		addRegisterClass(MVT::v16i16, Subtarget.hasVLX() ? &X86::VR256XRegClass
: &X86::VR256RegClass);		: &X86::VR256RegClass);
		addRegisterClass(MVT::v16f16, Subtarget.hasVLX() ? &X86::VR256XRegClass
		: &X86::VR256RegClass);
addRegisterClass(MVT::v8i32, Subtarget.hasVLX() ? &X86::VR256XRegClass		addRegisterClass(MVT::v8i32, Subtarget.hasVLX() ? &X86::VR256XRegClass
: &X86::VR256RegClass);		: &X86::VR256RegClass);
addRegisterClass(MVT::v8f32, Subtarget.hasVLX() ? &X86::VR256XRegClass		addRegisterClass(MVT::v8f32, Subtarget.hasVLX() ? &X86::VR256XRegClass
: &X86::VR256RegClass);		: &X86::VR256RegClass);
addRegisterClass(MVT::v4i64, Subtarget.hasVLX() ? &X86::VR256XRegClass		addRegisterClass(MVT::v4i64, Subtarget.hasVLX() ? &X86::VR256XRegClass
: &X86::VR256RegClass);		: &X86::VR256RegClass);
addRegisterClass(MVT::v4f64, Subtarget.hasVLX() ? &X86::VR256XRegClass		addRegisterClass(MVT::v4f64, Subtarget.hasVLX() ? &X86::VR256XRegClass
: &X86::VR256RegClass);		: &X86::VR256RegClass);
Show All 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasAVX()) {
}		}

// (fp_to_int:v8i16 (v8f32 ..)) requires the result type to be promoted		// (fp_to_int:v8i16 (v8f32 ..)) requires the result type to be promoted
// even though v8i16 is a legal type.		// even though v8i16 is a legal type.
setOperationPromotedToType(ISD::FP_TO_SINT, MVT::v8i16, MVT::v8i32);		setOperationPromotedToType(ISD::FP_TO_SINT, MVT::v8i16, MVT::v8i32);
setOperationPromotedToType(ISD::FP_TO_UINT, MVT::v8i16, MVT::v8i32);		setOperationPromotedToType(ISD::FP_TO_UINT, MVT::v8i16, MVT::v8i32);
setOperationPromotedToType(ISD::STRICT_FP_TO_SINT, MVT::v8i16, MVT::v8i32);		setOperationPromotedToType(ISD::STRICT_FP_TO_SINT, MVT::v8i16, MVT::v8i32);
setOperationPromotedToType(ISD::STRICT_FP_TO_UINT, MVT::v8i16, MVT::v8i32);		setOperationPromotedToType(ISD::STRICT_FP_TO_UINT, MVT::v8i16, MVT::v8i32);
setOperationAction(ISD::FP_TO_SINT, MVT::v8i32, Legal);		setOperationAction(ISD::FP_TO_SINT, MVT::v8i32, Custom);
setOperationAction(ISD::FP_TO_UINT, MVT::v8i32, Custom);		setOperationAction(ISD::FP_TO_UINT, MVT::v8i32, Custom);
setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v8i32, Legal);		setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v8i32, Custom);

setOperationAction(ISD::SINT_TO_FP, MVT::v8i32, Legal);		setOperationAction(ISD::SINT_TO_FP, MVT::v8i32, Custom);
setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v8i32, Legal);		setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v8i32, Custom);
		setOperationAction(ISD::FP_EXTEND, MVT::v4f64, Custom);
		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v4f64, Custom);

setOperationAction(ISD::STRICT_FP_ROUND, MVT::v4f32, Legal);		setOperationAction(ISD::STRICT_FP_ROUND, MVT::v4f32, Legal);
setOperationAction(ISD::STRICT_FADD, MVT::v8f32, Legal);		setOperationAction(ISD::STRICT_FADD, MVT::v8f32, Legal);
setOperationAction(ISD::STRICT_FADD, MVT::v4f64, Legal);		setOperationAction(ISD::STRICT_FADD, MVT::v4f64, Legal);
setOperationAction(ISD::STRICT_FSUB, MVT::v8f32, Legal);		setOperationAction(ISD::STRICT_FSUB, MVT::v8f32, Legal);
setOperationAction(ISD::STRICT_FSUB, MVT::v4f64, Legal);		setOperationAction(ISD::STRICT_FSUB, MVT::v4f64, Legal);
setOperationAction(ISD::STRICT_FMUL, MVT::v8f32, Legal);		setOperationAction(ISD::STRICT_FMUL, MVT::v8f32, Legal);
setOperationAction(ISD::STRICT_FMUL, MVT::v4f64, Legal);		setOperationAction(ISD::STRICT_FMUL, MVT::v4f64, Legal);
setOperationAction(ISD::STRICT_FDIV, MVT::v8f32, Legal);		setOperationAction(ISD::STRICT_FDIV, MVT::v8f32, Legal);
setOperationAction(ISD::STRICT_FDIV, MVT::v4f64, Legal);		setOperationAction(ISD::STRICT_FDIV, MVT::v4f64, Legal);
setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v4f64, Legal);
setOperationAction(ISD::STRICT_FSQRT, MVT::v8f32, Legal);		setOperationAction(ISD::STRICT_FSQRT, MVT::v8f32, Legal);
setOperationAction(ISD::STRICT_FSQRT, MVT::v4f64, Legal);		setOperationAction(ISD::STRICT_FSQRT, MVT::v4f64, Legal);

if (!Subtarget.hasAVX512())		if (!Subtarget.hasAVX512())
setOperationAction(ISD::BITCAST, MVT::v32i1, Custom);		setOperationAction(ISD::BITCAST, MVT::v32i1, Custom);

// In the customized shift lowering, the legal v8i32/v4i64 cases		// In the customized shift lowering, the legal v8i32/v4i64 cases
// in AVX2 will be recognized.		// in AVX2 will be recognized.
Show All 13 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasAVX()) {
setOperationAction(ISD::SIGN_EXTEND, MVT::v16i32, Custom);		setOperationAction(ISD::SIGN_EXTEND, MVT::v16i32, Custom);
setOperationAction(ISD::ZERO_EXTEND, MVT::v8i64, Custom);		setOperationAction(ISD::ZERO_EXTEND, MVT::v8i64, Custom);
setOperationAction(ISD::ZERO_EXTEND, MVT::v16i32, Custom);		setOperationAction(ISD::ZERO_EXTEND, MVT::v16i32, Custom);

setOperationAction(ISD::SELECT, MVT::v4f64, Custom);		setOperationAction(ISD::SELECT, MVT::v4f64, Custom);
setOperationAction(ISD::SELECT, MVT::v4i64, Custom);		setOperationAction(ISD::SELECT, MVT::v4i64, Custom);
setOperationAction(ISD::SELECT, MVT::v8i32, Custom);		setOperationAction(ISD::SELECT, MVT::v8i32, Custom);
setOperationAction(ISD::SELECT, MVT::v16i16, Custom);		setOperationAction(ISD::SELECT, MVT::v16i16, Custom);
		setOperationAction(ISD::SELECT, MVT::v16f16, Custom);
setOperationAction(ISD::SELECT, MVT::v32i8, Custom);		setOperationAction(ISD::SELECT, MVT::v32i8, Custom);
setOperationAction(ISD::SELECT, MVT::v8f32, Custom);		setOperationAction(ISD::SELECT, MVT::v8f32, Custom);

for (auto VT : { MVT::v16i16, MVT::v8i32, MVT::v4i64 }) {		for (auto VT : { MVT::v16i16, MVT::v8i32, MVT::v4i64 }) {
setOperationAction(ISD::SIGN_EXTEND, VT, Custom);		setOperationAction(ISD::SIGN_EXTEND, VT, Custom);
setOperationAction(ISD::ZERO_EXTEND, VT, Custom);		setOperationAction(ISD::ZERO_EXTEND, VT, Custom);
setOperationAction(ISD::ANY_EXTEND, VT, Custom);		setOperationAction(ISD::ANY_EXTEND, VT, Custom);
}		}
▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasAVX()) {
// (result) is 128-bit but the source is 256-bit wide.		// (result) is 128-bit but the source is 256-bit wide.
for (auto VT : { MVT::v16i8, MVT::v8i16, MVT::v4i32, MVT::v2i64,		for (auto VT : { MVT::v16i8, MVT::v8i16, MVT::v4i32, MVT::v2i64,
MVT::v4f32, MVT::v2f64 }) {		MVT::v4f32, MVT::v2f64 }) {
setOperationAction(ISD::EXTRACT_SUBVECTOR, VT, Legal);		setOperationAction(ISD::EXTRACT_SUBVECTOR, VT, Legal);
}		}

// Custom lower several nodes for 256-bit types.		// Custom lower several nodes for 256-bit types.
for (MVT VT : { MVT::v32i8, MVT::v16i16, MVT::v8i32, MVT::v4i64,		for (MVT VT : { MVT::v32i8, MVT::v16i16, MVT::v8i32, MVT::v4i64,
MVT::v8f32, MVT::v4f64 }) {		MVT::v16f16, MVT::v8f32, MVT::v4f64 }) {
setOperationAction(ISD::BUILD_VECTOR, VT, Custom);		setOperationAction(ISD::BUILD_VECTOR, VT, Custom);
setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);		setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);
setOperationAction(ISD::VSELECT, VT, Custom);		setOperationAction(ISD::VSELECT, VT, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Custom);
setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);		setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);
setOperationAction(ISD::SCALAR_TO_VECTOR, VT, Custom);		setOperationAction(ISD::SCALAR_TO_VECTOR, VT, Custom);
setOperationAction(ISD::INSERT_SUBVECTOR, VT, Legal);		setOperationAction(ISD::INSERT_SUBVECTOR, VT, Legal);
setOperationAction(ISD::CONCAT_VECTORS, VT, Custom);		setOperationAction(ISD::CONCAT_VECTORS, VT, Custom);
setOperationAction(ISD::STORE, VT, Custom);		setOperationAction(ISD::STORE, VT, Custom);
}		}
		setF16Action(MVT::v16f16, Expand);
		setOperationAction(ISD::FADD, MVT::v16f16, Expand);
		setOperationAction(ISD::FSUB, MVT::v16f16, Expand);
		setOperationAction(ISD::FMUL, MVT::v16f16, Expand);
		setOperationAction(ISD::FDIV, MVT::v16f16, Expand);

if (HasInt256) {		if (HasInt256) {
setOperationAction(ISD::VSELECT, MVT::v32i8, Legal);		setOperationAction(ISD::VSELECT, MVT::v32i8, Legal);

// Custom legalize 2x32 to get a little better code.		// Custom legalize 2x32 to get a little better code.
setOperationAction(ISD::MGATHER, MVT::v2f32, Custom);		setOperationAction(ISD::MGATHER, MVT::v2f32, Custom);
setOperationAction(ISD::MGATHER, MVT::v2i32, Custom);		setOperationAction(ISD::MGATHER, MVT::v2i32, Custom);

for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64,		for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64,
MVT::v4f32, MVT::v8f32, MVT::v2f64, MVT::v4f64 })		MVT::v4f32, MVT::v8f32, MVT::v2f64, MVT::v4f64 })
setOperationAction(ISD::MGATHER, VT, Custom);		setOperationAction(ISD::MGATHER, VT, Custom);
}		}
}		}

if (!Subtarget.useSoftFloat() && Subtarget.hasF16C()) {		if (!Subtarget.useSoftFloat() && !Subtarget.hasFP16() &&
setOperationAction(ISD::FP_ROUND, MVT::f16, Custom);		Subtarget.hasF16C()) {
setOperationAction(ISD::STRICT_FP_ROUND, MVT::f16, Custom);		for (MVT VT : { MVT::f16, MVT::v2f16, MVT::v4f16, MVT::v8f16 }) {
setOperationAction(ISD::FP_EXTEND, MVT::f32, Custom);		setOperationAction(ISD::FP_ROUND, VT, Custom);
setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f32, Custom);		setOperationAction(ISD::STRICT_FP_ROUND, VT, Custom);
		}
		for (MVT VT : { MVT::f32, MVT::v2f32, MVT::v4f32 }) {
		setOperationAction(ISD::FP_EXTEND, VT, Custom);
		setOperationAction(ISD::STRICT_FP_EXTEND, VT, Custom);
		}
		for (unsigned Opc : { ISD::FADD, ISD::FSUB, ISD::FMUL, ISD::FDIV })
		setOperationPromotedToType(Opc, MVT::v8f16, MVT::v8f32);

		setOperationAction(ISD::FP_EXTEND, MVT::v8f32, Legal);
		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v8f32, Legal);
}		}

// This block controls legalization of the mask vector sizes that are		// This block controls legalization of the mask vector sizes that are
// available with AVX512. 512-bit vectors are in a separate block controlled		// available with AVX512. 512-bit vectors are in a separate block controlled
// by useAVX512Regs.		// by useAVX512Regs.
if (!Subtarget.useSoftFloat() && Subtarget.hasAVX512()) {		if (!Subtarget.useSoftFloat() && Subtarget.hasAVX512()) {
addRegisterClass(MVT::v1i1, &X86::VK1RegClass);		addRegisterClass(MVT::v1i1, &X86::VK1RegClass);
addRegisterClass(MVT::v2i1, &X86::VK2RegClass);		addRegisterClass(MVT::v2i1, &X86::VK2RegClass);
▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
if (!Subtarget.useSoftFloat() && Subtarget.useAVX512Regs()) {		if (!Subtarget.useSoftFloat() && Subtarget.useAVX512Regs()) {
bool HasBWI = Subtarget.hasBWI();		bool HasBWI = Subtarget.hasBWI();

addRegisterClass(MVT::v16i32, &X86::VR512RegClass);		addRegisterClass(MVT::v16i32, &X86::VR512RegClass);
addRegisterClass(MVT::v16f32, &X86::VR512RegClass);		addRegisterClass(MVT::v16f32, &X86::VR512RegClass);
addRegisterClass(MVT::v8i64, &X86::VR512RegClass);		addRegisterClass(MVT::v8i64, &X86::VR512RegClass);
addRegisterClass(MVT::v8f64, &X86::VR512RegClass);		addRegisterClass(MVT::v8f64, &X86::VR512RegClass);
addRegisterClass(MVT::v32i16, &X86::VR512RegClass);		addRegisterClass(MVT::v32i16, &X86::VR512RegClass);
		addRegisterClass(MVT::v32f16, &X86::VR512RegClass);
addRegisterClass(MVT::v64i8, &X86::VR512RegClass);		addRegisterClass(MVT::v64i8, &X86::VR512RegClass);

for (auto ExtType : {ISD::ZEXTLOAD, ISD::SEXTLOAD}) {		for (auto ExtType : {ISD::ZEXTLOAD, ISD::SEXTLOAD}) {
setLoadExtAction(ExtType, MVT::v16i32, MVT::v16i8, Legal);		setLoadExtAction(ExtType, MVT::v16i32, MVT::v16i8, Legal);
setLoadExtAction(ExtType, MVT::v16i32, MVT::v16i16, Legal);		setLoadExtAction(ExtType, MVT::v16i32, MVT::v16i16, Legal);
setLoadExtAction(ExtType, MVT::v8i64, MVT::v8i8, Legal);		setLoadExtAction(ExtType, MVT::v8i64, MVT::v8i8, Legal);
setLoadExtAction(ExtType, MVT::v8i64, MVT::v8i16, Legal);		setLoadExtAction(ExtType, MVT::v8i64, MVT::v8i16, Legal);
setLoadExtAction(ExtType, MVT::v8i64, MVT::v8i32, Legal);		setLoadExtAction(ExtType, MVT::v8i64, MVT::v8i32, Legal);
Show All 10 Lines	if (!Subtarget.useSoftFloat() && Subtarget.useAVX512Regs()) {
}		}

for (MVT VT : { MVT::v16i1, MVT::v16i8, MVT::v16i16 }) {		for (MVT VT : { MVT::v16i1, MVT::v16i8, MVT::v16i16 }) {
setOperationPromotedToType(ISD::FP_TO_SINT , VT, MVT::v16i32);		setOperationPromotedToType(ISD::FP_TO_SINT , VT, MVT::v16i32);
setOperationPromotedToType(ISD::FP_TO_UINT , VT, MVT::v16i32);		setOperationPromotedToType(ISD::FP_TO_UINT , VT, MVT::v16i32);
setOperationPromotedToType(ISD::STRICT_FP_TO_SINT, VT, MVT::v16i32);		setOperationPromotedToType(ISD::STRICT_FP_TO_SINT, VT, MVT::v16i32);
setOperationPromotedToType(ISD::STRICT_FP_TO_UINT, VT, MVT::v16i32);		setOperationPromotedToType(ISD::STRICT_FP_TO_UINT, VT, MVT::v16i32);
}		}
setOperationAction(ISD::FP_TO_SINT, MVT::v16i32, Legal);		setOperationAction(ISD::FP_TO_SINT, MVT::v16i32, Custom);
setOperationAction(ISD::FP_TO_UINT, MVT::v16i32, Legal);		setOperationAction(ISD::FP_TO_UINT, MVT::v16i32, Custom);
setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v16i32, Legal);		setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v16i32, Custom);
setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v16i32, Legal);		setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v16i32, Custom);
setOperationAction(ISD::SINT_TO_FP, MVT::v16i32, Legal);		setOperationAction(ISD::SINT_TO_FP, MVT::v16i32, Custom);
setOperationAction(ISD::UINT_TO_FP, MVT::v16i32, Legal);		setOperationAction(ISD::UINT_TO_FP, MVT::v16i32, Custom);
setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v16i32, Legal);		setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v16i32, Custom);
setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v16i32, Legal);		setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v16i32, Custom);
		setOperationAction(ISD::FP_EXTEND, MVT::v8f64, Custom);
		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v8f64, Custom);

setOperationAction(ISD::STRICT_FADD, MVT::v16f32, Legal);		setOperationAction(ISD::STRICT_FADD, MVT::v16f32, Legal);
setOperationAction(ISD::STRICT_FADD, MVT::v8f64, Legal);		setOperationAction(ISD::STRICT_FADD, MVT::v8f64, Legal);
setOperationAction(ISD::STRICT_FSUB, MVT::v16f32, Legal);		setOperationAction(ISD::STRICT_FSUB, MVT::v16f32, Legal);
setOperationAction(ISD::STRICT_FSUB, MVT::v8f64, Legal);		setOperationAction(ISD::STRICT_FSUB, MVT::v8f64, Legal);
setOperationAction(ISD::STRICT_FMUL, MVT::v16f32, Legal);		setOperationAction(ISD::STRICT_FMUL, MVT::v16f32, Legal);
setOperationAction(ISD::STRICT_FMUL, MVT::v8f64, Legal);		setOperationAction(ISD::STRICT_FMUL, MVT::v8f64, Legal);
setOperationAction(ISD::STRICT_FDIV, MVT::v16f32, Legal);		setOperationAction(ISD::STRICT_FDIV, MVT::v16f32, Legal);
setOperationAction(ISD::STRICT_FDIV, MVT::v8f64, Legal);		setOperationAction(ISD::STRICT_FDIV, MVT::v8f64, Legal);
setOperationAction(ISD::STRICT_FSQRT, MVT::v16f32, Legal);		setOperationAction(ISD::STRICT_FSQRT, MVT::v16f32, Legal);
setOperationAction(ISD::STRICT_FSQRT, MVT::v8f64, Legal);		setOperationAction(ISD::STRICT_FSQRT, MVT::v8f64, Legal);
setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v8f64, Legal);
setOperationAction(ISD::STRICT_FP_ROUND, MVT::v8f32, Legal);		setOperationAction(ISD::STRICT_FP_ROUND, MVT::v8f32, Legal);

setTruncStoreAction(MVT::v8i64, MVT::v8i8, Legal);		setTruncStoreAction(MVT::v8i64, MVT::v8i8, Legal);
setTruncStoreAction(MVT::v8i64, MVT::v8i16, Legal);		setTruncStoreAction(MVT::v8i64, MVT::v8i16, Legal);
setTruncStoreAction(MVT::v8i64, MVT::v8i32, Legal);		setTruncStoreAction(MVT::v8i64, MVT::v8i32, Legal);
setTruncStoreAction(MVT::v16i32, MVT::v16i8, Legal);		setTruncStoreAction(MVT::v16i32, MVT::v16i8, Legal);
setTruncStoreAction(MVT::v16i32, MVT::v16i16, Legal);		setTruncStoreAction(MVT::v16i32, MVT::v16i16, Legal);
if (HasBWI)		if (HasBWI)
▲ Show 20 Lines • Show All 118 Lines • ▼ Show 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.useAVX512Regs()) {
setOperationAction(ISD::FSHL, MVT::v64i8, Custom);		setOperationAction(ISD::FSHL, MVT::v64i8, Custom);
setOperationAction(ISD::FSHR, MVT::v64i8, Custom);		setOperationAction(ISD::FSHR, MVT::v64i8, Custom);
setOperationAction(ISD::FSHL, MVT::v32i16, Custom);		setOperationAction(ISD::FSHL, MVT::v32i16, Custom);
setOperationAction(ISD::FSHR, MVT::v32i16, Custom);		setOperationAction(ISD::FSHR, MVT::v32i16, Custom);
setOperationAction(ISD::FSHL, MVT::v16i32, Custom);		setOperationAction(ISD::FSHL, MVT::v16i32, Custom);
setOperationAction(ISD::FSHR, MVT::v16i32, Custom);		setOperationAction(ISD::FSHR, MVT::v16i32, Custom);

if (Subtarget.hasDQI()) {		if (Subtarget.hasDQI()) {
setOperationAction(ISD::SINT_TO_FP, MVT::v8i64, Legal);		for (auto Opc : {ISD::SINT_TO_FP, ISD::UINT_TO_FP, ISD::STRICT_SINT_TO_FP,
setOperationAction(ISD::UINT_TO_FP, MVT::v8i64, Legal);		ISD::STRICT_UINT_TO_FP, ISD::FP_TO_SINT, ISD::FP_TO_UINT,
setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v8i64, Legal);		ISD::STRICT_FP_TO_SINT, ISD::STRICT_FP_TO_UINT})
setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v8i64, Legal);		setOperationAction(Opc, MVT::v8i64, Custom);
setOperationAction(ISD::FP_TO_SINT, MVT::v8i64, Legal);
setOperationAction(ISD::FP_TO_UINT, MVT::v8i64, Legal);
setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v8i64, Legal);
setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v8i64, Legal);

setOperationAction(ISD::MUL, MVT::v8i64, Legal);		setOperationAction(ISD::MUL, MVT::v8i64, Legal);
}		}

if (Subtarget.hasCDI()) {		if (Subtarget.hasCDI()) {
// NonVLX sub-targets extend 128/256 vectors to use the 512 version.		// NonVLX sub-targets extend 128/256 vectors to use the 512 version.
for (auto VT : { MVT::v16i32, MVT::v8i64} ) {		for (auto VT : { MVT::v16i32, MVT::v8i64} ) {
setOperationAction(ISD::CTLZ, VT, Legal);		setOperationAction(ISD::CTLZ, VT, Legal);
}		}
} // Subtarget.hasCDI()		} // Subtarget.hasCDI()

if (Subtarget.hasVPOPCNTDQ()) {		if (Subtarget.hasVPOPCNTDQ()) {
for (auto VT : { MVT::v16i32, MVT::v8i64 })		for (auto VT : { MVT::v16i32, MVT::v8i64 })
setOperationAction(ISD::CTPOP, VT, Legal);		setOperationAction(ISD::CTPOP, VT, Legal);
}		}

// Extract subvector is special because the value type		// Extract subvector is special because the value type
// (result) is 256-bit but the source is 512-bit wide.		// (result) is 256-bit but the source is 512-bit wide.
// 128-bit was made Legal under AVX1.		// 128-bit was made Legal under AVX1.
for (auto VT : { MVT::v32i8, MVT::v16i16, MVT::v8i32, MVT::v4i64,		for (auto VT : { MVT::v32i8, MVT::v16i16, MVT::v8i32, MVT::v4i64,
MVT::v8f32, MVT::v4f64 })		MVT::v8f32, MVT::v4f64 })
setOperationAction(ISD::EXTRACT_SUBVECTOR, VT, Legal);		setOperationAction(ISD::EXTRACT_SUBVECTOR, VT, Legal);

for (auto VT : { MVT::v64i8, MVT::v32i16, MVT::v16i32, MVT::v8i64,		for (auto VT : { MVT::v64i8, MVT::v32i16, MVT::v16i32, MVT::v8i64,
MVT::v16f32, MVT::v8f64 }) {		MVT::v32f16, MVT::v16f32, MVT::v8f64 }) {
setOperationAction(ISD::CONCAT_VECTORS, VT, Custom);		setOperationAction(ISD::CONCAT_VECTORS, VT, Custom);
setOperationAction(ISD::INSERT_SUBVECTOR, VT, Legal);		setOperationAction(ISD::INSERT_SUBVECTOR, VT, Legal);
setOperationAction(ISD::SELECT, VT, Custom);		setOperationAction(ISD::SELECT, VT, Custom);
setOperationAction(ISD::VSELECT, VT, Custom);		setOperationAction(ISD::VSELECT, VT, Custom);
setOperationAction(ISD::BUILD_VECTOR, VT, Custom);		setOperationAction(ISD::BUILD_VECTOR, VT, Custom);
setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);		setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);
setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);		setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);
setOperationAction(ISD::SCALAR_TO_VECTOR, VT, Custom);		setOperationAction(ISD::SCALAR_TO_VECTOR, VT, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Custom);
}		}
		setF16Action(MVT::v32f16, Expand);
		yubingUnsubmitted Not Done Reply Inline Actions it seems you forgot v32f16's fadd. now you make v32f16 type legal, then v32f16's fadd become legal, but there is no v32f16's fadd's instruction for avx512 without fp16. it will lead to crash. i would like to suggest that we can promote v32f16's fadd to v32f32's fadd, which can be split into two v16f32's fadd by legalizeType(after vector legalization). what do you think? for (unsigned Opc : { ISD::FADD, ISD::FSUB, ISD::FMUL, ISD::FDIV }) setOperationPromotedToType(Opc, MVT::v32f16, MVT::v32f32); yubing: it seems you forgot v32f16's fadd. now you make v32f16 type legal, then v32f16's fadd become…
		setOperationAction(ISD::FP_ROUND, MVT::v16f16, Custom);
		setOperationAction(ISD::STRICT_FP_ROUND, MVT::v16f16, Custom);
		setOperationAction(ISD::FP_EXTEND, MVT::v16f32, Legal);
		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v16f32, Legal);
		for (unsigned Opc : { ISD::FADD, ISD::FSUB, ISD::FMUL, ISD::FDIV })
		setOperationPromotedToType(Opc, MVT::v16f16, MVT::v16f32);

for (auto VT : { MVT::v16i32, MVT::v8i64, MVT::v16f32, MVT::v8f64 }) {		for (auto VT : { MVT::v16i32, MVT::v8i64, MVT::v16f32, MVT::v8f64 }) {
setOperationAction(ISD::MLOAD, VT, Legal);		setOperationAction(ISD::MLOAD, VT, Legal);
setOperationAction(ISD::MSTORE, VT, Legal);		setOperationAction(ISD::MSTORE, VT, Legal);
setOperationAction(ISD::MGATHER, VT, Custom);		setOperationAction(ISD::MGATHER, VT, Custom);
setOperationAction(ISD::MSCATTER, VT, Custom);		setOperationAction(ISD::MSCATTER, VT, Custom);
}		}
if (HasBWI) {		if (HasBWI) {
Show All 23 Lines

// This block controls legalization for operations that don't have		// This block controls legalization for operations that don't have
// pre-AVX512 equivalents. Without VLX we use 512-bit operations for		// pre-AVX512 equivalents. Without VLX we use 512-bit operations for
// narrower widths.		// narrower widths.
if (!Subtarget.useSoftFloat() && Subtarget.hasAVX512()) {		if (!Subtarget.useSoftFloat() && Subtarget.hasAVX512()) {
// These operations are handled on non-VLX by artificially widening in		// These operations are handled on non-VLX by artificially widening in
// isel patterns.		// isel patterns.

setOperationAction(ISD::FP_TO_UINT, MVT::v8i32,		setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v8i32, Custom);
Subtarget.hasVLX() ? Legal : Custom);		setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v4i32, Custom);
setOperationAction(ISD::FP_TO_UINT, MVT::v4i32,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v8i32,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v4i32,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v2i32, Custom);		setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v2i32, Custom);
setOperationAction(ISD::UINT_TO_FP, MVT::v8i32,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::UINT_TO_FP, MVT::v4i32,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v8i32,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v4i32,
Subtarget.hasVLX() ? Legal : Custom);

if (Subtarget.hasDQI()) {		if (Subtarget.hasDQI()) {
// Fast v2f32 SINT_TO_FP( v2i64 ) custom conversion.		// Fast v2f32 SINT_TO_FP( v2i64 ) custom conversion.
// v2f32 UINT_TO_FP is already custom under SSE2.		// v2f32 UINT_TO_FP is already custom under SSE2.
assert(isOperationCustom(ISD::UINT_TO_FP, MVT::v2f32) &&		assert(isOperationCustom(ISD::UINT_TO_FP, MVT::v2f32) &&
isOperationCustom(ISD::STRICT_UINT_TO_FP, MVT::v2f32) &&		isOperationCustom(ISD::STRICT_UINT_TO_FP, MVT::v2f32) &&
"Unexpected operation action!");		"Unexpected operation action!");
// v2i64 FP_TO_S/UINT(v2f32) custom conversion.		// v2i64 FP_TO_S/UINT(v2f32) custom conversion.
Show All 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasAVX512()) {
setOperationAction(ISD::MSCATTER, MVT::v2f32, Custom);		setOperationAction(ISD::MSCATTER, MVT::v2f32, Custom);
setOperationAction(ISD::MSCATTER, MVT::v2i32, Custom);		setOperationAction(ISD::MSCATTER, MVT::v2i32, Custom);

for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64,		for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64,
MVT::v4f32, MVT::v8f32, MVT::v2f64, MVT::v4f64 })		MVT::v4f32, MVT::v8f32, MVT::v2f64, MVT::v4f64 })
setOperationAction(ISD::MSCATTER, VT, Custom);		setOperationAction(ISD::MSCATTER, VT, Custom);

if (Subtarget.hasDQI()) {		if (Subtarget.hasDQI()) {
for (auto VT : { MVT::v2i64, MVT::v4i64 }) {		for (auto Opc : {ISD::SINT_TO_FP, ISD::UINT_TO_FP, ISD::STRICT_SINT_TO_FP,
setOperationAction(ISD::SINT_TO_FP, VT,		ISD::STRICT_UINT_TO_FP, ISD::FP_TO_SINT, ISD::FP_TO_UINT,
Subtarget.hasVLX() ? Legal : Custom);		ISD::STRICT_FP_TO_SINT, ISD::STRICT_FP_TO_UINT}) {
setOperationAction(ISD::UINT_TO_FP, VT,		setOperationAction(Opc, MVT::v2i64, Custom);
Subtarget.hasVLX() ? Legal : Custom);		setOperationAction(Opc, MVT::v4i64, Custom);
setOperationAction(ISD::STRICT_SINT_TO_FP, VT,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::STRICT_UINT_TO_FP, VT,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::FP_TO_SINT, VT,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::FP_TO_UINT, VT,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::STRICT_FP_TO_SINT, VT,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::STRICT_FP_TO_UINT, VT,
Subtarget.hasVLX() ? Legal : Custom);
setOperationAction(ISD::MUL, VT, Legal);
}		}
		setOperationAction(ISD::MUL, MVT::v2i64, Legal);
		setOperationAction(ISD::MUL, MVT::v4i64, Legal);
}		}

if (Subtarget.hasCDI()) {		if (Subtarget.hasCDI()) {
for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64 }) {		for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64 }) {
setOperationAction(ISD::CTLZ, VT, Legal);		setOperationAction(ISD::CTLZ, VT, Legal);
}		}
} // Subtarget.hasCDI()		} // Subtarget.hasCDI()

▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines	auto setGroup = [&] (MVT VT) {
setOperationAction(ISD::FABS, VT, Custom);		setOperationAction(ISD::FABS, VT, Custom);
setOperationAction(ISD::FCOPYSIGN, VT, Custom);		setOperationAction(ISD::FCOPYSIGN, VT, Custom);
setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);		setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);
setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);		setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);
};		};

// AVX512_FP16 scalar operations		// AVX512_FP16 scalar operations
setGroup(MVT::f16);		setGroup(MVT::f16);
addRegisterClass(MVT::f16, &X86::FR16XRegClass);
setOperationAction(ISD::FREM, MVT::f16, Promote);		setOperationAction(ISD::FREM, MVT::f16, Promote);
setOperationAction(ISD::STRICT_FREM, MVT::f16, Promote);		setOperationAction(ISD::STRICT_FREM, MVT::f16, Promote);
setOperationAction(ISD::SELECT_CC, MVT::f16, Expand);		setOperationAction(ISD::SELECT_CC, MVT::f16, Expand);
setOperationAction(ISD::BR_CC, MVT::f16, Expand);		setOperationAction(ISD::BR_CC, MVT::f16, Expand);
setOperationAction(ISD::SETCC, MVT::f16, Custom);		setOperationAction(ISD::SETCC, MVT::f16, Custom);
setOperationAction(ISD::STRICT_FSETCC, MVT::f16, Custom);		setOperationAction(ISD::STRICT_FSETCC, MVT::f16, Custom);
setOperationAction(ISD::STRICT_FSETCCS, MVT::f16, Custom);		setOperationAction(ISD::STRICT_FSETCCS, MVT::f16, Custom);
setOperationAction(ISD::FROUND, MVT::f16, Custom);		setOperationAction(ISD::FROUND, MVT::f16, Custom);
setOperationAction(ISD::STRICT_FROUND, MVT::f16, Promote);		setOperationAction(ISD::STRICT_FROUND, MVT::f16, Promote);
setOperationAction(ISD::FROUNDEVEN, MVT::f16, Legal);		setOperationAction(ISD::FROUNDEVEN, MVT::f16, Legal);
setOperationAction(ISD::STRICT_FROUNDEVEN, MVT::f16, Legal);		setOperationAction(ISD::STRICT_FROUNDEVEN, MVT::f16, Legal);
setOperationAction(ISD::FP_ROUND, MVT::f16, Custom);		setOperationAction(ISD::FP_ROUND, MVT::f16, Custom);
setOperationAction(ISD::STRICT_FP_ROUND, MVT::f16, Custom);		setOperationAction(ISD::STRICT_FP_ROUND, MVT::f16, Custom);
		setOperationAction(ISD::FP_EXTEND, MVT::f32, Legal);
setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f32, Legal);		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f32, Legal);

setCondCodeAction(ISD::SETOEQ, MVT::f16, Expand);		setCondCodeAction(ISD::SETOEQ, MVT::f16, Expand);
setCondCodeAction(ISD::SETUNE, MVT::f16, Expand);		setCondCodeAction(ISD::SETUNE, MVT::f16, Expand);

if (Subtarget.useAVX512Regs()) {		if (Subtarget.useAVX512Regs()) {
setGroup(MVT::v32f16);		setGroup(MVT::v32f16);
addRegisterClass(MVT::v32f16, &X86::VR512RegClass);
setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v32f16, Custom);		setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v32f16, Custom);
setOperationAction(ISD::SINT_TO_FP, MVT::v32i16, Legal);		setOperationAction(ISD::SINT_TO_FP, MVT::v32i16, Legal);
setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v32i16, Legal);		setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v32i16, Legal);
setOperationAction(ISD::UINT_TO_FP, MVT::v32i16, Legal);		setOperationAction(ISD::UINT_TO_FP, MVT::v32i16, Legal);
setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v32i16, Legal);		setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v32i16, Legal);
		setOperationAction(ISD::FP_ROUND, MVT::v16f16, Legal);
setOperationAction(ISD::STRICT_FP_ROUND, MVT::v16f16, Legal);		setOperationAction(ISD::STRICT_FP_ROUND, MVT::v16f16, Legal);
		setOperationAction(ISD::FP_EXTEND, MVT::v16f32, Legal);
setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v16f32, Legal);		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v16f32, Legal);
		setOperationAction(ISD::FP_EXTEND, MVT::v8f64, Legal);
		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v8f64, Legal);
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v32f16, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v32f16, Custom);

setOperationAction(ISD::FP_TO_SINT, MVT::v32i16, Custom);		setOperationAction(ISD::FP_TO_SINT, MVT::v32i16, Custom);
setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v32i16, Custom);		setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v32i16, Custom);
setOperationAction(ISD::FP_TO_UINT, MVT::v32i16, Custom);		setOperationAction(ISD::FP_TO_UINT, MVT::v32i16, Custom);
setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v32i16, Custom);		setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v32i16, Custom);
setOperationPromotedToType(ISD::FP_TO_SINT, MVT::v32i8, MVT::v32i16);		setOperationPromotedToType(ISD::FP_TO_SINT, MVT::v32i8, MVT::v32i16);
setOperationPromotedToType(ISD::STRICT_FP_TO_SINT, MVT::v32i8,		setOperationPromotedToType(ISD::STRICT_FP_TO_SINT, MVT::v32i8,
Show All 15 Lines	if (Subtarget.useAVX512Regs()) {
setLoadExtAction(ISD::EXTLOAD, MVT::v8f64, MVT::v8f16, Legal);		setLoadExtAction(ISD::EXTLOAD, MVT::v8f64, MVT::v8f16, Legal);
setLoadExtAction(ISD::EXTLOAD, MVT::v16f32, MVT::v16f16, Legal);		setLoadExtAction(ISD::EXTLOAD, MVT::v16f32, MVT::v16f16, Legal);

setOperationAction(ISD::STRICT_FSETCC, MVT::v32i1, Custom);		setOperationAction(ISD::STRICT_FSETCC, MVT::v32i1, Custom);
setOperationAction(ISD::STRICT_FSETCCS, MVT::v32i1, Custom);		setOperationAction(ISD::STRICT_FSETCCS, MVT::v32i1, Custom);
}		}

if (Subtarget.hasVLX()) {		if (Subtarget.hasVLX()) {
addRegisterClass(MVT::v8f16, &X86::VR128XRegClass);
addRegisterClass(MVT::v16f16, &X86::VR256XRegClass);
setGroup(MVT::v8f16);		setGroup(MVT::v8f16);
setGroup(MVT::v16f16);		setGroup(MVT::v16f16);

setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v8f16, Legal);		setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v8f16, Legal);
setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v16f16, Custom);		setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v16f16, Custom);
setOperationAction(ISD::SINT_TO_FP, MVT::v16i16, Legal);		setOperationAction(ISD::SINT_TO_FP, MVT::v16i16, Legal);
setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v16i16, Legal);		setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v16i16, Legal);
setOperationAction(ISD::SINT_TO_FP, MVT::v8i16, Legal);		setOperationAction(ISD::SINT_TO_FP, MVT::v8i16, Legal);
setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v8i16, Legal);		setOperationAction(ISD::STRICT_SINT_TO_FP, MVT::v8i16, Legal);
setOperationAction(ISD::UINT_TO_FP, MVT::v16i16, Legal);		setOperationAction(ISD::UINT_TO_FP, MVT::v16i16, Legal);
setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v16i16, Legal);		setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v16i16, Legal);
setOperationAction(ISD::UINT_TO_FP, MVT::v8i16, Legal);		setOperationAction(ISD::UINT_TO_FP, MVT::v8i16, Legal);
setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v8i16, Legal);		setOperationAction(ISD::STRICT_UINT_TO_FP, MVT::v8i16, Legal);

setOperationAction(ISD::FP_TO_SINT, MVT::v8i16, Custom);		setOperationAction(ISD::FP_TO_SINT, MVT::v8i16, Custom);
setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v8i16, Custom);		setOperationAction(ISD::STRICT_FP_TO_SINT, MVT::v8i16, Custom);
setOperationAction(ISD::FP_TO_UINT, MVT::v8i16, Custom);		setOperationAction(ISD::FP_TO_UINT, MVT::v8i16, Custom);
setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v8i16, Custom);		setOperationAction(ISD::STRICT_FP_TO_UINT, MVT::v8i16, Custom);
		setOperationAction(ISD::FP_ROUND, MVT::v8f16, Legal);
setOperationAction(ISD::STRICT_FP_ROUND, MVT::v8f16, Legal);		setOperationAction(ISD::STRICT_FP_ROUND, MVT::v8f16, Legal);
		setOperationAction(ISD::FP_EXTEND, MVT::v8f32, Legal);
setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v8f32, Legal);		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v8f32, Legal);
		setOperationAction(ISD::FP_EXTEND, MVT::v4f64, Legal);
		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::v4f64, Legal);

// INSERT_VECTOR_ELT v8f16 extended to VECTOR_SHUFFLE		// INSERT_VECTOR_ELT v8f16 extended to VECTOR_SHUFFLE
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v8f16, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v8f16, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v16f16, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v16f16, Custom);

setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v8f16, Legal);		setOperationAction(ISD::EXTRACT_SUBVECTOR, MVT::v8f16, Legal);
setOperationAction(ISD::INSERT_SUBVECTOR, MVT::v16f16, Legal);		setOperationAction(ISD::INSERT_SUBVECTOR, MVT::v16f16, Legal);
setOperationAction(ISD::CONCAT_VECTORS, MVT::v16f16, Custom);		setOperationAction(ISD::CONCAT_VECTORS, MVT::v16f16, Custom);
▲ Show 20 Lines • Show All 197 Lines • ▼ Show 20 Lines	setTargetDAGCombine({ISD::VECTOR_SHUFFLE,
ISD::SETCC,		ISD::SETCC,
ISD::MUL,		ISD::MUL,
ISD::XOR,		ISD::XOR,
ISD::MSCATTER,		ISD::MSCATTER,
ISD::MGATHER,		ISD::MGATHER,
ISD::FP16_TO_FP,		ISD::FP16_TO_FP,
ISD::FP_EXTEND,		ISD::FP_EXTEND,
ISD::STRICT_FP_EXTEND,		ISD::STRICT_FP_EXTEND,
ISD::FP_ROUND});		ISD::FP_ROUND,
		ISD::STRICT_FP_ROUND});

computeRegisterProperties(Subtarget.getRegisterInfo());		computeRegisterProperties(Subtarget.getRegisterInfo());

MaxStoresPerMemset = 16; // For @llvm.memset -> sequence of stores		MaxStoresPerMemset = 16; // For @llvm.memset -> sequence of stores
MaxStoresPerMemsetOptSize = 8;		MaxStoresPerMemsetOptSize = 8;
MaxStoresPerMemcpy = 8; // For @llvm.memcpy -> sequence of stores		MaxStoresPerMemcpy = 8; // For @llvm.memcpy -> sequence of stores
MaxStoresPerMemcpyOptSize = 4;		MaxStoresPerMemcpyOptSize = 4;
MaxStoresPerMemmove = 8; // For @llvm.memmove -> sequence of stores		MaxStoresPerMemmove = 8; // For @llvm.memmove -> sequence of stores
Show All 40 Lines

TargetLoweringBase::LegalizeTypeAction		TargetLoweringBase::LegalizeTypeAction
X86TargetLowering::getPreferredVectorAction(MVT VT) const {		X86TargetLowering::getPreferredVectorAction(MVT VT) const {
if ((VT == MVT::v32i1 \|\| VT == MVT::v64i1) && Subtarget.hasAVX512() &&		if ((VT == MVT::v32i1 \|\| VT == MVT::v64i1) && Subtarget.hasAVX512() &&
!Subtarget.hasBWI())		!Subtarget.hasBWI())
return TypeSplitVector;		return TypeSplitVector;

if (!VT.isScalableVector() && VT.getVectorNumElements() != 1 &&		if (!VT.isScalableVector() && VT.getVectorNumElements() != 1 &&
		!Subtarget.hasF16C() && VT.getVectorElementType() == MVT::f16)
		return TypeSplitVector;

		if (!VT.isScalableVector() && VT.getVectorNumElements() != 1 &&
VT.getVectorElementType() != MVT::i1)		VT.getVectorElementType() != MVT::i1)
return TypeWidenVector;		return TypeWidenVector;

return TargetLoweringBase::getPreferredVectorAction(VT);		return TargetLoweringBase::getPreferredVectorAction(VT);
}		}

static std::pair<MVT, unsigned>		static std::pair<MVT, unsigned>
handleMaskRegisterForCallingConv(unsigned NumElts, CallingConv::ID CC,		handleMaskRegisterForCallingConv(unsigned NumElts, CallingConv::ID CC,
Show All 27 Lines	if (!isPowerOf2_32(NumElts) \|\| (NumElts == 64 && !Subtarget.hasBWI()) \|\|
return {MVT::i8, NumElts};		return {MVT::i8, NumElts};

return {MVT::INVALID_SIMPLE_VALUE_TYPE, 0};		return {MVT::INVALID_SIMPLE_VALUE_TYPE, 0};
}		}

MVT X86TargetLowering::getRegisterTypeForCallingConv(LLVMContext &Context,		MVT X86TargetLowering::getRegisterTypeForCallingConv(LLVMContext &Context,
CallingConv::ID CC,		CallingConv::ID CC,
EVT VT) const {		EVT VT) const {
if (VT.isVector() && VT.getVectorElementType() == MVT::i1 &&		if (VT.isVector()) {
Subtarget.hasAVX512()) {		if (VT.getVectorElementType() == MVT::i1 && Subtarget.hasAVX512()) {
unsigned NumElts = VT.getVectorNumElements();		unsigned NumElts = VT.getVectorNumElements();

MVT RegisterVT;		MVT RegisterVT;
unsigned NumRegisters;		unsigned NumRegisters;
std::tie(RegisterVT, NumRegisters) =		std::tie(RegisterVT, NumRegisters) =
handleMaskRegisterForCallingConv(NumElts, CC, Subtarget);		handleMaskRegisterForCallingConv(NumElts, CC, Subtarget);
if (RegisterVT != MVT::INVALID_SIMPLE_VALUE_TYPE)		if (RegisterVT != MVT::INVALID_SIMPLE_VALUE_TYPE)
return RegisterVT;		return RegisterVT;
}		}

// v3f16 will be widen to v4f16. But we don't assign register class for v4f16.		if (VT.getVectorElementType() == MVT::f16 && VT.getVectorNumElements() < 8)
// So its default register type is f16. We override the type to v8f16 here.
if (VT == MVT::v3f16 && Subtarget.hasFP16())
return MVT::v8f16;		return MVT::v8f16;
		}

// We will use more GPRs for f64 and f80 on 32 bits when x87 is disabled.		// We will use more GPRs for f64 and f80 on 32 bits when x87 is disabled.
if ((VT == MVT::f64 \|\| VT == MVT::f80) && !Subtarget.is64Bit() &&		if ((VT == MVT::f64 \|\| VT == MVT::f80) && !Subtarget.is64Bit() &&
!Subtarget.hasX87())		!Subtarget.hasX87())
return MVT::i32;		return MVT::i32;

return TargetLowering::getRegisterTypeForCallingConv(Context, CC, VT);		return TargetLowering::getRegisterTypeForCallingConv(Context, CC, VT);
}		}

unsigned X86TargetLowering::getNumRegistersForCallingConv(LLVMContext &Context,		unsigned X86TargetLowering::getNumRegistersForCallingConv(LLVMContext &Context,
CallingConv::ID CC,		CallingConv::ID CC,
EVT VT) const {		EVT VT) const {
if (VT.isVector() && VT.getVectorElementType() == MVT::i1 &&		if (VT.isVector()) {
Subtarget.hasAVX512()) {		if (VT.getVectorElementType() == MVT::i1 && Subtarget.hasAVX512()) {
unsigned NumElts = VT.getVectorNumElements();		unsigned NumElts = VT.getVectorNumElements();

MVT RegisterVT;		MVT RegisterVT;
unsigned NumRegisters;		unsigned NumRegisters;
std::tie(RegisterVT, NumRegisters) =		std::tie(RegisterVT, NumRegisters) =
handleMaskRegisterForCallingConv(NumElts, CC, Subtarget);		handleMaskRegisterForCallingConv(NumElts, CC, Subtarget);
if (RegisterVT != MVT::INVALID_SIMPLE_VALUE_TYPE)		if (RegisterVT != MVT::INVALID_SIMPLE_VALUE_TYPE)
return NumRegisters;		return NumRegisters;
}		}

// v3f16 will be widen to v4f16. But we don't assign register class for v4f16.		if (VT.getVectorElementType() == MVT::f16 && VT.getVectorNumElements() < 8)
// So its default register number is 3. We override the number to 1 here.
if (VT == MVT::v3f16 && Subtarget.hasFP16())
return 1;		return 1;
		}

// We have to split f64 to 2 registers and f80 to 3 registers on 32 bits if		// We have to split f64 to 2 registers and f80 to 3 registers on 32 bits if
// x87 is disabled.		// x87 is disabled.
if (!Subtarget.is64Bit() && !Subtarget.hasX87()) {		if (!Subtarget.is64Bit() && !Subtarget.hasX87()) {
if (VT == MVT::f64)		if (VT == MVT::f64)
return 2;		return 2;
if (VT == MVT::f80)		if (VT == MVT::f80)
return 3;		return 3;
▲ Show 20 Lines • Show All 7,139 Lines • ▼ Show 20 Lines	static SDValue lowerBuildVectorAsBroadcast(BuildVectorSDNode *BVOp,
// On Sandybridge (no AVX2), it is still better to load a constant vector		// On Sandybridge (no AVX2), it is still better to load a constant vector
// from the constant pool and not to broadcast it from a scalar.		// from the constant pool and not to broadcast it from a scalar.
// But override that restriction when optimizing for size.		// But override that restriction when optimizing for size.
// TODO: Check if splatting is recommended for other AVX-capable CPUs.		// TODO: Check if splatting is recommended for other AVX-capable CPUs.
if (ConstSplatVal && (Subtarget.hasAVX2() \|\| OptForSize)) {		if (ConstSplatVal && (Subtarget.hasAVX2() \|\| OptForSize)) {
EVT CVT = Ld.getValueType();		EVT CVT = Ld.getValueType();
assert(!CVT.isVector() && "Must not broadcast a vector type");		assert(!CVT.isVector() && "Must not broadcast a vector type");

// Splat f32, i32, v4f64, v4i64 in all cases with AVX2.		// Splat f16, f32, i32, v4f64, v4i64 in all cases with AVX2.
// For size optimization, also splat v2f64 and v2i64, and for size opt		// For size optimization, also splat v2f64 and v2i64, and for size opt
// with AVX2, also splat i8 and i16.		// with AVX2, also splat i8 and i16.
// With pattern matching, the VBROADCAST node may become a VMOVDDUP.		// With pattern matching, the VBROADCAST node may become a VMOVDDUP.
if (ScalarSize == 32 \|\|		if (ScalarSize == 32 \|\|
(ScalarSize == 64 && (IsGE256 \|\| Subtarget.hasVLX())) \|\|		(ScalarSize == 64 && (IsGE256 \|\| Subtarget.hasVLX())) \|\|
(ScalarSize == 16 && Subtarget.hasFP16() && CVT.isFloatingPoint()) \|\|		CVT == MVT::f16 \|\|
(OptForSize && (ScalarSize == 64 \|\| Subtarget.hasAVX2()))) {		(OptForSize && (ScalarSize == 64 \|\| Subtarget.hasAVX2()))) {
const Constant *C = nullptr;		const Constant *C = nullptr;
if (ConstantSDNode *CI = dyn_cast<ConstantSDNode>(Ld))		if (ConstantSDNode *CI = dyn_cast<ConstantSDNode>(Ld))
C = CI->getConstantIntValue();		C = CI->getConstantIntValue();
else if (ConstantFPSDNode *CF = dyn_cast<ConstantFPSDNode>(Ld))		else if (ConstantFPSDNode *CF = dyn_cast<ConstantFPSDNode>(Ld))
C = CF->getConstantFPValue();		C = CF->getConstantFPValue();

assert(C && "Invalid constant type");		assert(C && "Invalid constant type");
▲ Show 20 Lines • Show All 4,460 Lines • ▼ Show 20 Lines
///		///
/// This is particularly important because the set of instructions varies		/// This is particularly important because the set of instructions varies
/// significantly based on whether the operand is a load or not.		/// significantly based on whether the operand is a load or not.
static bool isShuffleFoldableLoad(SDValue V) {		static bool isShuffleFoldableLoad(SDValue V) {
return V->hasOneUse() &&		return V->hasOneUse() &&
ISD::isNON_EXTLoad(peekThroughOneUseBitcasts(V).getNode());		ISD::isNON_EXTLoad(peekThroughOneUseBitcasts(V).getNode());
}		}

		template<typename T>
		static bool isSoftFP16(T VT, const X86Subtarget &Subtarget) {
		return VT.getScalarType() == MVT::f16 && !Subtarget.hasFP16();
		}

		template<typename T>
		bool X86TargetLowering::isSoftFP16(T VT) const {
		return ::isSoftFP16(VT, Subtarget);
		}

/// Try to lower insertion of a single element into a zero vector.		/// Try to lower insertion of a single element into a zero vector.
///		///
/// This is a common pattern that we have especially efficient patterns to lower		/// This is a common pattern that we have especially efficient patterns to lower
/// across all subtarget feature sets.		/// across all subtarget feature sets.
static SDValue lowerShuffleAsElementInsertion(		static SDValue lowerShuffleAsElementInsertion(
const SDLoc &DL, MVT VT, SDValue V1, SDValue V2, ArrayRef<int> Mask,		const SDLoc &DL, MVT VT, SDValue V1, SDValue V2, ArrayRef<int> Mask,
const APInt &Zeroable, const X86Subtarget &Subtarget,		const APInt &Zeroable, const X86Subtarget &Subtarget,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
MVT ExtVT = VT;		MVT ExtVT = VT;
MVT EltVT = VT.getVectorElementType();		MVT EltVT = VT.getVectorElementType();

		if (isSoftFP16(EltVT, Subtarget))
		return SDValue();

int V2Index =		int V2Index =
find_if(Mask, [&Mask](int M) { return M >= (int)Mask.size(); }) -		find_if(Mask, [&Mask](int M) { return M >= (int)Mask.size(); }) -
Mask.begin();		Mask.begin();
bool IsV1Zeroable = true;		bool IsV1Zeroable = true;
for (int i = 0, Size = Mask.size(); i < Size; ++i)		for (int i = 0, Size = Mask.size(); i < Size; ++i)
if (i != V2Index && !Zeroable[i]) {		if (i != V2Index && !Zeroable[i]) {
IsV1Zeroable = false;		IsV1Zeroable = false;
break;		break;
▲ Show 20 Lines • Show All 5,288 Lines • ▼ Show 20 Lines	static SDValue lowerVSELECTtoVectorShuffle(SDValue Op,
return SDValue();		return SDValue();
}		}

SDValue X86TargetLowering::LowerVSELECT(SDValue Op, SelectionDAG &DAG) const {		SDValue X86TargetLowering::LowerVSELECT(SDValue Op, SelectionDAG &DAG) const {
SDValue Cond = Op.getOperand(0);		SDValue Cond = Op.getOperand(0);
SDValue LHS = Op.getOperand(1);		SDValue LHS = Op.getOperand(1);
SDValue RHS = Op.getOperand(2);		SDValue RHS = Op.getOperand(2);

		SDLoc dl(Op);
		MVT VT = Op.getSimpleValueType();
		if (isSoftFP16(VT)) {
		MVT NVT = VT.changeVectorElementTypeToInteger();
		return DAG.getBitcast(VT, DAG.getNode(ISD::VSELECT, dl, NVT, Cond,
		DAG.getBitcast(NVT, LHS),
		DAG.getBitcast(NVT, RHS)));
		}

// A vselect where all conditions and data are constants can be optimized into		// A vselect where all conditions and data are constants can be optimized into
// a single vector load by SelectionDAGLegalize::ExpandBUILD_VECTOR().		// a single vector load by SelectionDAGLegalize::ExpandBUILD_VECTOR().
if (ISD::isBuildVectorOfConstantSDNodes(Cond.getNode()) &&		if (ISD::isBuildVectorOfConstantSDNodes(Cond.getNode()) &&
ISD::isBuildVectorOfConstantSDNodes(LHS.getNode()) &&		ISD::isBuildVectorOfConstantSDNodes(LHS.getNode()) &&
ISD::isBuildVectorOfConstantSDNodes(RHS.getNode()))		ISD::isBuildVectorOfConstantSDNodes(RHS.getNode()))
return SDValue();		return SDValue();

// Try to lower this to a blend-style vector shuffle. This can handle all		// Try to lower this to a blend-style vector shuffle. This can handle all
// constant condition cases.		// constant condition cases.
if (SDValue BlendOp = lowerVSELECTtoVectorShuffle(Op, Subtarget, DAG))		if (SDValue BlendOp = lowerVSELECTtoVectorShuffle(Op, Subtarget, DAG))
return BlendOp;		return BlendOp;

// If this VSELECT has a vector if i1 as a mask, it will be directly matched		// If this VSELECT has a vector if i1 as a mask, it will be directly matched
// with patterns on the mask registers on AVX-512.		// with patterns on the mask registers on AVX-512.
MVT CondVT = Cond.getSimpleValueType();		MVT CondVT = Cond.getSimpleValueType();
unsigned CondEltSize = Cond.getScalarValueSizeInBits();		unsigned CondEltSize = Cond.getScalarValueSizeInBits();
if (CondEltSize == 1)		if (CondEltSize == 1)
return Op;		return Op;

// Variable blends are only legal from SSE4.1 onward.		// Variable blends are only legal from SSE4.1 onward.
if (!Subtarget.hasSSE41())		if (!Subtarget.hasSSE41())
return SDValue();		return SDValue();

SDLoc dl(Op);
MVT VT = Op.getSimpleValueType();
unsigned EltSize = VT.getScalarSizeInBits();		unsigned EltSize = VT.getScalarSizeInBits();
unsigned NumElts = VT.getVectorNumElements();		unsigned NumElts = VT.getVectorNumElements();

// Expand v32i16/v64i8 without BWI.		// Expand v32i16/v64i8 without BWI.
if ((VT == MVT::v32i16 \|\| VT == MVT::v64i8) && !Subtarget.hasBWI())		if ((VT == MVT::v32i16 \|\| VT == MVT::v64i8) && !Subtarget.hasBWI())
return SDValue();		return SDValue();

// If the VSELECT is on a 512-bit type, we have to convert a non-i1 condition		// If the VSELECT is on a 512-bit type, we have to convert a non-i1 condition
▲ Show 20 Lines • Show All 1,371 Lines • ▼ Show 20 Lines	static SDValue lowerINT_TO_FP_vXi64(SDValue Op, SelectionDAG &DAG,
SDValue Cvt = DAG.getSelect(DL, MVT::v4f32, IsNeg, Slow, SignCvt);		SDValue Cvt = DAG.getSelect(DL, MVT::v4f32, IsNeg, Slow, SignCvt);

if (IsStrict)		if (IsStrict)
return DAG.getMergeValues({Cvt, Chain}, DL);		return DAG.getMergeValues({Cvt, Chain}, DL);

return Cvt;		return Cvt;
}		}

template<typename T>
static bool isSoftFP16(T VT, const X86Subtarget &Subtarget) {
return VT == MVT::f16 && !Subtarget.hasFP16();
}

template<typename T>
bool X86TargetLowering::isSoftFP16(T VT) const {
return ::isSoftFP16(VT, Subtarget);
}

static SDValue promoteXINT_TO_FP(SDValue Op, SelectionDAG &DAG) {		static SDValue promoteXINT_TO_FP(SDValue Op, SelectionDAG &DAG) {
bool IsStrict = Op->isStrictFPOpcode();		bool IsStrict = Op->isStrictFPOpcode();
SDValue Src = Op.getOperand(IsStrict ? 1 : 0);		SDValue Src = Op.getOperand(IsStrict ? 1 : 0);
SDValue Chain = IsStrict ? Op->getOperand(0) : DAG.getEntryNode();		SDValue Chain = IsStrict ? Op->getOperand(0) : DAG.getEntryNode();
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
MVT NVT = VT.isVector() ? VT.changeVectorElementType(MVT::f32) : MVT::f32;		MVT NVT = VT.isVector() ? VT.changeVectorElementType(MVT::f32) : MVT::f32;
SDLoc dl(Op);		SDLoc dl(Op);

SDValue Rnd = DAG.getIntPtrConstant(0, dl);		SDValue Rnd = DAG.getIntPtrConstant(0, dl);
if (IsStrict)		if (IsStrict)
return DAG.getNode(		return DAG.getNode(
ISD::STRICT_FP_ROUND, dl, {VT, MVT::Other},		ISD::STRICT_FP_ROUND, dl, {VT, MVT::Other},
{Chain,		{Chain,
DAG.getNode(Op.getOpcode(), dl, {NVT, MVT::Other}, {Chain, Src}),		DAG.getNode(Op.getOpcode(), dl, {NVT, MVT::Other}, {Chain, Src}),
Rnd});		Rnd});
return DAG.getNode(ISD::FP_ROUND, dl, VT,		return DAG.getNode(ISD::FP_ROUND, dl, VT,
DAG.getNode(Op.getOpcode(), dl, NVT, Src), Rnd);		DAG.getNode(Op.getOpcode(), dl, NVT, Src), Rnd);
}		}

		static bool isLegalConversion(MVT VT, bool IsSigned,
		const X86Subtarget &Subtarget) {
		if (VT == MVT::v4i32 && Subtarget.hasSSE2() && IsSigned)
		return true;
		if (VT == MVT::v8i32 && Subtarget.hasAVX() && IsSigned)
		return true;
		if (Subtarget.hasVLX() && (VT == MVT::v4i32 \|\| VT == MVT::v8i32))
		return true;
		if (Subtarget.useAVX512Regs()) {
		if (VT == MVT::v16i32)
		return true;
		if (VT == MVT::v8i64 && Subtarget.hasDQI())
		return true;
		}
		if (Subtarget.hasDQI() && Subtarget.hasVLX() &&
		(VT == MVT::v2i64 \|\| VT == MVT::v4i64))
		return true;
		return false;
		}

SDValue X86TargetLowering::LowerSINT_TO_FP(SDValue Op,		SDValue X86TargetLowering::LowerSINT_TO_FP(SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
bool IsStrict = Op->isStrictFPOpcode();		bool IsStrict = Op->isStrictFPOpcode();
unsigned OpNo = IsStrict ? 1 : 0;		unsigned OpNo = IsStrict ? 1 : 0;
SDValue Src = Op.getOperand(OpNo);		SDValue Src = Op.getOperand(OpNo);
SDValue Chain = IsStrict ? Op->getOperand(0) : DAG.getEntryNode();		SDValue Chain = IsStrict ? Op->getOperand(0) : DAG.getEntryNode();
MVT SrcVT = Src.getSimpleValueType();		MVT SrcVT = Src.getSimpleValueType();
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
SDLoc dl(Op);		SDLoc dl(Op);

if (isSoftFP16(VT))		if (isSoftFP16(VT))
return promoteXINT_TO_FP(Op, DAG);		return promoteXINT_TO_FP(Op, DAG);
		else if (isLegalConversion(SrcVT, true, Subtarget))
		return Op;

if (Subtarget.isTargetWin64() && SrcVT == MVT::i128)		if (Subtarget.isTargetWin64() && SrcVT == MVT::i128)
return LowerWin64_INT128_TO_FP(Op, DAG);		return LowerWin64_INT128_TO_FP(Op, DAG);

if (SDValue Extract = vectorizeExtractedCast(Op, DAG, Subtarget))		if (SDValue Extract = vectorizeExtractedCast(Op, DAG, Subtarget))
return Extract;		return Extract;

if (SDValue R = lowerFPToIntToFP(Op, DAG, Subtarget))		if (SDValue R = lowerFPToIntToFP(Op, DAG, Subtarget))
▲ Show 20 Lines • Show All 487 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerUINT_TO_FP(SDValue Op,
SDValue Chain = IsStrict ? Op.getOperand(0) : DAG.getEntryNode();		SDValue Chain = IsStrict ? Op.getOperand(0) : DAG.getEntryNode();

// Bail out when we don't have native conversion instructions.		// Bail out when we don't have native conversion instructions.
if (DstVT == MVT::f128)		if (DstVT == MVT::f128)
return SDValue();		return SDValue();

if (isSoftFP16(DstVT))		if (isSoftFP16(DstVT))
return promoteXINT_TO_FP(Op, DAG);		return promoteXINT_TO_FP(Op, DAG);
		else if (isLegalConversion(SrcVT, false, Subtarget))
		return Op;

if (DstVT.isVector())		if (DstVT.isVector())
return lowerUINT_TO_FP_vec(Op, DAG, Subtarget);		return lowerUINT_TO_FP_vec(Op, DAG, Subtarget);

if (Subtarget.isTargetWin64() && SrcVT == MVT::i128)		if (Subtarget.isTargetWin64() && SrcVT == MVT::i128)
return LowerWin64_INT128_TO_FP(Op, DAG);		return LowerWin64_INT128_TO_FP(Op, DAG);

if (SDValue Extract = vectorizeExtractedCast(Op, DAG, Subtarget))		if (SDValue Extract = vectorizeExtractedCast(Op, DAG, Subtarget))
▲ Show 20 Lines • Show All 813 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerFP_TO_INT(SDValue Op, SelectionDAG &DAG) const {
if (isSoftFP16(SrcVT)) {		if (isSoftFP16(SrcVT)) {
MVT NVT = VT.isVector() ? VT.changeVectorElementType(MVT::f32) : MVT::f32;		MVT NVT = VT.isVector() ? VT.changeVectorElementType(MVT::f32) : MVT::f32;
if (IsStrict)		if (IsStrict)
return DAG.getNode(Op.getOpcode(), dl, {VT, MVT::Other},		return DAG.getNode(Op.getOpcode(), dl, {VT, MVT::Other},
{Chain, DAG.getNode(ISD::STRICT_FP_EXTEND, dl,		{Chain, DAG.getNode(ISD::STRICT_FP_EXTEND, dl,
{NVT, MVT::Other}, {Chain, Src})});		{NVT, MVT::Other}, {Chain, Src})});
return DAG.getNode(Op.getOpcode(), dl, VT,		return DAG.getNode(Op.getOpcode(), dl, VT,
DAG.getNode(ISD::FP_EXTEND, dl, NVT, Src));		DAG.getNode(ISD::FP_EXTEND, dl, NVT, Src));
		} else if (isTypeLegal(SrcVT) && isLegalConversion(VT, IsSigned, Subtarget)) {
		return Op;
}		}

if (VT.isVector()) {		if (VT.isVector()) {
if (VT == MVT::v2i1 && SrcVT == MVT::v2f64) {		if (VT == MVT::v2i1 && SrcVT == MVT::v2f64) {
MVT ResVT = MVT::v4i32;		MVT ResVT = MVT::v4i32;
MVT TruncVT = MVT::v4i1;		MVT TruncVT = MVT::v4i1;
unsigned Opc;		unsigned Opc;
if (IsStrict)		if (IsStrict)
▲ Show 20 Lines • Show All 581 Lines • ▼ Show 20 Lines	if (IsStrict)
return DAG.getMergeValues({Res, Chain}, DL);		return DAG.getMergeValues({Res, Chain}, DL);
return Res;		return Res;
}		}

if (!SVT.isVector())		if (!SVT.isVector())
return Op;		return Op;

if (SVT.getVectorElementType() == MVT::f16) {		if (SVT.getVectorElementType() == MVT::f16) {
assert(Subtarget.hasFP16() && Subtarget.hasVLX() && "Unexpected features!");		assert(Subtarget.hasF16C() && "Unexpected features!");
if (SVT == MVT::v2f16)		if (SVT == MVT::v2f16)
In = DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v4f16, In,		In = DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v4f16, In,
DAG.getUNDEF(MVT::v2f16));		DAG.getUNDEF(MVT::v2f16));
SDValue Res = DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v8f16, In,		SDValue Res = DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v8f16, In,
DAG.getUNDEF(MVT::v4f16));		DAG.getUNDEF(MVT::v4f16));
if (IsStrict)		if (IsStrict)
return DAG.getNode(X86ISD::STRICT_VFPEXT, DL, {VT, MVT::Other},		return DAG.getNode(X86ISD::STRICT_VFPEXT, DL, {VT, MVT::Other},
{Op->getOperand(0), Res});		{Op->getOperand(0), Res});
return DAG.getNode(X86ISD::VFPEXT, DL, VT, Res);		return DAG.getNode(X86ISD::VFPEXT, DL, VT, Res);
		} else if (VT == MVT::v4f64 \|\| VT == MVT::v8f64) {
		return Op;
}		}

assert(SVT == MVT::v2f32 && "Only customize MVT::v2f32 type legalization!");		assert(SVT == MVT::v2f32 && "Only customize MVT::v2f32 type legalization!");

SDValue Res =		SDValue Res =
DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v4f32, In, DAG.getUNDEF(SVT));		DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v4f32, In, DAG.getUNDEF(SVT));
if (IsStrict)		if (IsStrict)
return DAG.getNode(X86ISD::STRICT_VFPEXT, DL, {VT, MVT::Other},		return DAG.getNode(X86ISD::STRICT_VFPEXT, DL, {VT, MVT::Other},
Show All 9 Lines	SDValue X86TargetLowering::LowerFP_ROUND(SDValue Op, SelectionDAG &DAG) const {
SDValue In = Op.getOperand(IsStrict ? 1 : 0);		SDValue In = Op.getOperand(IsStrict ? 1 : 0);
SDValue Op2 = Op.getOperand(IsStrict ? 2 : 1);		SDValue Op2 = Op.getOperand(IsStrict ? 2 : 1);
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
MVT SVT = In.getSimpleValueType();		MVT SVT = In.getSimpleValueType();

if (SVT == MVT::f128 \|\| (VT == MVT::f16 && SVT == MVT::f80))		if (SVT == MVT::f128 \|\| (VT == MVT::f16 && SVT == MVT::f80))
return SDValue();		return SDValue();

if (VT == MVT::f16) {		if (VT.getScalarType() == MVT::f16 && isTypeLegal(VT)) {
if (Subtarget.hasFP16())		if (Subtarget.hasFP16())
return Op;		return Op;

if (SVT != MVT::f32) {		if (SVT.getScalarType() != MVT::f32) {
		MVT TmpVT =
		VT.isVector() ? SVT.changeVectorElementType(MVT::f32) : MVT::f32;
if (IsStrict)		if (IsStrict)
return DAG.getNode(		return DAG.getNode(
ISD::STRICT_FP_ROUND, DL, {VT, MVT::Other},		ISD::STRICT_FP_ROUND, DL, {VT, MVT::Other},
{Chain,		{Chain,
DAG.getNode(ISD::STRICT_FP_ROUND, DL, {MVT::f32, MVT::Other},		DAG.getNode(ISD::STRICT_FP_ROUND, DL, {TmpVT, MVT::Other},
{Chain, In, Op2}),		{Chain, In, Op2}),
Op2});		Op2});

return DAG.getNode(ISD::FP_ROUND, DL, VT,		return DAG.getNode(ISD::FP_ROUND, DL, VT,
DAG.getNode(ISD::FP_ROUND, DL, MVT::f32, In, Op2),		DAG.getNode(ISD::FP_ROUND, DL, TmpVT, In, Op2), Op2);
Op2);
}		}

if (!Subtarget.hasF16C())		if (!Subtarget.hasF16C())
return SDValue();		return SDValue();

		if (VT.isVector())
		return Op;

SDValue Res;		SDValue Res;
SDValue Rnd = DAG.getTargetConstant(X86::STATIC_ROUNDING::CUR_DIRECTION, DL,		SDValue Rnd = DAG.getTargetConstant(X86::STATIC_ROUNDING::CUR_DIRECTION, DL,
MVT::i32);		MVT::i32);
if (IsStrict) {		if (IsStrict) {
Res = DAG.getNode(ISD::INSERT_VECTOR_ELT, DL, MVT::v4f32,		Res = DAG.getNode(ISD::INSERT_VECTOR_ELT, DL, MVT::v4f32,
DAG.getConstantFP(0, DL, MVT::v4f32), In,		DAG.getConstantFP(0, DL, MVT::v4f32), In,
DAG.getIntPtrConstant(0, DL));		DAG.getIntPtrConstant(0, DL));
Res = DAG.getNode(X86ISD::STRICT_CVTPS2PH, DL, {MVT::v8i16, MVT::Other},		Res = DAG.getNode(X86ISD::STRICT_CVTPS2PH, DL, {MVT::v8i16, MVT::Other},
▲ Show 20 Lines • Show All 1,278 Lines • ▼ Show 20 Lines	static SDValue LowerVSETCC(SDValue Op, const X86Subtarget &Subtarget,
SDValue Op1 = Op.getOperand(IsStrict ? 2 : 1);		SDValue Op1 = Op.getOperand(IsStrict ? 2 : 1);
SDValue CC = Op.getOperand(IsStrict ? 3 : 2);		SDValue CC = Op.getOperand(IsStrict ? 3 : 2);
MVT VT = Op->getSimpleValueType(0);		MVT VT = Op->getSimpleValueType(0);
ISD::CondCode Cond = cast<CondCodeSDNode>(CC)->get();		ISD::CondCode Cond = cast<CondCodeSDNode>(CC)->get();
bool isFP = Op1.getSimpleValueType().isFloatingPoint();		bool isFP = Op1.getSimpleValueType().isFloatingPoint();
SDLoc dl(Op);		SDLoc dl(Op);

if (isFP) {		if (isFP) {
#ifndef NDEBUG
MVT EltVT = Op0.getSimpleValueType().getVectorElementType();		MVT EltVT = Op0.getSimpleValueType().getVectorElementType();
assert(EltVT == MVT::f16 \|\| EltVT == MVT::f32 \|\| EltVT == MVT::f64);		assert(EltVT == MVT::f16 \|\| EltVT == MVT::f32 \|\| EltVT == MVT::f64);
#endif		if (isSoftFP16(EltVT, Subtarget))
		return SDValue();

bool IsSignaling = Op.getOpcode() == ISD::STRICT_FSETCCS;		bool IsSignaling = Op.getOpcode() == ISD::STRICT_FSETCCS;
SDValue Chain = IsStrict ? Op.getOperand(0) : SDValue();		SDValue Chain = IsStrict ? Op.getOperand(0) : SDValue();

// If we have a strict compare with a vXi1 result and the input is 128/256		// If we have a strict compare with a vXi1 result and the input is 128/256
// bits we can't use a masked compare unless we have VLX. If we use a wider		// bits we can't use a masked compare unless we have VLX. If we use a wider
// compare like we do for non-strict, we might trigger spurious exceptions		// compare like we do for non-strict, we might trigger spurious exceptions
// from the upper elements. Instead emit a AVX compare and convert to mask.		// from the upper elements. Instead emit a AVX compare and convert to mask.
▲ Show 20 Lines • Show All 545 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerSETCC(SDValue Op, SelectionDAG &DAG) const {
assert(VT == MVT::i8 && "SetCC type must be 8-bit integer");		assert(VT == MVT::i8 && "SetCC type must be 8-bit integer");
SDValue Chain = IsStrict ? Op.getOperand(0) : SDValue();		SDValue Chain = IsStrict ? Op.getOperand(0) : SDValue();
SDValue Op0 = Op.getOperand(IsStrict ? 1 : 0);		SDValue Op0 = Op.getOperand(IsStrict ? 1 : 0);
SDValue Op1 = Op.getOperand(IsStrict ? 2 : 1);		SDValue Op1 = Op.getOperand(IsStrict ? 2 : 1);
SDLoc dl(Op);		SDLoc dl(Op);
ISD::CondCode CC =		ISD::CondCode CC =
cast<CondCodeSDNode>(Op.getOperand(IsStrict ? 3 : 2))->get();		cast<CondCodeSDNode>(Op.getOperand(IsStrict ? 3 : 2))->get();

		if (isSoftFP16(Op0.getValueType()))
		return SDValue();

// Handle f128 first, since one possible outcome is a normal integer		// Handle f128 first, since one possible outcome is a normal integer
// comparison which gets handled by emitFlagsForSetcc.		// comparison which gets handled by emitFlagsForSetcc.
if (Op0.getValueType() == MVT::f128) {		if (Op0.getValueType() == MVT::f128) {
softenSetCCOperands(DAG, MVT::f128, Op0, Op1, CC, dl, Op0, Op1, Chain,		softenSetCCOperands(DAG, MVT::f128, Op0, Op1, CC, dl, Op0, Op1, Chain,
Op.getOpcode() == ISD::STRICT_FSETCCS);		Op.getOpcode() == ISD::STRICT_FSETCCS);

// If softenSetCCOperands returned a scalar, use it.		// If softenSetCCOperands returned a scalar, use it.
if (!Op1.getNode()) {		if (!Op1.getNode()) {
▲ Show 20 Lines • Show All 8,144 Lines • ▼ Show 20 Lines	if (IsStrict) {
SDValue Sub = DAG.getNode(ISD::FSUB, dl, MVT::v2f64, Or, VBias);		SDValue Sub = DAG.getNode(ISD::FSUB, dl, MVT::v2f64, Or, VBias);
Results.push_back(DAG.getNode(X86ISD::VFPROUND, dl, MVT::v4f32, Sub));		Results.push_back(DAG.getNode(X86ISD::VFPROUND, dl, MVT::v4f32, Sub));
}		}
return;		return;
}		}
case ISD::STRICT_FP_ROUND:		case ISD::STRICT_FP_ROUND:
case ISD::FP_ROUND: {		case ISD::FP_ROUND: {
bool IsStrict = N->isStrictFPOpcode();		bool IsStrict = N->isStrictFPOpcode();
		SDValue Chain = IsStrict ? N->getOperand(0) : SDValue();
SDValue Src = N->getOperand(IsStrict ? 1 : 0);		SDValue Src = N->getOperand(IsStrict ? 1 : 0);
		SDValue Rnd = N->getOperand(IsStrict ? 2 : 1);
		EVT SrcVT = Src.getValueType();
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
EVT NewVT = VT.getVectorElementType() == MVT::f16 ? MVT::v8f16 : MVT::v4f32;		SDValue V;
if (VT == MVT::v2f16 && Src.getValueType() == MVT::v2f32) {		if (VT == MVT::v2f16 && Src.getValueType() == MVT::v2f32) {
SDValue Ext = IsStrict ? DAG.getConstantFP(0.0, dl, MVT::v2f32)		SDValue Ext = IsStrict ? DAG.getConstantFP(0.0, dl, MVT::v2f32)
: DAG.getUNDEF(MVT::v2f32);		: DAG.getUNDEF(MVT::v2f32);
Src = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4f32, Src, Ext);		Src = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4f32, Src, Ext);
}		}
		if (!Subtarget.hasFP16() && VT.getVectorElementType() == MVT::f16) {
		assert(Subtarget.hasF16C() && "Cannot widen f16 without F16C");
		if (SrcVT == MVT::v2f64) {
		if (IsStrict)
		Src = DAG.getNode(X86ISD::STRICT_VFPROUND, dl,
		{MVT::v4f32, MVT::Other}, {Chain, Src});
		else
		Src = DAG.getNode(X86ISD::VFPROUND, dl, MVT::v4f32, Src);
		} else if (SrcVT == MVT::v4f64) {
		if (IsStrict)
		Src = DAG.getNode(ISD::STRICT_FP_ROUND, dl, {MVT::v4f32, MVT::Other},
		{Chain, Src, Rnd});
		else
		Src = DAG.getNode(ISD::FP_ROUND, dl, MVT::v4f32, Src, Rnd);
		}

		if (IsStrict)
		V = DAG.getNode(X86ISD::STRICT_CVTPS2PH, dl, {MVT::v8i16, MVT::Other},
		{Chain, Src, Rnd});
		else
		V = DAG.getNode(X86ISD::CVTPS2PH, dl, MVT::v8i16, Src, Rnd);

		Results.push_back(DAG.getBitcast(MVT::v8f16, V));
		if (IsStrict)
		Results.push_back(V.getValue(1));
		return;
		}
if (!isTypeLegal(Src.getValueType()))		if (!isTypeLegal(Src.getValueType()))
return;		return;
SDValue V;		EVT NewVT = VT.getVectorElementType() == MVT::f16 ? MVT::v8f16 : MVT::v4f32;
if (IsStrict)		if (IsStrict)
V = DAG.getNode(X86ISD::STRICT_VFPROUND, dl, {NewVT, MVT::Other},		V = DAG.getNode(X86ISD::STRICT_VFPROUND, dl, {NewVT, MVT::Other},
{N->getOperand(0), Src});		{Chain, Src});
else		else
V = DAG.getNode(X86ISD::VFPROUND, dl, NewVT, Src);		V = DAG.getNode(X86ISD::VFPROUND, dl, NewVT, Src);
Results.push_back(V);		Results.push_back(V);
if (IsStrict)		if (IsStrict)
Results.push_back(V.getValue(1));		Results.push_back(V.getValue(1));
return;		return;
}		}
case ISD::FP_EXTEND:		case ISD::FP_EXTEND:
▲ Show 20 Lines • Show All 6,721 Lines • ▼ Show 20 Lines
static SDValue combineTargetShuffle(SDValue N, SelectionDAG &DAG,		static SDValue combineTargetShuffle(SDValue N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
SDLoc DL(N);		SDLoc DL(N);
MVT VT = N.getSimpleValueType();		MVT VT = N.getSimpleValueType();
SmallVector<int, 4> Mask;		SmallVector<int, 4> Mask;
unsigned Opcode = N.getOpcode();		unsigned Opcode = N.getOpcode();

// FIXME: Remove this after we support vector FP16
if (isSoftFP16(peekThroughBitcasts(N.getOperand(0)).getSimpleValueType(),
Subtarget))
return SDValue();

if (SDValue R = combineCommutableSHUFP(N, VT, DL, DAG))		if (SDValue R = combineCommutableSHUFP(N, VT, DL, DAG))
return R;		return R;

// Handle specific target shuffles.		// Handle specific target shuffles.
switch (Opcode) {		switch (Opcode) {
case X86ISD::MOVDDUP: {		case X86ISD::MOVDDUP: {
SDValue Src = N.getOperand(0);		SDValue Src = N.getOperand(0);
// Turn a 128-bit MOVDDUP of a full vector load into movddup+vzload.		// Turn a 128-bit MOVDDUP of a full vector load into movddup+vzload.
▲ Show 20 Lines • Show All 5,042 Lines • ▼ Show 20 Lines	if (N->getOpcode() == ISD::VSELECT && Cond.getOpcode() == ISD::BITCAST &&
if (SDValue ExtCond = combineToExtendBoolVectorInReg(		if (SDValue ExtCond = combineToExtendBoolVectorInReg(
ISD::SIGN_EXTEND, DL, ExtCondVT, Cond, DAG, DCI, Subtarget)) {		ISD::SIGN_EXTEND, DL, ExtCondVT, Cond, DAG, DCI, Subtarget)) {
ExtCond = DAG.getNode(ISD::TRUNCATE, DL, CondVT, ExtCond);		ExtCond = DAG.getNode(ISD::TRUNCATE, DL, CondVT, ExtCond);
return DAG.getSelect(DL, VT, ExtCond, LHS, RHS);		return DAG.getSelect(DL, VT, ExtCond, LHS, RHS);
}		}
}		}

// Early exit check		// Early exit check
if (!TLI.isTypeLegal(VT))		if (!TLI.isTypeLegal(VT) \|\| isSoftFP16(VT, Subtarget))
return SDValue();		return SDValue();

if (SDValue V = combineVSelectWithAllOnesOrZeros(N, DAG, DCI, Subtarget))		if (SDValue V = combineVSelectWithAllOnesOrZeros(N, DAG, DCI, Subtarget))
return V;		return V;

if (SDValue V = combineVSelectToBLENDV(N, DAG, DCI, Subtarget))		if (SDValue V = combineVSelectToBLENDV(N, DAG, DCI, Subtarget))
return V;		return V;

▲ Show 20 Lines • Show All 9,982 Lines • ▼ Show 20 Lines
static SDValue combineFP_ROUND(SDNode *N, SelectionDAG &DAG,		static SDValue combineFP_ROUND(SDNode *N, SelectionDAG &DAG,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
if (!Subtarget.hasF16C() \|\| Subtarget.useSoftFloat())		if (!Subtarget.hasF16C() \|\| Subtarget.useSoftFloat())
return SDValue();		return SDValue();

if (Subtarget.hasFP16())		if (Subtarget.hasFP16())
return SDValue();		return SDValue();

		bool IsStrict = N->isStrictFPOpcode();
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);
SDValue Src = N->getOperand(0);		SDValue Src = N->getOperand(IsStrict ? 1 : 0);
EVT SrcVT = Src.getValueType();		EVT SrcVT = Src.getValueType();

if (!VT.isVector() \|\| VT.getVectorElementType() != MVT::f16 \|\|		if (!VT.isVector() \|\| VT.getVectorElementType() != MVT::f16 \|\|
SrcVT.getVectorElementType() != MVT::f32)		SrcVT.getVectorElementType() != MVT::f32)
return SDValue();		return SDValue();

unsigned NumElts = VT.getVectorNumElements();		unsigned NumElts = VT.getVectorNumElements();
if (NumElts == 1 \|\| !isPowerOf2_32(NumElts))		if (NumElts == 1 \|\| !isPowerOf2_32(NumElts))
return SDValue();		return SDValue();

SDLoc dl(N);		SDLoc dl(N);

// Widen to at least 4 input elements.		// Widen to at least 4 input elements.
if (NumElts < 4)		if (NumElts < 4)
Src = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4f32, Src,		Src = DAG.getNode(ISD::CONCAT_VECTORS, dl, MVT::v4f32, Src,
DAG.getConstantFP(0.0, dl, SrcVT));		DAG.getConstantFP(0.0, dl, SrcVT));

// Destination is v8i16 with at least 8 elements.		// Destination is v8i16 with at least 8 elements.
EVT CvtVT = EVT::getVectorVT(*DAG.getContext(), MVT::i16,		EVT CvtVT = EVT::getVectorVT(*DAG.getContext(), MVT::i16,
std::max(8U, NumElts));		std::max(8U, NumElts));
SDValue Cvt = DAG.getNode(X86ISD::CVTPS2PH, dl, CvtVT, Src,		SDValue Cvt, Chain;
DAG.getTargetConstant(4, dl, MVT::i32));		SDValue Rnd = DAG.getTargetConstant(4, dl, MVT::i32);
		if (IsStrict) {
		Cvt = DAG.getNode(X86ISD::STRICT_CVTPS2PH, dl, {CvtVT, MVT::Other},
		{N->getOperand(0), Src, Rnd});
		Chain = Cvt.getValue(1);
		} else {
		Cvt = DAG.getNode(X86ISD::CVTPS2PH, dl, CvtVT, Src, Rnd);
		}

// Extract down to real number of elements.		// Extract down to real number of elements.
if (NumElts < 8) {		if (NumElts < 8) {
EVT IntVT = VT.changeVectorElementTypeToInteger();		EVT IntVT = VT.changeVectorElementTypeToInteger();
Cvt = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, IntVT, Cvt,		Cvt = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, IntVT, Cvt,
DAG.getIntPtrConstant(0, dl));		DAG.getIntPtrConstant(0, dl));
}		}

return DAG.getBitcast(VT, Cvt);		Cvt = DAG.getBitcast(VT, Cvt);

		if (IsStrict)
		return DAG.getMergeValues({Cvt, Chain}, dl);

		return Cvt;
}		}

static SDValue combineMOVDQ2Q(SDNode *N, SelectionDAG &DAG) {		static SDValue combineMOVDQ2Q(SDNode *N, SelectionDAG &DAG) {
SDValue Src = N->getOperand(0);		SDValue Src = N->getOperand(0);

// Turn MOVDQ2Q+simple_load into an mmx load.		// Turn MOVDQ2Q+simple_load into an mmx load.
if (ISD::isNormalLoad(Src.getNode()) && Src.hasOneUse()) {		if (ISD::isNormalLoad(Src.getNode()) && Src.hasOneUse()) {
LoadSDNode *LN = cast<LoadSDNode>(Src.getNode());		LoadSDNode *LN = cast<LoadSDNode>(Src.getNode());
▲ Show 20 Lines • Show All 191 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::PerformDAGCombine(SDNode *N,
case X86ISD::PMULUDQ: return combinePMULDQ(N, DAG, DCI, Subtarget);		case X86ISD::PMULUDQ: return combinePMULDQ(N, DAG, DCI, Subtarget);
case X86ISD::VPMADDUBSW:		case X86ISD::VPMADDUBSW:
case X86ISD::VPMADDWD: return combineVPMADD(N, DAG, DCI);		case X86ISD::VPMADDWD: return combineVPMADD(N, DAG, DCI);
case X86ISD::KSHIFTL:		case X86ISD::KSHIFTL:
case X86ISD::KSHIFTR: return combineKSHIFT(N, DAG, DCI);		case X86ISD::KSHIFTR: return combineKSHIFT(N, DAG, DCI);
case ISD::FP16_TO_FP: return combineFP16_TO_FP(N, DAG, Subtarget);		case ISD::FP16_TO_FP: return combineFP16_TO_FP(N, DAG, Subtarget);
case ISD::STRICT_FP_EXTEND:		case ISD::STRICT_FP_EXTEND:
case ISD::FP_EXTEND: return combineFP_EXTEND(N, DAG, Subtarget);		case ISD::FP_EXTEND: return combineFP_EXTEND(N, DAG, Subtarget);
		case ISD::STRICT_FP_ROUND:
case ISD::FP_ROUND: return combineFP_ROUND(N, DAG, Subtarget);		case ISD::FP_ROUND: return combineFP_ROUND(N, DAG, Subtarget);
case X86ISD::VBROADCAST_LOAD:		case X86ISD::VBROADCAST_LOAD:
case X86ISD::SUBV_BROADCAST_LOAD: return combineBROADCAST_LOAD(N, DAG, DCI);		case X86ISD::SUBV_BROADCAST_LOAD: return combineBROADCAST_LOAD(N, DAG, DCI);
case X86ISD::MOVDQ2Q: return combineMOVDQ2Q(N, DAG);		case X86ISD::MOVDQ2Q: return combineMOVDQ2Q(N, DAG);
case X86ISD::PDEP: return combinePDEP(N, DAG, DCI);		case X86ISD::PDEP: return combinePDEP(N, DAG, DCI);
}		}

return SDValue();		return SDValue();
▲ Show 20 Lines • Show All 1,308 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,763 Lines • ▼ Show 20 Lines
	}			}

	let Predicates = [HasAVX512] in {			let Predicates = [HasAVX512] in {
	// 512-bit load.			// 512-bit load.
	def : Pat<(alignedloadv16i32 addr:$src),			def : Pat<(alignedloadv16i32 addr:$src),
	(VMOVDQA64Zrm addr:$src)>;			(VMOVDQA64Zrm addr:$src)>;
	def : Pat<(alignedloadv32i16 addr:$src),			def : Pat<(alignedloadv32i16 addr:$src),
	(VMOVDQA64Zrm addr:$src)>;			(VMOVDQA64Zrm addr:$src)>;
				def : Pat<(alignedloadv32f16 addr:$src),
				(VMOVAPSZrm addr:$src)>;
	def : Pat<(alignedloadv64i8 addr:$src),			def : Pat<(alignedloadv64i8 addr:$src),
	(VMOVDQA64Zrm addr:$src)>;			(VMOVDQA64Zrm addr:$src)>;
	def : Pat<(loadv16i32 addr:$src),			def : Pat<(loadv16i32 addr:$src),
	(VMOVDQU64Zrm addr:$src)>;			(VMOVDQU64Zrm addr:$src)>;
	def : Pat<(loadv32i16 addr:$src),			def : Pat<(loadv32i16 addr:$src),
	(VMOVDQU64Zrm addr:$src)>;			(VMOVDQU64Zrm addr:$src)>;
				def : Pat<(loadv32f16 addr:$src),
				(VMOVUPSZrm addr:$src)>;
	def : Pat<(loadv64i8 addr:$src),			def : Pat<(loadv64i8 addr:$src),
	(VMOVDQU64Zrm addr:$src)>;			(VMOVDQU64Zrm addr:$src)>;

	// 512-bit store.			// 512-bit store.
	def : Pat<(alignedstore (v16i32 VR512:$src), addr:$dst),			def : Pat<(alignedstore (v16i32 VR512:$src), addr:$dst),
	(VMOVDQA64Zmr addr:$dst, VR512:$src)>;			(VMOVDQA64Zmr addr:$dst, VR512:$src)>;
	def : Pat<(alignedstore (v32i16 VR512:$src), addr:$dst),			def : Pat<(alignedstore (v32i16 VR512:$src), addr:$dst),
	(VMOVDQA64Zmr addr:$dst, VR512:$src)>;			(VMOVDQA64Zmr addr:$dst, VR512:$src)>;
				def : Pat<(alignedstore (v32f16 VR512:$src), addr:$dst),
				(VMOVAPSZmr addr:$dst, VR512:$src)>;
	def : Pat<(alignedstore (v64i8 VR512:$src), addr:$dst),			def : Pat<(alignedstore (v64i8 VR512:$src), addr:$dst),
	(VMOVDQA64Zmr addr:$dst, VR512:$src)>;			(VMOVDQA64Zmr addr:$dst, VR512:$src)>;
	def : Pat<(store (v16i32 VR512:$src), addr:$dst),			def : Pat<(store (v16i32 VR512:$src), addr:$dst),
	(VMOVDQU64Zmr addr:$dst, VR512:$src)>;			(VMOVDQU64Zmr addr:$dst, VR512:$src)>;
	def : Pat<(store (v32i16 VR512:$src), addr:$dst),			def : Pat<(store (v32i16 VR512:$src), addr:$dst),
	(VMOVDQU64Zmr addr:$dst, VR512:$src)>;			(VMOVDQU64Zmr addr:$dst, VR512:$src)>;
				def : Pat<(store (v32f16 VR512:$src), addr:$dst),
				(VMOVUPSZmr addr:$dst, VR512:$src)>;
	def : Pat<(store (v64i8 VR512:$src), addr:$dst),			def : Pat<(store (v64i8 VR512:$src), addr:$dst),
	(VMOVDQU64Zmr addr:$dst, VR512:$src)>;			(VMOVDQU64Zmr addr:$dst, VR512:$src)>;
	}			}

	let Predicates = [HasVLX] in {			let Predicates = [HasVLX] in {
	// 128-bit load.			// 128-bit load.
	def : Pat<(alignedloadv4i32 addr:$src),			def : Pat<(alignedloadv4i32 addr:$src),
	(VMOVDQA64Z128rm addr:$src)>;			(VMOVDQA64Z128rm addr:$src)>;
	def : Pat<(alignedloadv8i16 addr:$src),			def : Pat<(alignedloadv8i16 addr:$src),
	(VMOVDQA64Z128rm addr:$src)>;			(VMOVDQA64Z128rm addr:$src)>;
				def : Pat<(alignedloadv8f16 addr:$src),
				(VMOVAPSZ128rm addr:$src)>;
	def : Pat<(alignedloadv16i8 addr:$src),			def : Pat<(alignedloadv16i8 addr:$src),
	(VMOVDQA64Z128rm addr:$src)>;			(VMOVDQA64Z128rm addr:$src)>;
	def : Pat<(loadv4i32 addr:$src),			def : Pat<(loadv4i32 addr:$src),
	(VMOVDQU64Z128rm addr:$src)>;			(VMOVDQU64Z128rm addr:$src)>;
	def : Pat<(loadv8i16 addr:$src),			def : Pat<(loadv8i16 addr:$src),
	(VMOVDQU64Z128rm addr:$src)>;			(VMOVDQU64Z128rm addr:$src)>;
				def : Pat<(loadv8f16 addr:$src),
				(VMOVUPSZ128rm addr:$src)>;
	def : Pat<(loadv16i8 addr:$src),			def : Pat<(loadv16i8 addr:$src),
	(VMOVDQU64Z128rm addr:$src)>;			(VMOVDQU64Z128rm addr:$src)>;

	// 128-bit store.			// 128-bit store.
	def : Pat<(alignedstore (v4i32 VR128X:$src), addr:$dst),			def : Pat<(alignedstore (v4i32 VR128X:$src), addr:$dst),
	(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;			(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;
	def : Pat<(alignedstore (v8i16 VR128X:$src), addr:$dst),			def : Pat<(alignedstore (v8i16 VR128X:$src), addr:$dst),
	(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;			(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;
				def : Pat<(alignedstore (v8f16 VR128X:$src), addr:$dst),
				(VMOVAPSZ128mr addr:$dst, VR128X:$src)>;
	def : Pat<(alignedstore (v16i8 VR128X:$src), addr:$dst),			def : Pat<(alignedstore (v16i8 VR128X:$src), addr:$dst),
	(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;			(VMOVDQA64Z128mr addr:$dst, VR128X:$src)>;
	def : Pat<(store (v4i32 VR128X:$src), addr:$dst),			def : Pat<(store (v4i32 VR128X:$src), addr:$dst),
	(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;			(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;
	def : Pat<(store (v8i16 VR128X:$src), addr:$dst),			def : Pat<(store (v8i16 VR128X:$src), addr:$dst),
	(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;			(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;
				def : Pat<(store (v8f16 VR128X:$src), addr:$dst),
				(VMOVUPSZ128mr addr:$dst, VR128X:$src)>;
	def : Pat<(store (v16i8 VR128X:$src), addr:$dst),			def : Pat<(store (v16i8 VR128X:$src), addr:$dst),
	(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;			(VMOVDQU64Z128mr addr:$dst, VR128X:$src)>;

	// 256-bit load.			// 256-bit load.
	def : Pat<(alignedloadv8i32 addr:$src),			def : Pat<(alignedloadv8i32 addr:$src),
	(VMOVDQA64Z256rm addr:$src)>;			(VMOVDQA64Z256rm addr:$src)>;
	def : Pat<(alignedloadv16i16 addr:$src),			def : Pat<(alignedloadv16i16 addr:$src),
	(VMOVDQA64Z256rm addr:$src)>;			(VMOVDQA64Z256rm addr:$src)>;
				def : Pat<(alignedloadv16f16 addr:$src),
				(VMOVAPSZ256rm addr:$src)>;
	def : Pat<(alignedloadv32i8 addr:$src),			def : Pat<(alignedloadv32i8 addr:$src),
	(VMOVDQA64Z256rm addr:$src)>;			(VMOVDQA64Z256rm addr:$src)>;
	def : Pat<(loadv8i32 addr:$src),			def : Pat<(loadv8i32 addr:$src),
	(VMOVDQU64Z256rm addr:$src)>;			(VMOVDQU64Z256rm addr:$src)>;
	def : Pat<(loadv16i16 addr:$src),			def : Pat<(loadv16i16 addr:$src),
	(VMOVDQU64Z256rm addr:$src)>;			(VMOVDQU64Z256rm addr:$src)>;
				def : Pat<(loadv16f16 addr:$src),
				(VMOVUPSZ256rm addr:$src)>;
	def : Pat<(loadv32i8 addr:$src),			def : Pat<(loadv32i8 addr:$src),
	(VMOVDQU64Z256rm addr:$src)>;			(VMOVDQU64Z256rm addr:$src)>;

	// 256-bit store.			// 256-bit store.
	def : Pat<(alignedstore (v8i32 VR256X:$src), addr:$dst),			def : Pat<(alignedstore (v8i32 VR256X:$src), addr:$dst),
	(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;			(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;
	def : Pat<(alignedstore (v16i16 VR256X:$src), addr:$dst),			def : Pat<(alignedstore (v16i16 VR256X:$src), addr:$dst),
	(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;			(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;
				def : Pat<(alignedstore (v16f16 VR256X:$src), addr:$dst),
				(VMOVAPSZ256mr addr:$dst, VR256X:$src)>;
	def : Pat<(alignedstore (v32i8 VR256X:$src), addr:$dst),			def : Pat<(alignedstore (v32i8 VR256X:$src), addr:$dst),
	(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;			(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;
	def : Pat<(store (v8i32 VR256X:$src), addr:$dst),			def : Pat<(store (v8i32 VR256X:$src), addr:$dst),
	(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;			(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;
	def : Pat<(store (v16i16 VR256X:$src), addr:$dst),			def : Pat<(store (v16i16 VR256X:$src), addr:$dst),
	(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;			(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;
				def : Pat<(store (v16f16 VR256X:$src), addr:$dst),
				(VMOVUPSZ256mr addr:$dst, VR256X:$src)>;
	def : Pat<(store (v32i8 VR256X:$src), addr:$dst),			def : Pat<(store (v32i8 VR256X:$src), addr:$dst),
	(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;			(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;
	}			}
	let Predicates = [HasBWI] in {			let Predicates = [HasBWI] in {
	def : Pat<(v32f16 (vselect VK32WM:$mask, (v32f16 VR512:$src1), (v32f16 VR512:$src0))),			def : Pat<(v32f16 (vselect VK32WM:$mask, (v32f16 VR512:$src1), (v32f16 VR512:$src0))),
	(VMOVDQU16Zrrk VR512:$src0, VK32WM:$mask, VR512:$src1)>;			(VMOVDQU16Zrrk VR512:$src0, VK32WM:$mask, VR512:$src1)>;
	def : Pat<(v32f16 (vselect VK32WM:$mask, (v32f16 VR512:$src1), v32f16_info.ImmAllZerosV)),			def : Pat<(v32f16 (vselect VK32WM:$mask, (v32f16 VR512:$src1), v32f16_info.ImmAllZerosV)),
	(VMOVDQU16Zrrkz VK32WM:$mask, VR512:$src1)>;			(VMOVDQU16Zrrkz VK32WM:$mask, VR512:$src1)>;
	def : Pat<(v32f16 (alignedloadv32f16 addr:$src)),
	(VMOVAPSZrm addr:$src)>;
	def : Pat<(v32f16 (vselect VK32WM:$mask,			def : Pat<(v32f16 (vselect VK32WM:$mask,
	(v32f16 (alignedloadv32f16 addr:$src)), (v32f16 VR512:$src0))),			(v32f16 (alignedloadv32f16 addr:$src)), (v32f16 VR512:$src0))),
	(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;			(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;
	def : Pat<(v32f16 (vselect VK32WM:$mask,			def : Pat<(v32f16 (vselect VK32WM:$mask,
	(v32f16 (alignedloadv32f16 addr:$src)), v32f16_info.ImmAllZerosV)),			(v32f16 (alignedloadv32f16 addr:$src)), v32f16_info.ImmAllZerosV)),
	(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;			(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;
	def : Pat<(v32f16 (loadv32f16 addr:$src)),
	(VMOVUPSZrm addr:$src)>;
	def : Pat<(v32f16 (vselect VK32WM:$mask,			def : Pat<(v32f16 (vselect VK32WM:$mask,
	(v32f16 (loadv32f16 addr:$src)), (v32f16 VR512:$src0))),			(v32f16 (loadv32f16 addr:$src)), (v32f16 VR512:$src0))),
	(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;			(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;
	def : Pat<(v32f16 (vselect VK32WM:$mask,			def : Pat<(v32f16 (vselect VK32WM:$mask,
	(v32f16 (loadv32f16 addr:$src)), v32f16_info.ImmAllZerosV)),			(v32f16 (loadv32f16 addr:$src)), v32f16_info.ImmAllZerosV)),
	(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;			(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;
	def : Pat<(v32f16 (masked_load addr:$src, VK32WM:$mask, (v32f16 VR512:$src0))),			def : Pat<(v32f16 (masked_load addr:$src, VK32WM:$mask, (v32f16 VR512:$src0))),
	(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;			(VMOVDQU16Zrmk VR512:$src0, VK32WM:$mask, addr:$src)>;
	def : Pat<(v32f16 (masked_load addr:$src, VK32WM:$mask, undef)),			def : Pat<(v32f16 (masked_load addr:$src, VK32WM:$mask, undef)),
	(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;			(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;
	def : Pat<(v32f16 (masked_load addr:$src, VK32WM:$mask, v32f16_info.ImmAllZerosV)),			def : Pat<(v32f16 (masked_load addr:$src, VK32WM:$mask, v32f16_info.ImmAllZerosV)),
	(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;			(VMOVDQU16Zrmkz VK32WM:$mask, addr:$src)>;

	def : Pat<(alignedstore (v32f16 VR512:$src), addr:$dst),
	(VMOVAPSZmr addr:$dst, VR512:$src)>;
	def : Pat<(store (v32f16 VR512:$src), addr:$dst),
	(VMOVUPSZmr addr:$dst, VR512:$src)>;
	def : Pat<(masked_store (v32f16 VR512:$src), addr:$dst, VK32WM:$mask),			def : Pat<(masked_store (v32f16 VR512:$src), addr:$dst, VK32WM:$mask),
	(VMOVDQU16Zmrk addr:$dst, VK32WM:$mask, VR512:$src)>;			(VMOVDQU16Zmrk addr:$dst, VK32WM:$mask, VR512:$src)>;
	}			}
	let Predicates = [HasBWI, HasVLX] in {			let Predicates = [HasBWI, HasVLX] in {
	def : Pat<(v16f16 (vselect VK16WM:$mask, (v16f16 VR256X:$src1), (v16f16 VR256X:$src0))),			def : Pat<(v16f16 (vselect VK16WM:$mask, (v16f16 VR256X:$src1), (v16f16 VR256X:$src0))),
	(VMOVDQU16Z256rrk VR256X:$src0, VK16WM:$mask, VR256X:$src1)>;			(VMOVDQU16Z256rrk VR256X:$src0, VK16WM:$mask, VR256X:$src1)>;
	def : Pat<(v16f16 (vselect VK16WM:$mask, (v16f16 VR256X:$src1), v16f16x_info.ImmAllZerosV)),			def : Pat<(v16f16 (vselect VK16WM:$mask, (v16f16 VR256X:$src1), v16f16x_info.ImmAllZerosV)),
	(VMOVDQU16Z256rrkz VK16WM:$mask, VR256X:$src1)>;			(VMOVDQU16Z256rrkz VK16WM:$mask, VR256X:$src1)>;
	def : Pat<(v16f16 (alignedloadv16f16 addr:$src)),
	(VMOVAPSZ256rm addr:$src)>;
	def : Pat<(v16f16 (vselect VK16WM:$mask,			def : Pat<(v16f16 (vselect VK16WM:$mask,
	(v16f16 (alignedloadv16f16 addr:$src)), (v16f16 VR256X:$src0))),			(v16f16 (alignedloadv16f16 addr:$src)), (v16f16 VR256X:$src0))),
	(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;			(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;
	def : Pat<(v16f16 (vselect VK16WM:$mask,			def : Pat<(v16f16 (vselect VK16WM:$mask,
	(v16f16 (alignedloadv16f16 addr:$src)), v16f16x_info.ImmAllZerosV)),			(v16f16 (alignedloadv16f16 addr:$src)), v16f16x_info.ImmAllZerosV)),
	(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;			(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;
	def : Pat<(v16f16 (loadv16f16 addr:$src)),
	(VMOVUPSZ256rm addr:$src)>;
	def : Pat<(v16f16 (vselect VK16WM:$mask,			def : Pat<(v16f16 (vselect VK16WM:$mask,
	(v16f16 (loadv16f16 addr:$src)), (v16f16 VR256X:$src0))),			(v16f16 (loadv16f16 addr:$src)), (v16f16 VR256X:$src0))),
	(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;			(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;
	def : Pat<(v16f16 (vselect VK16WM:$mask,			def : Pat<(v16f16 (vselect VK16WM:$mask,
	(v16f16 (loadv16f16 addr:$src)), v16f16x_info.ImmAllZerosV)),			(v16f16 (loadv16f16 addr:$src)), v16f16x_info.ImmAllZerosV)),
	(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;			(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;
	def : Pat<(v16f16 (masked_load addr:$src, VK16WM:$mask, (v16f16 VR256X:$src0))),			def : Pat<(v16f16 (masked_load addr:$src, VK16WM:$mask, (v16f16 VR256X:$src0))),
	(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;			(VMOVDQU16Z256rmk VR256X:$src0, VK16WM:$mask, addr:$src)>;
	def : Pat<(v16f16 (masked_load addr:$src, VK16WM:$mask, undef)),			def : Pat<(v16f16 (masked_load addr:$src, VK16WM:$mask, undef)),
	(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;			(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;
	def : Pat<(v16f16 (masked_load addr:$src, VK16WM:$mask, v16f16x_info.ImmAllZerosV)),			def : Pat<(v16f16 (masked_load addr:$src, VK16WM:$mask, v16f16x_info.ImmAllZerosV)),
	(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;			(VMOVDQU16Z256rmkz VK16WM:$mask, addr:$src)>;

	def : Pat<(alignedstore (v16f16 VR256X:$src), addr:$dst),
	(VMOVAPSZ256mr addr:$dst, VR256X:$src)>;
	def : Pat<(store (v16f16 VR256X:$src), addr:$dst),
	(VMOVUPSZ256mr addr:$dst, VR256X:$src)>;
	def : Pat<(masked_store (v16f16 VR256X:$src), addr:$dst, VK16WM:$mask),			def : Pat<(masked_store (v16f16 VR256X:$src), addr:$dst, VK16WM:$mask),
	(VMOVDQU16Z256mrk addr:$dst, VK16WM:$mask, VR256X:$src)>;			(VMOVDQU16Z256mrk addr:$dst, VK16WM:$mask, VR256X:$src)>;

	def : Pat<(v8f16 (vselect VK8WM:$mask, (v8f16 VR128X:$src1), (v8f16 VR128X:$src0))),			def : Pat<(v8f16 (vselect VK8WM:$mask, (v8f16 VR128X:$src1), (v8f16 VR128X:$src0))),
	(VMOVDQU16Z128rrk VR128X:$src0, VK8WM:$mask, VR128X:$src1)>;			(VMOVDQU16Z128rrk VR128X:$src0, VK8WM:$mask, VR128X:$src1)>;
	def : Pat<(v8f16 (vselect VK8WM:$mask, (v8f16 VR128X:$src1), v8f16x_info.ImmAllZerosV)),			def : Pat<(v8f16 (vselect VK8WM:$mask, (v8f16 VR128X:$src1), v8f16x_info.ImmAllZerosV)),
	(VMOVDQU16Z128rrkz VK8WM:$mask, VR128X:$src1)>;			(VMOVDQU16Z128rrkz VK8WM:$mask, VR128X:$src1)>;
	def : Pat<(v8f16 (alignedloadv8f16 addr:$src)),
	(VMOVAPSZ128rm addr:$src)>;
	def : Pat<(v8f16 (vselect VK8WM:$mask,			def : Pat<(v8f16 (vselect VK8WM:$mask,
	(v8f16 (alignedloadv8f16 addr:$src)), (v8f16 VR128X:$src0))),			(v8f16 (alignedloadv8f16 addr:$src)), (v8f16 VR128X:$src0))),
	(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;			(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;
	def : Pat<(v8f16 (vselect VK8WM:$mask,			def : Pat<(v8f16 (vselect VK8WM:$mask,
	(v8f16 (alignedloadv8f16 addr:$src)), v8f16x_info.ImmAllZerosV)),			(v8f16 (alignedloadv8f16 addr:$src)), v8f16x_info.ImmAllZerosV)),
	(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;			(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;
	def : Pat<(v8f16 (loadv8f16 addr:$src)),
	(VMOVUPSZ128rm addr:$src)>;
	def : Pat<(v8f16 (vselect VK8WM:$mask,			def : Pat<(v8f16 (vselect VK8WM:$mask,
	(v8f16 (loadv8f16 addr:$src)), (v8f16 VR128X:$src0))),			(v8f16 (loadv8f16 addr:$src)), (v8f16 VR128X:$src0))),
	(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;			(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;
	def : Pat<(v8f16 (vselect VK8WM:$mask,			def : Pat<(v8f16 (vselect VK8WM:$mask,
	(v8f16 (loadv8f16 addr:$src)), v8f16x_info.ImmAllZerosV)),			(v8f16 (loadv8f16 addr:$src)), v8f16x_info.ImmAllZerosV)),
	(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;			(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;
	def : Pat<(v8f16 (masked_load addr:$src, VK8WM:$mask, (v8f16 VR128X:$src0))),			def : Pat<(v8f16 (masked_load addr:$src, VK8WM:$mask, (v8f16 VR128X:$src0))),
	(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;			(VMOVDQU16Z128rmk VR128X:$src0, VK8WM:$mask, addr:$src)>;
	def : Pat<(v8f16 (masked_load addr:$src, VK8WM:$mask, undef)),			def : Pat<(v8f16 (masked_load addr:$src, VK8WM:$mask, undef)),
	(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;			(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;
	def : Pat<(v8f16 (masked_load addr:$src, VK8WM:$mask, v8f16x_info.ImmAllZerosV)),			def : Pat<(v8f16 (masked_load addr:$src, VK8WM:$mask, v8f16x_info.ImmAllZerosV)),
	(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;			(VMOVDQU16Z128rmkz VK8WM:$mask, addr:$src)>;

	def : Pat<(alignedstore (v8f16 VR128X:$src), addr:$dst),
	(VMOVAPSZ128mr addr:$dst, VR128X:$src)>;
	def : Pat<(store (v8f16 VR128X:$src), addr:$dst),
	(VMOVUPSZ128mr addr:$dst, VR128X:$src)>;
	def : Pat<(masked_store (v8f16 VR128X:$src), addr:$dst, VK8WM:$mask),			def : Pat<(masked_store (v8f16 VR128X:$src), addr:$dst, VK8WM:$mask),
	(VMOVDQU16Z128mrk addr:$dst, VK8WM:$mask, VR128X:$src)>;			(VMOVDQU16Z128mrk addr:$dst, VK8WM:$mask, VR128X:$src)>;
	}			}

	// Move Int Doubleword to Packed Double Int			// Move Int Doubleword to Packed Double Int
	//			//
	let ExeDomain = SSEPackedInt in {			let ExeDomain = SSEPackedInt in {
	def VMOVDI2PDIZrr : AVX512BI<0x6E, MRMSrcReg, (outs VR128X:$dst), (ins GR32:$src),			def VMOVDI2PDIZrr : AVX512BI<0x6E, MRMSrcReg, (outs VR128X:$dst), (ins GR32:$src),
	▲ Show 20 Lines • Show All 9,685 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrSSE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 134 Lines • ▼ Show 20 Lines	let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1,
isPseudo = 1, Predicates = [NoAVX512], SchedRW = [WriteZero] in {		isPseudo = 1, Predicates = [NoAVX512], SchedRW = [WriteZero] in {
def V_SET0 : I<0, Pseudo, (outs VR128:$dst), (ins), "",		def V_SET0 : I<0, Pseudo, (outs VR128:$dst), (ins), "",
[(set VR128:$dst, (v4f32 immAllZerosV))]>;		[(set VR128:$dst, (v4f32 immAllZerosV))]>;
}		}

let Predicates = [NoAVX512] in {		let Predicates = [NoAVX512] in {
def : Pat<(v16i8 immAllZerosV), (V_SET0)>;		def : Pat<(v16i8 immAllZerosV), (V_SET0)>;
def : Pat<(v8i16 immAllZerosV), (V_SET0)>;		def : Pat<(v8i16 immAllZerosV), (V_SET0)>;
		def : Pat<(v8f16 immAllZerosV), (V_SET0)>;
def : Pat<(v4i32 immAllZerosV), (V_SET0)>;		def : Pat<(v4i32 immAllZerosV), (V_SET0)>;
def : Pat<(v2i64 immAllZerosV), (V_SET0)>;		def : Pat<(v2i64 immAllZerosV), (V_SET0)>;
def : Pat<(v2f64 immAllZerosV), (V_SET0)>;		def : Pat<(v2f64 immAllZerosV), (V_SET0)>;
}		}


// The same as done above but for AVX. The 256-bit AVX1 ISA doesn't support PI,		// The same as done above but for AVX. The 256-bit AVX1 ISA doesn't support PI,
// and doesn't need it because on sandy bridge the register is set to zero		// and doesn't need it because on sandy bridge the register is set to zero
// at the rename stage without using any execution unit, so SET0PSY		// at the rename stage without using any execution unit, so SET0PSY
// and SET0PDY can be used for vector int instructions without penalty		// and SET0PDY can be used for vector int instructions without penalty
let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1,		let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1,
isPseudo = 1, Predicates = [NoAVX512], SchedRW = [WriteZero] in {		isPseudo = 1, Predicates = [NoAVX512], SchedRW = [WriteZero] in {
def AVX_SET0 : I<0, Pseudo, (outs VR256:$dst), (ins), "",		def AVX_SET0 : I<0, Pseudo, (outs VR256:$dst), (ins), "",
[(set VR256:$dst, (v8i32 immAllZerosV))]>;		[(set VR256:$dst, (v8i32 immAllZerosV))]>;
}		}

let Predicates = [NoAVX512] in {		let Predicates = [NoAVX512] in {
def : Pat<(v32i8 immAllZerosV), (AVX_SET0)>;		def : Pat<(v32i8 immAllZerosV), (AVX_SET0)>;
def : Pat<(v16i16 immAllZerosV), (AVX_SET0)>;		def : Pat<(v16i16 immAllZerosV), (AVX_SET0)>;
		def : Pat<(v16f16 immAllZerosV), (AVX_SET0)>;
def : Pat<(v4i64 immAllZerosV), (AVX_SET0)>;		def : Pat<(v4i64 immAllZerosV), (AVX_SET0)>;
def : Pat<(v8f32 immAllZerosV), (AVX_SET0)>;		def : Pat<(v8f32 immAllZerosV), (AVX_SET0)>;
def : Pat<(v4f64 immAllZerosV), (AVX_SET0)>;		def : Pat<(v4f64 immAllZerosV), (AVX_SET0)>;
}		}

// We set canFoldAsLoad because this can be converted to a constant-pool		// We set canFoldAsLoad because this can be converted to a constant-pool
// load of an all-ones value if folding it would be beneficial.		// load of an all-ones value if folding it would be beneficial.
let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1,		let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1,
▲ Show 20 Lines • Show All 393 Lines • ▼ Show 20 Lines	let Predicates = [HasAVX, NoVLX] in {
def : Pat<(alignedstore (v16i16 VR256:$src), addr:$dst),		def : Pat<(alignedstore (v16i16 VR256:$src), addr:$dst),
(VMOVAPSYmr addr:$dst, VR256:$src)>;		(VMOVAPSYmr addr:$dst, VR256:$src)>;
def : Pat<(alignedstore (v32i8 VR256:$src), addr:$dst),		def : Pat<(alignedstore (v32i8 VR256:$src), addr:$dst),
(VMOVAPSYmr addr:$dst, VR256:$src)>;		(VMOVAPSYmr addr:$dst, VR256:$src)>;
def : Pat<(store (v4i64 VR256:$src), addr:$dst),		def : Pat<(store (v4i64 VR256:$src), addr:$dst),
(VMOVUPSYmr addr:$dst, VR256:$src)>;		(VMOVUPSYmr addr:$dst, VR256:$src)>;
def : Pat<(store (v8i32 VR256:$src), addr:$dst),		def : Pat<(store (v8i32 VR256:$src), addr:$dst),
(VMOVUPSYmr addr:$dst, VR256:$src)>;		(VMOVUPSYmr addr:$dst, VR256:$src)>;
def : Pat<(store (v16i16 VR256:$src), addr:$dst),		def : Pat<(store (v16i16 VR256:$src), addr:$dst),
skanUnsubmitted Not Done Reply Inline Actions Why did you move the pattern down? skan: Why did you move the pattern down?
pengfeiAuthorUnsubmitted Done Reply Inline Actions No idea. Should be accident :) pengfei: No idea. Should be accident :)
(VMOVUPSYmr addr:$dst, VR256:$src)>;		(VMOVUPSYmr addr:$dst, VR256:$src)>;
def : Pat<(store (v32i8 VR256:$src), addr:$dst),		def : Pat<(store (v32i8 VR256:$src), addr:$dst),
(VMOVUPSYmr addr:$dst, VR256:$src)>;		(VMOVUPSYmr addr:$dst, VR256:$src)>;

		def : Pat<(alignedloadv8f16 addr:$src),
		(VMOVAPSrm addr:$src)>;
		def : Pat<(loadv8f16 addr:$src),
		(VMOVUPSrm addr:$src)>;
		def : Pat<(alignedstore (v8f16 VR128:$src), addr:$dst),
		(VMOVAPSmr addr:$dst, VR128:$src)>;
		def : Pat<(store (v8f16 VR128:$src), addr:$dst),
		(VMOVUPSmr addr:$dst, VR128:$src)>;
		def : Pat<(alignedloadv16f16 addr:$src),
		(VMOVAPSYrm addr:$src)>;
		def : Pat<(loadv16f16 addr:$src),
		(VMOVUPSYrm addr:$src)>;
		def : Pat<(alignedstore (v16f16 VR256:$src), addr:$dst),
		(VMOVAPSYmr addr:$dst, VR256:$src)>;
		def : Pat<(store (v16f16 VR256:$src), addr:$dst),
		(VMOVUPSYmr addr:$dst, VR256:$src)>;
}		}

// Use movaps / movups for SSE integer load / store (one byte shorter).		// Use movaps / movups for SSE integer load / store (one byte shorter).
// The instructions selected below are then converted to MOVDQA/MOVDQU		// The instructions selected below are then converted to MOVDQA/MOVDQU
// during the SSE domain pass.		// during the SSE domain pass.
let Predicates = [UseSSE1] in {		let Predicates = [UseSSE1] in {
def : Pat<(alignedloadv2i64 addr:$src),		def : Pat<(alignedloadv2i64 addr:$src),
(MOVAPSrm addr:$src)>;		(MOVAPSrm addr:$src)>;
Show All 25 Lines	let Predicates = [UseSSE1] in {
def : Pat<(store (v4i32 VR128:$src), addr:$dst),		def : Pat<(store (v4i32 VR128:$src), addr:$dst),
(MOVUPSmr addr:$dst, VR128:$src)>;		(MOVUPSmr addr:$dst, VR128:$src)>;
def : Pat<(store (v8i16 VR128:$src), addr:$dst),		def : Pat<(store (v8i16 VR128:$src), addr:$dst),
(MOVUPSmr addr:$dst, VR128:$src)>;		(MOVUPSmr addr:$dst, VR128:$src)>;
def : Pat<(store (v16i8 VR128:$src), addr:$dst),		def : Pat<(store (v16i8 VR128:$src), addr:$dst),
(MOVUPSmr addr:$dst, VR128:$src)>;		(MOVUPSmr addr:$dst, VR128:$src)>;
}		}

		let Predicates = [UseSSE2] in {
		skanUnsubmitted Not Done Reply Inline Actions Should we use `UseSSE2` here? skan: Should we use `UseSSE2` here?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions I think AVX instruction is always preferred, but yes, `UseSSE2` can make sure of that. pengfei: I think AVX instruction is always preferred, but yes, `UseSSE2` can make sure of that.
		def : Pat<(alignedloadv8f16 addr:$src),
		(MOVAPSrm addr:$src)>;
		def : Pat<(loadv8f16 addr:$src),
		(MOVUPSrm addr:$src)>;
		def : Pat<(alignedstore (v8f16 VR128:$src), addr:$dst),
		(MOVAPSmr addr:$dst, VR128:$src)>;
		def : Pat<(store (v8f16 VR128:$src), addr:$dst),
		(MOVUPSmr addr:$dst, VR128:$src)>;
		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// SSE 1 & 2 - Move Low packed FP Instructions		// SSE 1 & 2 - Move Low packed FP Instructions
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

multiclass sse12_mov_hilo_packed_base<bits<8>opc, SDPatternOperator pdnode,		multiclass sse12_mov_hilo_packed_base<bits<8>opc, SDPatternOperator pdnode,
string base_opc, string asm_opr> {		string base_opc, string asm_opr> {
// No pattern as they need be special cased between high and low.		// No pattern as they need be special cased between high and low.
let hasSideEffects = 0, mayLoad = 1 in		let hasSideEffects = 0, mayLoad = 1 in
▲ Show 20 Lines • Show All 2,507 Lines • ▼ Show 20 Lines	def MOVNTI_64mr : RI<0xC3, MRMDestMem, (outs), (ins i64mem:$dst, GR64:$src),
PS, Requires<[HasSSE2]>;		PS, Requires<[HasSSE2]>;
} // SchedRW = [WriteStoreNT]		} // SchedRW = [WriteStoreNT]

let Predicates = [HasAVX, NoVLX] in {		let Predicates = [HasAVX, NoVLX] in {
def : Pat<(alignednontemporalstore (v8i32 VR256:$src), addr:$dst),		def : Pat<(alignednontemporalstore (v8i32 VR256:$src), addr:$dst),
(VMOVNTDQYmr addr:$dst, VR256:$src)>;		(VMOVNTDQYmr addr:$dst, VR256:$src)>;
def : Pat<(alignednontemporalstore (v16i16 VR256:$src), addr:$dst),		def : Pat<(alignednontemporalstore (v16i16 VR256:$src), addr:$dst),
(VMOVNTDQYmr addr:$dst, VR256:$src)>;		(VMOVNTDQYmr addr:$dst, VR256:$src)>;
		def : Pat<(alignednontemporalstore (v16f16 VR256:$src), addr:$dst),
		(VMOVNTDQYmr addr:$dst, VR256:$src)>;
def : Pat<(alignednontemporalstore (v32i8 VR256:$src), addr:$dst),		def : Pat<(alignednontemporalstore (v32i8 VR256:$src), addr:$dst),
(VMOVNTDQYmr addr:$dst, VR256:$src)>;		(VMOVNTDQYmr addr:$dst, VR256:$src)>;

def : Pat<(alignednontemporalstore (v4i32 VR128:$src), addr:$dst),		def : Pat<(alignednontemporalstore (v4i32 VR128:$src), addr:$dst),
(VMOVNTDQmr addr:$dst, VR128:$src)>;		(VMOVNTDQmr addr:$dst, VR128:$src)>;
def : Pat<(alignednontemporalstore (v8i16 VR128:$src), addr:$dst),		def : Pat<(alignednontemporalstore (v8i16 VR128:$src), addr:$dst),
(VMOVNTDQmr addr:$dst, VR128:$src)>;		(VMOVNTDQmr addr:$dst, VR128:$src)>;
		def : Pat<(alignednontemporalstore (v8f16 VR128:$src), addr:$dst),
		(VMOVNTDQmr addr:$dst, VR128:$src)>;
def : Pat<(alignednontemporalstore (v16i8 VR128:$src), addr:$dst),		def : Pat<(alignednontemporalstore (v16i8 VR128:$src), addr:$dst),
(VMOVNTDQmr addr:$dst, VR128:$src)>;		(VMOVNTDQmr addr:$dst, VR128:$src)>;
}		}

let Predicates = [UseSSE2] in {		let Predicates = [UseSSE2] in {
def : Pat<(alignednontemporalstore (v4i32 VR128:$src), addr:$dst),		def : Pat<(alignednontemporalstore (v4i32 VR128:$src), addr:$dst),
(MOVNTDQmr addr:$dst, VR128:$src)>;		(MOVNTDQmr addr:$dst, VR128:$src)>;
def : Pat<(alignednontemporalstore (v8i16 VR128:$src), addr:$dst),		def : Pat<(alignednontemporalstore (v8i16 VR128:$src), addr:$dst),
(MOVNTDQmr addr:$dst, VR128:$src)>;		(MOVNTDQmr addr:$dst, VR128:$src)>;
		def : Pat<(alignednontemporalstore (v8f16 VR128:$src), addr:$dst),
		(MOVNTDQmr addr:$dst, VR128:$src)>;
def : Pat<(alignednontemporalstore (v16i8 VR128:$src), addr:$dst),		def : Pat<(alignednontemporalstore (v16i8 VR128:$src), addr:$dst),
(MOVNTDQmr addr:$dst, VR128:$src)>;		(MOVNTDQmr addr:$dst, VR128:$src)>;
}		}

} // AddedComplexity		} // AddedComplexity

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// SSE 1 & 2 - Prefetch and memory fence		// SSE 1 & 2 - Prefetch and memory fence
▲ Show 20 Lines • Show All 206 Lines • ▼ Show 20 Lines	def : InstAlias<"movdqu.s\t{$src, $dst\|$dst, $src}",
(MOVDQUrr_REV VR128:$dst, VR128:$src), 0>;		(MOVDQUrr_REV VR128:$dst, VR128:$src), 0>;

let Predicates = [HasAVX, NoVLX] in {		let Predicates = [HasAVX, NoVLX] in {
// Additional patterns for other integer sizes.		// Additional patterns for other integer sizes.
def : Pat<(alignedloadv4i32 addr:$src),		def : Pat<(alignedloadv4i32 addr:$src),
(VMOVDQArm addr:$src)>;		(VMOVDQArm addr:$src)>;
def : Pat<(alignedloadv8i16 addr:$src),		def : Pat<(alignedloadv8i16 addr:$src),
(VMOVDQArm addr:$src)>;		(VMOVDQArm addr:$src)>;
		def : Pat<(alignedloadv8f16 addr:$src),
		(VMOVDQArm addr:$src)>;
def : Pat<(alignedloadv16i8 addr:$src),		def : Pat<(alignedloadv16i8 addr:$src),
(VMOVDQArm addr:$src)>;		(VMOVDQArm addr:$src)>;
def : Pat<(loadv4i32 addr:$src),		def : Pat<(loadv4i32 addr:$src),
(VMOVDQUrm addr:$src)>;		(VMOVDQUrm addr:$src)>;
def : Pat<(loadv8i16 addr:$src),		def : Pat<(loadv8i16 addr:$src),
(VMOVDQUrm addr:$src)>;		(VMOVDQUrm addr:$src)>;
		def : Pat<(loadv8f16 addr:$src),
		(VMOVDQUrm addr:$src)>;
def : Pat<(loadv16i8 addr:$src),		def : Pat<(loadv16i8 addr:$src),
(VMOVDQUrm addr:$src)>;		(VMOVDQUrm addr:$src)>;

def : Pat<(alignedstore (v4i32 VR128:$src), addr:$dst),		def : Pat<(alignedstore (v4i32 VR128:$src), addr:$dst),
(VMOVDQAmr addr:$dst, VR128:$src)>;		(VMOVDQAmr addr:$dst, VR128:$src)>;
def : Pat<(alignedstore (v8i16 VR128:$src), addr:$dst),		def : Pat<(alignedstore (v8i16 VR128:$src), addr:$dst),
(VMOVDQAmr addr:$dst, VR128:$src)>;		(VMOVDQAmr addr:$dst, VR128:$src)>;
		def : Pat<(alignedstore (v8f16 VR128:$src), addr:$dst),
		(VMOVDQAmr addr:$dst, VR128:$src)>;
def : Pat<(alignedstore (v16i8 VR128:$src), addr:$dst),		def : Pat<(alignedstore (v16i8 VR128:$src), addr:$dst),
(VMOVDQAmr addr:$dst, VR128:$src)>;		(VMOVDQAmr addr:$dst, VR128:$src)>;
def : Pat<(store (v4i32 VR128:$src), addr:$dst),		def : Pat<(store (v4i32 VR128:$src), addr:$dst),
(VMOVDQUmr addr:$dst, VR128:$src)>;		(VMOVDQUmr addr:$dst, VR128:$src)>;
def : Pat<(store (v8i16 VR128:$src), addr:$dst),		def : Pat<(store (v8i16 VR128:$src), addr:$dst),
(VMOVDQUmr addr:$dst, VR128:$src)>;		(VMOVDQUmr addr:$dst, VR128:$src)>;
		def : Pat<(store (v8f16 VR128:$src), addr:$dst),
		(VMOVDQUmr addr:$dst, VR128:$src)>;
def : Pat<(store (v16i8 VR128:$src), addr:$dst),		def : Pat<(store (v16i8 VR128:$src), addr:$dst),
(VMOVDQUmr addr:$dst, VR128:$src)>;		(VMOVDQUmr addr:$dst, VR128:$src)>;
}		}

//===---------------------------------------------------------------------===//		//===---------------------------------------------------------------------===//
// SSE2 - Packed Integer Arithmetic Instructions		// SSE2 - Packed Integer Arithmetic Instructions
//===---------------------------------------------------------------------===//		//===---------------------------------------------------------------------===//

▲ Show 20 Lines • Show All 3,022 Lines • ▼ Show 20 Lines	let Predicates = [HasAVX2, NoVLX] in {
def : Pat<(v4f64 (alignednontemporalload addr:$src)),		def : Pat<(v4f64 (alignednontemporalload addr:$src)),
(VMOVNTDQAYrm addr:$src)>;		(VMOVNTDQAYrm addr:$src)>;
def : Pat<(v4i64 (alignednontemporalload addr:$src)),		def : Pat<(v4i64 (alignednontemporalload addr:$src)),
(VMOVNTDQAYrm addr:$src)>;		(VMOVNTDQAYrm addr:$src)>;
def : Pat<(v8i32 (alignednontemporalload addr:$src)),		def : Pat<(v8i32 (alignednontemporalload addr:$src)),
(VMOVNTDQAYrm addr:$src)>;		(VMOVNTDQAYrm addr:$src)>;
def : Pat<(v16i16 (alignednontemporalload addr:$src)),		def : Pat<(v16i16 (alignednontemporalload addr:$src)),
(VMOVNTDQAYrm addr:$src)>;		(VMOVNTDQAYrm addr:$src)>;
		def : Pat<(v16f16 (alignednontemporalload addr:$src)),
		(VMOVNTDQAYrm addr:$src)>;
def : Pat<(v32i8 (alignednontemporalload addr:$src)),		def : Pat<(v32i8 (alignednontemporalload addr:$src)),
(VMOVNTDQAYrm addr:$src)>;		(VMOVNTDQAYrm addr:$src)>;
}		}

let Predicates = [HasAVX, NoVLX] in {		let Predicates = [HasAVX, NoVLX] in {
def : Pat<(v4f32 (alignednontemporalload addr:$src)),		def : Pat<(v4f32 (alignednontemporalload addr:$src)),
(VMOVNTDQArm addr:$src)>;		(VMOVNTDQArm addr:$src)>;
def : Pat<(v2f64 (alignednontemporalload addr:$src)),		def : Pat<(v2f64 (alignednontemporalload addr:$src)),
(VMOVNTDQArm addr:$src)>;		(VMOVNTDQArm addr:$src)>;
def : Pat<(v2i64 (alignednontemporalload addr:$src)),		def : Pat<(v2i64 (alignednontemporalload addr:$src)),
(VMOVNTDQArm addr:$src)>;		(VMOVNTDQArm addr:$src)>;
def : Pat<(v4i32 (alignednontemporalload addr:$src)),		def : Pat<(v4i32 (alignednontemporalload addr:$src)),
(VMOVNTDQArm addr:$src)>;		(VMOVNTDQArm addr:$src)>;
def : Pat<(v8i16 (alignednontemporalload addr:$src)),		def : Pat<(v8i16 (alignednontemporalload addr:$src)),
(VMOVNTDQArm addr:$src)>;		(VMOVNTDQArm addr:$src)>;
		def : Pat<(v8f16 (alignednontemporalload addr:$src)),
		(VMOVNTDQArm addr:$src)>;
def : Pat<(v16i8 (alignednontemporalload addr:$src)),		def : Pat<(v16i8 (alignednontemporalload addr:$src)),
(VMOVNTDQArm addr:$src)>;		(VMOVNTDQArm addr:$src)>;
}		}

let Predicates = [UseSSE41] in {		let Predicates = [UseSSE41] in {
def : Pat<(v4f32 (alignednontemporalload addr:$src)),		def : Pat<(v4f32 (alignednontemporalload addr:$src)),
(MOVNTDQArm addr:$src)>;		(MOVNTDQArm addr:$src)>;
def : Pat<(v2f64 (alignednontemporalload addr:$src)),		def : Pat<(v2f64 (alignednontemporalload addr:$src)),
(MOVNTDQArm addr:$src)>;		(MOVNTDQArm addr:$src)>;
def : Pat<(v2i64 (alignednontemporalload addr:$src)),		def : Pat<(v2i64 (alignednontemporalload addr:$src)),
(MOVNTDQArm addr:$src)>;		(MOVNTDQArm addr:$src)>;
def : Pat<(v4i32 (alignednontemporalload addr:$src)),		def : Pat<(v4i32 (alignednontemporalload addr:$src)),
(MOVNTDQArm addr:$src)>;		(MOVNTDQArm addr:$src)>;
def : Pat<(v8i16 (alignednontemporalload addr:$src)),		def : Pat<(v8i16 (alignednontemporalload addr:$src)),
(MOVNTDQArm addr:$src)>;		(MOVNTDQArm addr:$src)>;
		def : Pat<(v8f16 (alignednontemporalload addr:$src)),
		(MOVNTDQArm addr:$src)>;
def : Pat<(v16i8 (alignednontemporalload addr:$src)),		def : Pat<(v16i8 (alignednontemporalload addr:$src)),
(MOVNTDQArm addr:$src)>;		(MOVNTDQArm addr:$src)>;
}		}

} // AddedComplexity		} // AddedComplexity

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// SSE4.2 - Compare Instructions		// SSE4.2 - Compare Instructions
▲ Show 20 Lines • Show All 573 Lines • ▼ Show 20 Lines
// NOTE: We're using FP instructions here, but execution domain fixing can		// NOTE: We're using FP instructions here, but execution domain fixing can
// convert to integer when profitable.		// convert to integer when profitable.
def : Pat<(v4i64 (X86SubVBroadcastld128 addr:$src)),		def : Pat<(v4i64 (X86SubVBroadcastld128 addr:$src)),
(VBROADCASTF128 addr:$src)>;		(VBROADCASTF128 addr:$src)>;
def : Pat<(v8i32 (X86SubVBroadcastld128 addr:$src)),		def : Pat<(v8i32 (X86SubVBroadcastld128 addr:$src)),
(VBROADCASTF128 addr:$src)>;		(VBROADCASTF128 addr:$src)>;
def : Pat<(v16i16 (X86SubVBroadcastld128 addr:$src)),		def : Pat<(v16i16 (X86SubVBroadcastld128 addr:$src)),
(VBROADCASTF128 addr:$src)>;		(VBROADCASTF128 addr:$src)>;
		def : Pat<(v16f16 (X86SubVBroadcastld128 addr:$src)),
		(VBROADCASTF128 addr:$src)>;
def : Pat<(v32i8 (X86SubVBroadcastld128 addr:$src)),		def : Pat<(v32i8 (X86SubVBroadcastld128 addr:$src)),
(VBROADCASTF128 addr:$src)>;		(VBROADCASTF128 addr:$src)>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// VPERM2F128 - Permute Floating-Point Values in 128-bit chunks		// VPERM2F128 - Permute Floating-Point Values in 128-bit chunks
//		//

Show All 29 Lines	let Predicates = [HasAVX] in {
defm : vperm2x128_lowering<"VPERM2F128", v4f64, loadv4f64>;		defm : vperm2x128_lowering<"VPERM2F128", v4f64, loadv4f64>;
defm : vperm2x128_lowering<"VPERM2F128", v8f32, loadv8f32>;		defm : vperm2x128_lowering<"VPERM2F128", v8f32, loadv8f32>;
}		}

let Predicates = [HasAVX1Only] in {		let Predicates = [HasAVX1Only] in {
defm : vperm2x128_lowering<"VPERM2F128", v4i64, loadv4i64>;		defm : vperm2x128_lowering<"VPERM2F128", v4i64, loadv4i64>;
defm : vperm2x128_lowering<"VPERM2F128", v8i32, loadv8i32>;		defm : vperm2x128_lowering<"VPERM2F128", v8i32, loadv8i32>;
defm : vperm2x128_lowering<"VPERM2F128", v16i16, loadv16i16>;		defm : vperm2x128_lowering<"VPERM2F128", v16i16, loadv16i16>;
		defm : vperm2x128_lowering<"VPERM2F128", v16f16, loadv16f16>;
defm : vperm2x128_lowering<"VPERM2F128", v32i8, loadv32i8>;		defm : vperm2x128_lowering<"VPERM2F128", v32i8, loadv32i8>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// VINSERTF128 - Insert packed floating-point values		// VINSERTF128 - Insert packed floating-point values
//		//
let hasSideEffects = 0, ExeDomain = SSEPackedSingle in {		let hasSideEffects = 0, ExeDomain = SSEPackedSingle in {
def VINSERTF128rr : AVXAIi8<0x18, MRMSrcReg, (outs VR256:$dst),		def VINSERTF128rr : AVXAIi8<0x18, MRMSrcReg, (outs VR256:$dst),
Show All 39 Lines	let Predicates = [HasAVX, NoVLX] in {
defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v4f32, v8f32, loadv4f32, loadv8f32>;		defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v4f32, v8f32, loadv4f32, loadv8f32>;
defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v2f64, v4f64, loadv2f64, loadv4f64>;		defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v2f64, v4f64, loadv2f64, loadv4f64>;
}		}

let Predicates = [HasAVX1Only] in {		let Predicates = [HasAVX1Only] in {
defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v2i64, v4i64, loadv2i64, loadv4i64>;		defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v2i64, v4i64, loadv2i64, loadv4i64>;
defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v4i32, v8i32, loadv4i32, loadv8i32>;		defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v4i32, v8i32, loadv4i32, loadv8i32>;
defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v8i16, v16i16, loadv8i16, loadv16i16>;		defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v8i16, v16i16, loadv8i16, loadv16i16>;
		defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v8f16, v16f16, loadv8f16, loadv16f16>;
		defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v16i8, v32i8, loadv16i8, loadv32i8>;
defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v16i8, v32i8, loadv16i8, loadv32i8>;		defm : vinsert_lowering<"VINSERTF128", "VPERM2F128", v16i8, v32i8, loadv16i8, loadv32i8>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// VEXTRACTF128 - Extract packed floating-point values		// VEXTRACTF128 - Extract packed floating-point values
//		//
let hasSideEffects = 0, ExeDomain = SSEPackedSingle in {		let hasSideEffects = 0, ExeDomain = SSEPackedSingle in {
def VEXTRACTF128rr : AVXAIi8<0x19, MRMDestReg, (outs VR128:$dst),		def VEXTRACTF128rr : AVXAIi8<0x19, MRMDestReg, (outs VR128:$dst),
Show All 23 Lines	let Predicates = [HasAVX, NoVLX] in {
defm : vextract_lowering<"VEXTRACTF128", v8f32, v4f32>;		defm : vextract_lowering<"VEXTRACTF128", v8f32, v4f32>;
defm : vextract_lowering<"VEXTRACTF128", v4f64, v2f64>;		defm : vextract_lowering<"VEXTRACTF128", v4f64, v2f64>;
}		}

let Predicates = [HasAVX1Only] in {		let Predicates = [HasAVX1Only] in {
defm : vextract_lowering<"VEXTRACTF128", v4i64, v2i64>;		defm : vextract_lowering<"VEXTRACTF128", v4i64, v2i64>;
defm : vextract_lowering<"VEXTRACTF128", v8i32, v4i32>;		defm : vextract_lowering<"VEXTRACTF128", v8i32, v4i32>;
defm : vextract_lowering<"VEXTRACTF128", v16i16, v8i16>;		defm : vextract_lowering<"VEXTRACTF128", v16i16, v8i16>;
		defm : vextract_lowering<"VEXTRACTF128", v16f16, v8f16>;
		defm : vextract_lowering<"VEXTRACTF128", v32i8, v16i8>;
defm : vextract_lowering<"VEXTRACTF128", v32i8, v16i8>;		defm : vextract_lowering<"VEXTRACTF128", v32i8, v16i8>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// VMASKMOV - Conditional SIMD Packed Loads and Stores		// VMASKMOV - Conditional SIMD Packed Loads and Stores
//		//
multiclass avx_movmask_rm<bits<8> opc_rm, bits<8> opc_mr, string OpcodeStr,		multiclass avx_movmask_rm<bits<8> opc_rm, bits<8> opc_mr, string OpcodeStr,
Intrinsic IntLd, Intrinsic IntLd256,		Intrinsic IntLd, Intrinsic IntLd256,
▲ Show 20 Lines • Show All 298 Lines • ▼ Show 20 Lines
def : Pat<(insert_subvector (v4i64 VR256:$src1), (v2i64 VR128:$src2), (iPTR 0)),		def : Pat<(insert_subvector (v4i64 VR256:$src1), (v2i64 VR128:$src2), (iPTR 0)),
(VBLENDPSYrri VR256:$src1,		(VBLENDPSYrri VR256:$src1,
(INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),		(INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),
VR128:$src2, sub_xmm), 0xf)>;		VR128:$src2, sub_xmm), 0xf)>;
def : Pat<(insert_subvector (v16i16 VR256:$src1), (v8i16 VR128:$src2), (iPTR 0)),		def : Pat<(insert_subvector (v16i16 VR256:$src1), (v8i16 VR128:$src2), (iPTR 0)),
(VBLENDPSYrri VR256:$src1,		(VBLENDPSYrri VR256:$src1,
(INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),		(INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),
VR128:$src2, sub_xmm), 0xf)>;		VR128:$src2, sub_xmm), 0xf)>;
		def : Pat<(insert_subvector (v16f16 VR256:$src1), (v8f16 VR128:$src2), (iPTR 0)),
		(VBLENDPSYrri VR256:$src1,
		(INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),
		VR128:$src2, sub_xmm), 0xf)>;
def : Pat<(insert_subvector (v32i8 VR256:$src1), (v16i8 VR128:$src2), (iPTR 0)),		def : Pat<(insert_subvector (v32i8 VR256:$src1), (v16i8 VR128:$src2), (iPTR 0)),
(VBLENDPSYrri VR256:$src1,		(VBLENDPSYrri VR256:$src1,
(INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),		(INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),
VR128:$src2, sub_xmm), 0xf)>;		VR128:$src2, sub_xmm), 0xf)>;

def : Pat<(insert_subvector (loadv8i32 addr:$src2), (v4i32 VR128:$src1), (iPTR 0)),		def : Pat<(insert_subvector (loadv8i32 addr:$src2), (v4i32 VR128:$src1), (iPTR 0)),
(VBLENDPSYrmi (INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),		(VBLENDPSYrmi (INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),
VR128:$src1, sub_xmm), addr:$src2, 0xf0)>;		VR128:$src1, sub_xmm), addr:$src2, 0xf0)>;
def : Pat<(insert_subvector (loadv4i64 addr:$src2), (v2i64 VR128:$src1), (iPTR 0)),		def : Pat<(insert_subvector (loadv4i64 addr:$src2), (v2i64 VR128:$src1), (iPTR 0)),
(VBLENDPSYrmi (INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),		(VBLENDPSYrmi (INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),
VR128:$src1, sub_xmm), addr:$src2, 0xf0)>;		VR128:$src1, sub_xmm), addr:$src2, 0xf0)>;
def : Pat<(insert_subvector (loadv16i16 addr:$src2), (v8i16 VR128:$src1), (iPTR 0)),		def : Pat<(insert_subvector (loadv16i16 addr:$src2), (v8i16 VR128:$src1), (iPTR 0)),
(VBLENDPSYrmi (INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),		(VBLENDPSYrmi (INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),
VR128:$src1, sub_xmm), addr:$src2, 0xf0)>;		VR128:$src1, sub_xmm), addr:$src2, 0xf0)>;
		def : Pat<(insert_subvector (loadv16f16 addr:$src2), (v8f16 VR128:$src1), (iPTR 0)),
		(VBLENDPSYrmi (INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),
		VR128:$src1, sub_xmm), addr:$src2, 0xf0)>;
def : Pat<(insert_subvector (loadv32i8 addr:$src2), (v16i8 VR128:$src1), (iPTR 0)),		def : Pat<(insert_subvector (loadv32i8 addr:$src2), (v16i8 VR128:$src1), (iPTR 0)),
(VBLENDPSYrmi (INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),		(VBLENDPSYrmi (INSERT_SUBREG (v8i32 (IMPLICIT_DEF)),
VR128:$src1, sub_xmm), addr:$src2, 0xf0)>;		VR128:$src1, sub_xmm), addr:$src2, 0xf0)>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// VPBROADCAST - Load from memory and broadcast to all elements of the		// VPBROADCAST - Load from memory and broadcast to all elements of the
// destination operand		// destination operand
▲ Show 20 Lines • Show All 226 Lines • ▼ Show 20 Lines	def VPERM2I128rm : AVX2AIi8<0x46, MRMSrcMem, (outs VR256:$dst),
(ins VR256:$src1, f256mem:$src2, u8imm:$src3),		(ins VR256:$src1, f256mem:$src2, u8imm:$src3),
"vperm2i128\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}", []>,		"vperm2i128\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}", []>,
Sched<[WriteShuffle256.Folded, WriteShuffle256.ReadAfterFold]>, VEX_4V, VEX_L;		Sched<[WriteShuffle256.Folded, WriteShuffle256.ReadAfterFold]>, VEX_4V, VEX_L;

let Predicates = [HasAVX2] in {		let Predicates = [HasAVX2] in {
defm : vperm2x128_lowering<"VPERM2I128", v4i64, loadv4i64>;		defm : vperm2x128_lowering<"VPERM2I128", v4i64, loadv4i64>;
defm : vperm2x128_lowering<"VPERM2I128", v8i32, loadv8i32>;		defm : vperm2x128_lowering<"VPERM2I128", v8i32, loadv8i32>;
defm : vperm2x128_lowering<"VPERM2I128", v16i16, loadv16i16>;		defm : vperm2x128_lowering<"VPERM2I128", v16i16, loadv16i16>;
		defm : vperm2x128_lowering<"VPERM2I128", v16f16, loadv16f16>;
		defm : vperm2x128_lowering<"VPERM2I128", v32i8, loadv32i8>;
defm : vperm2x128_lowering<"VPERM2I128", v32i8, loadv32i8>;		defm : vperm2x128_lowering<"VPERM2I128", v32i8, loadv32i8>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// VINSERTI128 - Insert packed integer values		// VINSERTI128 - Insert packed integer values
//		//
let hasSideEffects = 0 in {		let hasSideEffects = 0 in {
def VINSERTI128rr : AVX2AIi8<0x38, MRMSrcReg, (outs VR256:$dst),		def VINSERTI128rr : AVX2AIi8<0x38, MRMSrcReg, (outs VR256:$dst),
(ins VR256:$src1, VR128:$src2, u8imm:$src3),		(ins VR256:$src1, VR128:$src2, u8imm:$src3),
"vinserti128\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}",		"vinserti128\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}",
[]>, Sched<[WriteShuffle256]>, VEX_4V, VEX_L;		[]>, Sched<[WriteShuffle256]>, VEX_4V, VEX_L;
let mayLoad = 1 in		let mayLoad = 1 in
def VINSERTI128rm : AVX2AIi8<0x38, MRMSrcMem, (outs VR256:$dst),		def VINSERTI128rm : AVX2AIi8<0x38, MRMSrcMem, (outs VR256:$dst),
(ins VR256:$src1, i128mem:$src2, u8imm:$src3),		(ins VR256:$src1, i128mem:$src2, u8imm:$src3),
"vinserti128\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}",		"vinserti128\t{$src3, $src2, $src1, $dst\|$dst, $src1, $src2, $src3}",
[]>, Sched<[WriteShuffle256.Folded, WriteShuffle256.ReadAfterFold]>, VEX_4V, VEX_L;		[]>, Sched<[WriteShuffle256.Folded, WriteShuffle256.ReadAfterFold]>, VEX_4V, VEX_L;
}		}

let Predicates = [HasAVX2, NoVLX] in {		let Predicates = [HasAVX2, NoVLX] in {
defm : vinsert_lowering<"VINSERTI128", "VPERM2I128", v2i64, v4i64, loadv2i64, loadv4i64>;		defm : vinsert_lowering<"VINSERTI128", "VPERM2I128", v2i64, v4i64, loadv2i64, loadv4i64>;
defm : vinsert_lowering<"VINSERTI128", "VPERM2I128", v4i32, v8i32, loadv4i32, loadv8i32>;		defm : vinsert_lowering<"VINSERTI128", "VPERM2I128", v4i32, v8i32, loadv4i32, loadv8i32>;
defm : vinsert_lowering<"VINSERTI128", "VPERM2I128", v8i16, v16i16, loadv8i16, loadv16i16>;		defm : vinsert_lowering<"VINSERTI128", "VPERM2I128", v8i16, v16i16, loadv8i16, loadv16i16>;
		defm : vinsert_lowering<"VINSERTI128", "VPERM2I128", v8f16, v16f16, loadv8f16, loadv16f16>;
		defm : vinsert_lowering<"VINSERTI128", "VPERM2I128", v16i8, v32i8, loadv16i8, loadv32i8>;
defm : vinsert_lowering<"VINSERTI128", "VPERM2I128", v16i8, v32i8, loadv16i8, loadv32i8>;		defm : vinsert_lowering<"VINSERTI128", "VPERM2I128", v16i8, v32i8, loadv16i8, loadv32i8>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// VEXTRACTI128 - Extract packed integer values		// VEXTRACTI128 - Extract packed integer values
//		//
def VEXTRACTI128rr : AVX2AIi8<0x39, MRMDestReg, (outs VR128:$dst),		def VEXTRACTI128rr : AVX2AIi8<0x39, MRMDestReg, (outs VR128:$dst),
(ins VR256:$src1, u8imm:$src2),		(ins VR256:$src1, u8imm:$src2),
"vextracti128\t{$src2, $src1, $dst\|$dst, $src1, $src2}", []>,		"vextracti128\t{$src2, $src1, $dst\|$dst, $src1, $src2}", []>,
Sched<[WriteShuffle256]>, VEX, VEX_L;		Sched<[WriteShuffle256]>, VEX, VEX_L;
let hasSideEffects = 0, mayStore = 1 in		let hasSideEffects = 0, mayStore = 1 in
def VEXTRACTI128mr : AVX2AIi8<0x39, MRMDestMem, (outs),		def VEXTRACTI128mr : AVX2AIi8<0x39, MRMDestMem, (outs),
(ins i128mem:$dst, VR256:$src1, u8imm:$src2),		(ins i128mem:$dst, VR256:$src1, u8imm:$src2),
"vextracti128\t{$src2, $src1, $dst\|$dst, $src1, $src2}", []>,		"vextracti128\t{$src2, $src1, $dst\|$dst, $src1, $src2}", []>,
Sched<[SchedWriteVecMoveLS.XMM.MR]>, VEX, VEX_L;		Sched<[SchedWriteVecMoveLS.XMM.MR]>, VEX, VEX_L;

let Predicates = [HasAVX2, NoVLX] in {		let Predicates = [HasAVX2, NoVLX] in {
defm : vextract_lowering<"VEXTRACTI128", v4i64, v2i64>;		defm : vextract_lowering<"VEXTRACTI128", v4i64, v2i64>;
defm : vextract_lowering<"VEXTRACTI128", v8i32, v4i32>;		defm : vextract_lowering<"VEXTRACTI128", v8i32, v4i32>;
defm : vextract_lowering<"VEXTRACTI128", v16i16, v8i16>;		defm : vextract_lowering<"VEXTRACTI128", v16i16, v8i16>;
		defm : vextract_lowering<"VEXTRACTI128", v16f16, v8f16>;
		defm : vextract_lowering<"VEXTRACTI128", v32i8, v16i8>;
defm : vextract_lowering<"VEXTRACTI128", v32i8, v16i8>;		defm : vextract_lowering<"VEXTRACTI128", v32i8, v16i8>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// VPMASKMOV - Conditional SIMD Integer Packed Loads and Stores		// VPMASKMOV - Conditional SIMD Integer Packed Loads and Stores
//		//
multiclass avx2_pmovmask<string OpcodeStr,		multiclass avx2_pmovmask<string OpcodeStr,
Intrinsic IntLd128, Intrinsic IntLd256,		Intrinsic IntLd128, Intrinsic IntLd256,
▲ Show 20 Lines • Show All 236 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86TargetTransformInfo.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,291 Lines • ▼ Show 20 Lines	InstructionCost X86TTIImpl::getShuffleCost(TTI::ShuffleKind Kind,
// For 2-input shuffles, we must account for splitting the 2 inputs into many.		// For 2-input shuffles, we must account for splitting the 2 inputs into many.
if (Kind == TTI::SK_PermuteTwoSrc && LT.first != 1) {		if (Kind == TTI::SK_PermuteTwoSrc && LT.first != 1) {
// We assume that source and destination have the same vector type.		// We assume that source and destination have the same vector type.
InstructionCost NumOfDests = LT.first;		InstructionCost NumOfDests = LT.first;
InstructionCost NumOfShufflesPerDest = LT.first * 2 - 1;		InstructionCost NumOfShufflesPerDest = LT.first * 2 - 1;
LT.first = NumOfDests * NumOfShufflesPerDest;		LT.first = NumOfDests * NumOfShufflesPerDest;
}		}

static const CostTblEntry AVX512FP16ShuffleTbl[] = {
{TTI::SK_Broadcast, MVT::v32f16, 1}, // vpbroadcastw
{TTI::SK_Broadcast, MVT::v16f16, 1}, // vpbroadcastw
{TTI::SK_Broadcast, MVT::v8f16, 1}, // vpbroadcastw

{TTI::SK_Reverse, MVT::v32f16, 2}, // vpermw
{TTI::SK_Reverse, MVT::v16f16, 2}, // vpermw
{TTI::SK_Reverse, MVT::v8f16, 1}, // vpshufb

{TTI::SK_PermuteSingleSrc, MVT::v32f16, 2}, // vpermw
{TTI::SK_PermuteSingleSrc, MVT::v16f16, 2}, // vpermw
{TTI::SK_PermuteSingleSrc, MVT::v8f16, 1}, // vpshufb

{TTI::SK_PermuteTwoSrc, MVT::v32f16, 2}, // vpermt2w
{TTI::SK_PermuteTwoSrc, MVT::v16f16, 2}, // vpermt2w
{TTI::SK_PermuteTwoSrc, MVT::v8f16, 2} // vpermt2w
};

if (!ST->useSoftFloat() && ST->hasFP16())
if (const auto *Entry =
CostTableLookup(AVX512FP16ShuffleTbl, Kind, LT.second))
return LT.first * Entry->Cost;

static const CostTblEntry AVX512VBMIShuffleTbl[] = {		static const CostTblEntry AVX512VBMIShuffleTbl[] = {
{TTI::SK_Reverse, MVT::v64i8, 1}, // vpermb		{TTI::SK_Reverse, MVT::v64i8, 1}, // vpermb
{TTI::SK_Reverse, MVT::v32i8, 1}, // vpermb		{TTI::SK_Reverse, MVT::v32i8, 1}, // vpermb

{TTI::SK_PermuteSingleSrc, MVT::v64i8, 1}, // vpermb		{TTI::SK_PermuteSingleSrc, MVT::v64i8, 1}, // vpermb
{TTI::SK_PermuteSingleSrc, MVT::v32i8, 1}, // vpermb		{TTI::SK_PermuteSingleSrc, MVT::v32i8, 1}, // vpermb

{TTI::SK_PermuteTwoSrc, MVT::v64i8, 2}, // vpermt2b		{TTI::SK_PermuteTwoSrc, MVT::v64i8, 2}, // vpermt2b
{TTI::SK_PermuteTwoSrc, MVT::v32i8, 2}, // vpermt2b		{TTI::SK_PermuteTwoSrc, MVT::v32i8, 2}, // vpermt2b
{TTI::SK_PermuteTwoSrc, MVT::v16i8, 2} // vpermt2b		{TTI::SK_PermuteTwoSrc, MVT::v16i8, 2} // vpermt2b
};		};

if (ST->hasVBMI())		if (ST->hasVBMI())
if (const auto *Entry =		if (const auto *Entry =
CostTableLookup(AVX512VBMIShuffleTbl, Kind, LT.second))		CostTableLookup(AVX512VBMIShuffleTbl, Kind, LT.second))
return LT.first * Entry->Cost;		return LT.first * Entry->Cost;

static const CostTblEntry AVX512BWShuffleTbl[] = {		static const CostTblEntry AVX512BWShuffleTbl[] = {
{TTI::SK_Broadcast, MVT::v32i16, 1}, // vpbroadcastw		{TTI::SK_Broadcast, MVT::v32i16, 1}, // vpbroadcastw
		{TTI::SK_Broadcast, MVT::v32f16, 1}, // vpbroadcastw
{TTI::SK_Broadcast, MVT::v64i8, 1}, // vpbroadcastb		{TTI::SK_Broadcast, MVT::v64i8, 1}, // vpbroadcastb

{TTI::SK_Reverse, MVT::v32i16, 2}, // vpermw		{TTI::SK_Reverse, MVT::v32i16, 2}, // vpermw
		{TTI::SK_Reverse, MVT::v32f16, 2}, // vpermw
{TTI::SK_Reverse, MVT::v16i16, 2}, // vpermw		{TTI::SK_Reverse, MVT::v16i16, 2}, // vpermw
{TTI::SK_Reverse, MVT::v64i8, 2}, // pshufb + vshufi64x2		{TTI::SK_Reverse, MVT::v64i8, 2}, // pshufb + vshufi64x2

{TTI::SK_PermuteSingleSrc, MVT::v32i16, 2}, // vpermw		{TTI::SK_PermuteSingleSrc, MVT::v32i16, 2}, // vpermw
		{TTI::SK_PermuteSingleSrc, MVT::v32f16, 2}, // vpermw
{TTI::SK_PermuteSingleSrc, MVT::v16i16, 2}, // vpermw		{TTI::SK_PermuteSingleSrc, MVT::v16i16, 2}, // vpermw
		{TTI::SK_PermuteSingleSrc, MVT::v16f16, 2}, // vpermw
{TTI::SK_PermuteSingleSrc, MVT::v64i8, 8}, // extend to v32i16		{TTI::SK_PermuteSingleSrc, MVT::v64i8, 8}, // extend to v32i16

{TTI::SK_PermuteTwoSrc, MVT::v32i16, 2}, // vpermt2w		{TTI::SK_PermuteTwoSrc, MVT::v32i16, 2}, // vpermt2w
		{TTI::SK_PermuteTwoSrc, MVT::v32f16, 2}, // vpermt2w
{TTI::SK_PermuteTwoSrc, MVT::v16i16, 2}, // vpermt2w		{TTI::SK_PermuteTwoSrc, MVT::v16i16, 2}, // vpermt2w
{TTI::SK_PermuteTwoSrc, MVT::v8i16, 2}, // vpermt2w		{TTI::SK_PermuteTwoSrc, MVT::v8i16, 2}, // vpermt2w
{TTI::SK_PermuteTwoSrc, MVT::v64i8, 19}, // 6 * v32i8 + 1		{TTI::SK_PermuteTwoSrc, MVT::v64i8, 19}, // 6 * v32i8 + 1

{TTI::SK_Select, MVT::v32i16, 1}, // vblendmw		{TTI::SK_Select, MVT::v32i16, 1}, // vblendmw
{TTI::SK_Select, MVT::v64i8, 1}, // vblendmb		{TTI::SK_Select, MVT::v64i8, 1}, // vblendmb
};		};

if (ST->hasBWI())		if (ST->hasBWI())
if (const auto *Entry =		if (const auto *Entry =
CostTableLookup(AVX512BWShuffleTbl, Kind, LT.second))		CostTableLookup(AVX512BWShuffleTbl, Kind, LT.second))
return LT.first * Entry->Cost;		return LT.first * Entry->Cost;

static const CostTblEntry AVX512ShuffleTbl[] = {		static const CostTblEntry AVX512ShuffleTbl[] = {
{TTI::SK_Broadcast, MVT::v8f64, 1}, // vbroadcastpd		{TTI::SK_Broadcast, MVT::v8f64, 1}, // vbroadcastpd
{TTI::SK_Broadcast, MVT::v16f32, 1}, // vbroadcastps		{TTI::SK_Broadcast, MVT::v16f32, 1}, // vbroadcastps
{TTI::SK_Broadcast, MVT::v8i64, 1}, // vpbroadcastq		{TTI::SK_Broadcast, MVT::v8i64, 1}, // vpbroadcastq
{TTI::SK_Broadcast, MVT::v16i32, 1}, // vpbroadcastd		{TTI::SK_Broadcast, MVT::v16i32, 1}, // vpbroadcastd
{TTI::SK_Broadcast, MVT::v32i16, 1}, // vpbroadcastw		{TTI::SK_Broadcast, MVT::v32i16, 1}, // vpbroadcastw
		{TTI::SK_Broadcast, MVT::v32f16, 1}, // vpbroadcastw
{TTI::SK_Broadcast, MVT::v64i8, 1}, // vpbroadcastb		{TTI::SK_Broadcast, MVT::v64i8, 1}, // vpbroadcastb

{TTI::SK_Reverse, MVT::v8f64, 1}, // vpermpd		{TTI::SK_Reverse, MVT::v8f64, 1}, // vpermpd
{TTI::SK_Reverse, MVT::v16f32, 1}, // vpermps		{TTI::SK_Reverse, MVT::v16f32, 1}, // vpermps
{TTI::SK_Reverse, MVT::v8i64, 1}, // vpermq		{TTI::SK_Reverse, MVT::v8i64, 1}, // vpermq
{TTI::SK_Reverse, MVT::v16i32, 1}, // vpermd		{TTI::SK_Reverse, MVT::v16i32, 1}, // vpermd
{TTI::SK_Reverse, MVT::v32i16, 7}, // per mca		{TTI::SK_Reverse, MVT::v32i16, 7}, // per mca
		{TTI::SK_Reverse, MVT::v32f16, 7}, // per mca
{TTI::SK_Reverse, MVT::v64i8, 7}, // per mca		{TTI::SK_Reverse, MVT::v64i8, 7}, // per mca

{TTI::SK_PermuteSingleSrc, MVT::v8f64, 1}, // vpermpd		{TTI::SK_PermuteSingleSrc, MVT::v8f64, 1}, // vpermpd
{TTI::SK_PermuteSingleSrc, MVT::v4f64, 1}, // vpermpd		{TTI::SK_PermuteSingleSrc, MVT::v4f64, 1}, // vpermpd
{TTI::SK_PermuteSingleSrc, MVT::v2f64, 1}, // vpermpd		{TTI::SK_PermuteSingleSrc, MVT::v2f64, 1}, // vpermpd
{TTI::SK_PermuteSingleSrc, MVT::v16f32, 1}, // vpermps		{TTI::SK_PermuteSingleSrc, MVT::v16f32, 1}, // vpermps
{TTI::SK_PermuteSingleSrc, MVT::v8f32, 1}, // vpermps		{TTI::SK_PermuteSingleSrc, MVT::v8f32, 1}, // vpermps
{TTI::SK_PermuteSingleSrc, MVT::v4f32, 1}, // vpermps		{TTI::SK_PermuteSingleSrc, MVT::v4f32, 1}, // vpermps
Show All 16 Lines	static const CostTblEntry AVX512ShuffleTbl[] = {
{TTI::SK_PermuteTwoSrc, MVT::v2f64, 1}, // vpermt2pd		{TTI::SK_PermuteTwoSrc, MVT::v2f64, 1}, // vpermt2pd
{TTI::SK_PermuteTwoSrc, MVT::v4f32, 1}, // vpermt2ps		{TTI::SK_PermuteTwoSrc, MVT::v4f32, 1}, // vpermt2ps
{TTI::SK_PermuteTwoSrc, MVT::v2i64, 1}, // vpermt2q		{TTI::SK_PermuteTwoSrc, MVT::v2i64, 1}, // vpermt2q
{TTI::SK_PermuteTwoSrc, MVT::v4i32, 1}, // vpermt2d		{TTI::SK_PermuteTwoSrc, MVT::v4i32, 1}, // vpermt2d

// FIXME: This just applies the type legalization cost rules above		// FIXME: This just applies the type legalization cost rules above
// assuming these completely split.		// assuming these completely split.
{TTI::SK_PermuteSingleSrc, MVT::v32i16, 14},		{TTI::SK_PermuteSingleSrc, MVT::v32i16, 14},
		{TTI::SK_PermuteSingleSrc, MVT::v32f16, 14},
{TTI::SK_PermuteSingleSrc, MVT::v64i8, 14},		{TTI::SK_PermuteSingleSrc, MVT::v64i8, 14},
{TTI::SK_PermuteTwoSrc, MVT::v32i16, 42},		{TTI::SK_PermuteTwoSrc, MVT::v32i16, 42},
		{TTI::SK_PermuteTwoSrc, MVT::v32f16, 42},
{TTI::SK_PermuteTwoSrc, MVT::v64i8, 42},		{TTI::SK_PermuteTwoSrc, MVT::v64i8, 42},

{TTI::SK_Select, MVT::v32i16, 1}, // vpternlogq		{TTI::SK_Select, MVT::v32i16, 1}, // vpternlogq
		{TTI::SK_Select, MVT::v32f16, 1}, // vpternlogq
{TTI::SK_Select, MVT::v64i8, 1}, // vpternlogq		{TTI::SK_Select, MVT::v64i8, 1}, // vpternlogq
{TTI::SK_Select, MVT::v8f64, 1}, // vblendmpd		{TTI::SK_Select, MVT::v8f64, 1}, // vblendmpd
{TTI::SK_Select, MVT::v16f32, 1}, // vblendmps		{TTI::SK_Select, MVT::v16f32, 1}, // vblendmps
{TTI::SK_Select, MVT::v8i64, 1}, // vblendmq		{TTI::SK_Select, MVT::v8i64, 1}, // vblendmq
{TTI::SK_Select, MVT::v16i32, 1}, // vblendmd		{TTI::SK_Select, MVT::v16i32, 1}, // vblendmd
};		};

if (ST->hasAVX512())		if (ST->hasAVX512())
if (const auto *Entry = CostTableLookup(AVX512ShuffleTbl, Kind, LT.second))		if (const auto *Entry = CostTableLookup(AVX512ShuffleTbl, Kind, LT.second))
return LT.first * Entry->Cost;		return LT.first * Entry->Cost;

static const CostTblEntry AVX2ShuffleTbl[] = {		static const CostTblEntry AVX2ShuffleTbl[] = {
{TTI::SK_Broadcast, MVT::v4f64, 1}, // vbroadcastpd		{TTI::SK_Broadcast, MVT::v4f64, 1}, // vbroadcastpd
{TTI::SK_Broadcast, MVT::v8f32, 1}, // vbroadcastps		{TTI::SK_Broadcast, MVT::v8f32, 1}, // vbroadcastps
{TTI::SK_Broadcast, MVT::v4i64, 1}, // vpbroadcastq		{TTI::SK_Broadcast, MVT::v4i64, 1}, // vpbroadcastq
{TTI::SK_Broadcast, MVT::v8i32, 1}, // vpbroadcastd		{TTI::SK_Broadcast, MVT::v8i32, 1}, // vpbroadcastd
{TTI::SK_Broadcast, MVT::v16i16, 1}, // vpbroadcastw		{TTI::SK_Broadcast, MVT::v16i16, 1}, // vpbroadcastw
		{TTI::SK_Broadcast, MVT::v16f16, 1}, // vpbroadcastw
{TTI::SK_Broadcast, MVT::v32i8, 1}, // vpbroadcastb		{TTI::SK_Broadcast, MVT::v32i8, 1}, // vpbroadcastb

{TTI::SK_Reverse, MVT::v4f64, 1}, // vpermpd		{TTI::SK_Reverse, MVT::v4f64, 1}, // vpermpd
{TTI::SK_Reverse, MVT::v8f32, 1}, // vpermps		{TTI::SK_Reverse, MVT::v8f32, 1}, // vpermps
{TTI::SK_Reverse, MVT::v4i64, 1}, // vpermq		{TTI::SK_Reverse, MVT::v4i64, 1}, // vpermq
{TTI::SK_Reverse, MVT::v8i32, 1}, // vpermd		{TTI::SK_Reverse, MVT::v8i32, 1}, // vpermd
{TTI::SK_Reverse, MVT::v16i16, 2}, // vperm2i128 + pshufb		{TTI::SK_Reverse, MVT::v16i16, 2}, // vperm2i128 + pshufb
		{TTI::SK_Reverse, MVT::v16f16, 2}, // vperm2i128 + pshufb
{TTI::SK_Reverse, MVT::v32i8, 2}, // vperm2i128 + pshufb		{TTI::SK_Reverse, MVT::v32i8, 2}, // vperm2i128 + pshufb

{TTI::SK_Select, MVT::v16i16, 1}, // vpblendvb		{TTI::SK_Select, MVT::v16i16, 1}, // vpblendvb
		{TTI::SK_Select, MVT::v16f16, 1}, // vpblendvb
{TTI::SK_Select, MVT::v32i8, 1}, // vpblendvb		{TTI::SK_Select, MVT::v32i8, 1}, // vpblendvb

{TTI::SK_PermuteSingleSrc, MVT::v4f64, 1}, // vpermpd		{TTI::SK_PermuteSingleSrc, MVT::v4f64, 1}, // vpermpd
{TTI::SK_PermuteSingleSrc, MVT::v8f32, 1}, // vpermps		{TTI::SK_PermuteSingleSrc, MVT::v8f32, 1}, // vpermps
{TTI::SK_PermuteSingleSrc, MVT::v4i64, 1}, // vpermq		{TTI::SK_PermuteSingleSrc, MVT::v4i64, 1}, // vpermq
{TTI::SK_PermuteSingleSrc, MVT::v8i32, 1}, // vpermd		{TTI::SK_PermuteSingleSrc, MVT::v8i32, 1}, // vpermd
{TTI::SK_PermuteSingleSrc, MVT::v16i16, 4}, // vperm2i128 + 2*vpshufb		{TTI::SK_PermuteSingleSrc, MVT::v16i16, 4}, // vperm2i128 + 2*vpshufb
// + vpblendvb		// + vpblendvb
		{TTI::SK_PermuteSingleSrc, MVT::v16f16, 4}, // vperm2i128 + 2*vpshufb
		// + vpblendvb
{TTI::SK_PermuteSingleSrc, MVT::v32i8, 4}, // vperm2i128 + 2*vpshufb		{TTI::SK_PermuteSingleSrc, MVT::v32i8, 4}, // vperm2i128 + 2*vpshufb
// + vpblendvb		// + vpblendvb

{TTI::SK_PermuteTwoSrc, MVT::v4f64, 3}, // 2*vpermpd + vblendpd		{TTI::SK_PermuteTwoSrc, MVT::v4f64, 3}, // 2*vpermpd + vblendpd
{TTI::SK_PermuteTwoSrc, MVT::v8f32, 3}, // 2*vpermps + vblendps		{TTI::SK_PermuteTwoSrc, MVT::v8f32, 3}, // 2*vpermps + vblendps
{TTI::SK_PermuteTwoSrc, MVT::v4i64, 3}, // 2*vpermq + vpblendd		{TTI::SK_PermuteTwoSrc, MVT::v4i64, 3}, // 2*vpermq + vpblendd
{TTI::SK_PermuteTwoSrc, MVT::v8i32, 3}, // 2*vpermd + vpblendd		{TTI::SK_PermuteTwoSrc, MVT::v8i32, 3}, // 2*vpermd + vpblendd
{TTI::SK_PermuteTwoSrc, MVT::v16i16, 7}, // 2vperm2i128 + 4vpshufb		{TTI::SK_PermuteTwoSrc, MVT::v16i16, 7}, // 2vperm2i128 + 4vpshufb
// + vpblendvb		// + vpblendvb
		{TTI::SK_PermuteTwoSrc, MVT::v16f16, 7}, // 2vperm2i128 + 4vpshufb
		// + vpblendvb
{TTI::SK_PermuteTwoSrc, MVT::v32i8, 7}, // 2vperm2i128 + 4vpshufb		{TTI::SK_PermuteTwoSrc, MVT::v32i8, 7}, // 2vperm2i128 + 4vpshufb
// + vpblendvb		// + vpblendvb
};		};

if (ST->hasAVX2())		if (ST->hasAVX2())
if (const auto *Entry = CostTableLookup(AVX2ShuffleTbl, Kind, LT.second))		if (const auto *Entry = CostTableLookup(AVX2ShuffleTbl, Kind, LT.second))
return LT.first * Entry->Cost;		return LT.first * Entry->Cost;

Show All 20 Lines	if (const auto *Entry = CostTableLookup(XOPShuffleTbl, Kind, LT.second))
return LT.first * Entry->Cost;		return LT.first * Entry->Cost;

static const CostTblEntry AVX1ShuffleTbl[] = {		static const CostTblEntry AVX1ShuffleTbl[] = {
{TTI::SK_Broadcast, MVT::v4f64, 2}, // vperm2f128 + vpermilpd		{TTI::SK_Broadcast, MVT::v4f64, 2}, // vperm2f128 + vpermilpd
{TTI::SK_Broadcast, MVT::v8f32, 2}, // vperm2f128 + vpermilps		{TTI::SK_Broadcast, MVT::v8f32, 2}, // vperm2f128 + vpermilps
{TTI::SK_Broadcast, MVT::v4i64, 2}, // vperm2f128 + vpermilpd		{TTI::SK_Broadcast, MVT::v4i64, 2}, // vperm2f128 + vpermilpd
{TTI::SK_Broadcast, MVT::v8i32, 2}, // vperm2f128 + vpermilps		{TTI::SK_Broadcast, MVT::v8i32, 2}, // vperm2f128 + vpermilps
{TTI::SK_Broadcast, MVT::v16i16, 3}, // vpshuflw + vpshufd + vinsertf128		{TTI::SK_Broadcast, MVT::v16i16, 3}, // vpshuflw + vpshufd + vinsertf128
		{TTI::SK_Broadcast, MVT::v16f16, 3}, // vpshuflw + vpshufd + vinsertf128
{TTI::SK_Broadcast, MVT::v32i8, 2}, // vpshufb + vinsertf128		{TTI::SK_Broadcast, MVT::v32i8, 2}, // vpshufb + vinsertf128

{TTI::SK_Reverse, MVT::v4f64, 2}, // vperm2f128 + vpermilpd		{TTI::SK_Reverse, MVT::v4f64, 2}, // vperm2f128 + vpermilpd
{TTI::SK_Reverse, MVT::v8f32, 2}, // vperm2f128 + vpermilps		{TTI::SK_Reverse, MVT::v8f32, 2}, // vperm2f128 + vpermilps
{TTI::SK_Reverse, MVT::v4i64, 2}, // vperm2f128 + vpermilpd		{TTI::SK_Reverse, MVT::v4i64, 2}, // vperm2f128 + vpermilpd
{TTI::SK_Reverse, MVT::v8i32, 2}, // vperm2f128 + vpermilps		{TTI::SK_Reverse, MVT::v8i32, 2}, // vperm2f128 + vpermilps
{TTI::SK_Reverse, MVT::v16i16, 4}, // vextractf128 + 2*pshufb		{TTI::SK_Reverse, MVT::v16i16, 4}, // vextractf128 + 2*pshufb
// + vinsertf128		// + vinsertf128
		{TTI::SK_Reverse, MVT::v16f16, 4}, // vextractf128 + 2*pshufb
		// + vinsertf128
{TTI::SK_Reverse, MVT::v32i8, 4}, // vextractf128 + 2*pshufb		{TTI::SK_Reverse, MVT::v32i8, 4}, // vextractf128 + 2*pshufb
// + vinsertf128		// + vinsertf128

{TTI::SK_Select, MVT::v4i64, 1}, // vblendpd		{TTI::SK_Select, MVT::v4i64, 1}, // vblendpd
{TTI::SK_Select, MVT::v4f64, 1}, // vblendpd		{TTI::SK_Select, MVT::v4f64, 1}, // vblendpd
{TTI::SK_Select, MVT::v8i32, 1}, // vblendps		{TTI::SK_Select, MVT::v8i32, 1}, // vblendps
{TTI::SK_Select, MVT::v8f32, 1}, // vblendps		{TTI::SK_Select, MVT::v8f32, 1}, // vblendps
{TTI::SK_Select, MVT::v16i16, 3}, // vpand + vpandn + vpor		{TTI::SK_Select, MVT::v16i16, 3}, // vpand + vpandn + vpor
		{TTI::SK_Select, MVT::v16f16, 3}, // vpand + vpandn + vpor
{TTI::SK_Select, MVT::v32i8, 3}, // vpand + vpandn + vpor		{TTI::SK_Select, MVT::v32i8, 3}, // vpand + vpandn + vpor

{TTI::SK_PermuteSingleSrc, MVT::v4f64, 2}, // vperm2f128 + vshufpd		{TTI::SK_PermuteSingleSrc, MVT::v4f64, 2}, // vperm2f128 + vshufpd
{TTI::SK_PermuteSingleSrc, MVT::v4i64, 2}, // vperm2f128 + vshufpd		{TTI::SK_PermuteSingleSrc, MVT::v4i64, 2}, // vperm2f128 + vshufpd
{TTI::SK_PermuteSingleSrc, MVT::v8f32, 4}, // 2vperm2f128 + 2vshufps		{TTI::SK_PermuteSingleSrc, MVT::v8f32, 4}, // 2vperm2f128 + 2vshufps
{TTI::SK_PermuteSingleSrc, MVT::v8i32, 4}, // 2vperm2f128 + 2vshufps		{TTI::SK_PermuteSingleSrc, MVT::v8i32, 4}, // 2vperm2f128 + 2vshufps
{TTI::SK_PermuteSingleSrc, MVT::v16i16, 8}, // vextractf128 + 4*pshufb		{TTI::SK_PermuteSingleSrc, MVT::v16i16, 8}, // vextractf128 + 4*pshufb
// + 2*por + vinsertf128		// + 2*por + vinsertf128
		{TTI::SK_PermuteSingleSrc, MVT::v16f16, 8}, // vextractf128 + 4*pshufb
		// + 2*por + vinsertf128
{TTI::SK_PermuteSingleSrc, MVT::v32i8, 8}, // vextractf128 + 4*pshufb		{TTI::SK_PermuteSingleSrc, MVT::v32i8, 8}, // vextractf128 + 4*pshufb
// + 2*por + vinsertf128		// + 2*por + vinsertf128

{TTI::SK_PermuteTwoSrc, MVT::v4f64, 3}, // 2*vperm2f128 + vshufpd		{TTI::SK_PermuteTwoSrc, MVT::v4f64, 3}, // 2*vperm2f128 + vshufpd
{TTI::SK_PermuteTwoSrc, MVT::v4i64, 3}, // 2*vperm2f128 + vshufpd		{TTI::SK_PermuteTwoSrc, MVT::v4i64, 3}, // 2*vperm2f128 + vshufpd
{TTI::SK_PermuteTwoSrc, MVT::v8f32, 4}, // 2vperm2f128 + 2vshufps		{TTI::SK_PermuteTwoSrc, MVT::v8f32, 4}, // 2vperm2f128 + 2vshufps
{TTI::SK_PermuteTwoSrc, MVT::v8i32, 4}, // 2vperm2f128 + 2vshufps		{TTI::SK_PermuteTwoSrc, MVT::v8i32, 4}, // 2vperm2f128 + 2vshufps
{TTI::SK_PermuteTwoSrc, MVT::v16i16, 15}, // 2vextractf128 + 8pshufb		{TTI::SK_PermuteTwoSrc, MVT::v16i16, 15}, // 2vextractf128 + 8pshufb
// + 4*por + vinsertf128		// + 4*por + vinsertf128
		{TTI::SK_PermuteTwoSrc, MVT::v16f16, 15}, // 2vextractf128 + 8pshufb
		// + 4*por + vinsertf128
{TTI::SK_PermuteTwoSrc, MVT::v32i8, 15}, // 2vextractf128 + 8pshufb		{TTI::SK_PermuteTwoSrc, MVT::v32i8, 15}, // 2vextractf128 + 8pshufb
// + 4*por + vinsertf128		// + 4*por + vinsertf128
};		};

if (ST->hasAVX())		if (ST->hasAVX())
if (const auto *Entry = CostTableLookup(AVX1ShuffleTbl, Kind, LT.second))		if (const auto *Entry = CostTableLookup(AVX1ShuffleTbl, Kind, LT.second))
return LT.first * Entry->Cost;		return LT.first * Entry->Cost;

static const CostTblEntry SSE41ShuffleTbl[] = {		static const CostTblEntry SSE41ShuffleTbl[] = {
{TTI::SK_Select, MVT::v2i64, 1}, // pblendw		{TTI::SK_Select, MVT::v2i64, 1}, // pblendw
{TTI::SK_Select, MVT::v2f64, 1}, // movsd		{TTI::SK_Select, MVT::v2f64, 1}, // movsd
{TTI::SK_Select, MVT::v4i32, 1}, // pblendw		{TTI::SK_Select, MVT::v4i32, 1}, // pblendw
{TTI::SK_Select, MVT::v4f32, 1}, // blendps		{TTI::SK_Select, MVT::v4f32, 1}, // blendps
{TTI::SK_Select, MVT::v8i16, 1}, // pblendw		{TTI::SK_Select, MVT::v8i16, 1}, // pblendw
		{TTI::SK_Select, MVT::v8f16, 1}, // pblendw
{TTI::SK_Select, MVT::v16i8, 1} // pblendvb		{TTI::SK_Select, MVT::v16i8, 1} // pblendvb
};		};

if (ST->hasSSE41())		if (ST->hasSSE41())
if (const auto *Entry = CostTableLookup(SSE41ShuffleTbl, Kind, LT.second))		if (const auto *Entry = CostTableLookup(SSE41ShuffleTbl, Kind, LT.second))
return LT.first * Entry->Cost;		return LT.first * Entry->Cost;

static const CostTblEntry SSSE3ShuffleTbl[] = {		static const CostTblEntry SSSE3ShuffleTbl[] = {
{TTI::SK_Broadcast, MVT::v8i16, 1}, // pshufb		{TTI::SK_Broadcast, MVT::v8i16, 1}, // pshufb
		{TTI::SK_Broadcast, MVT::v8f16, 1}, // pshufb
{TTI::SK_Broadcast, MVT::v16i8, 1}, // pshufb		{TTI::SK_Broadcast, MVT::v16i8, 1}, // pshufb

{TTI::SK_Reverse, MVT::v8i16, 1}, // pshufb		{TTI::SK_Reverse, MVT::v8i16, 1}, // pshufb
		{TTI::SK_Reverse, MVT::v8f16, 1}, // pshufb
{TTI::SK_Reverse, MVT::v16i8, 1}, // pshufb		{TTI::SK_Reverse, MVT::v16i8, 1}, // pshufb

{TTI::SK_Select, MVT::v8i16, 3}, // 2*pshufb + por		{TTI::SK_Select, MVT::v8i16, 3}, // 2*pshufb + por
		{TTI::SK_Select, MVT::v8f16, 3}, // 2*pshufb + por
{TTI::SK_Select, MVT::v16i8, 3}, // 2*pshufb + por		{TTI::SK_Select, MVT::v16i8, 3}, // 2*pshufb + por

{TTI::SK_PermuteSingleSrc, MVT::v8i16, 1}, // pshufb		{TTI::SK_PermuteSingleSrc, MVT::v8i16, 1}, // pshufb
		{TTI::SK_PermuteSingleSrc, MVT::v8f16, 1}, // pshufb
{TTI::SK_PermuteSingleSrc, MVT::v16i8, 1}, // pshufb		{TTI::SK_PermuteSingleSrc, MVT::v16i8, 1}, // pshufb

{TTI::SK_PermuteTwoSrc, MVT::v8i16, 3}, // 2*pshufb + por		{TTI::SK_PermuteTwoSrc, MVT::v8i16, 3}, // 2*pshufb + por
		{TTI::SK_PermuteTwoSrc, MVT::v8f16, 3}, // 2*pshufb + por
{TTI::SK_PermuteTwoSrc, MVT::v16i8, 3}, // 2*pshufb + por		{TTI::SK_PermuteTwoSrc, MVT::v16i8, 3}, // 2*pshufb + por
};		};

if (ST->hasSSSE3())		if (ST->hasSSSE3())
if (const auto *Entry = CostTableLookup(SSSE3ShuffleTbl, Kind, LT.second))		if (const auto *Entry = CostTableLookup(SSSE3ShuffleTbl, Kind, LT.second))
return LT.first * Entry->Cost;		return LT.first * Entry->Cost;

static const CostTblEntry SSE2ShuffleTbl[] = {		static const CostTblEntry SSE2ShuffleTbl[] = {
{TTI::SK_Broadcast, MVT::v2f64, 1}, // shufpd		{TTI::SK_Broadcast, MVT::v2f64, 1}, // shufpd
{TTI::SK_Broadcast, MVT::v2i64, 1}, // pshufd		{TTI::SK_Broadcast, MVT::v2i64, 1}, // pshufd
{TTI::SK_Broadcast, MVT::v4i32, 1}, // pshufd		{TTI::SK_Broadcast, MVT::v4i32, 1}, // pshufd
{TTI::SK_Broadcast, MVT::v8i16, 2}, // pshuflw + pshufd		{TTI::SK_Broadcast, MVT::v8i16, 2}, // pshuflw + pshufd
		{TTI::SK_Broadcast, MVT::v8f16, 2}, // pshuflw + pshufd
{TTI::SK_Broadcast, MVT::v16i8, 3}, // unpck + pshuflw + pshufd		{TTI::SK_Broadcast, MVT::v16i8, 3}, // unpck + pshuflw + pshufd

{TTI::SK_Reverse, MVT::v2f64, 1}, // shufpd		{TTI::SK_Reverse, MVT::v2f64, 1}, // shufpd
{TTI::SK_Reverse, MVT::v2i64, 1}, // pshufd		{TTI::SK_Reverse, MVT::v2i64, 1}, // pshufd
{TTI::SK_Reverse, MVT::v4i32, 1}, // pshufd		{TTI::SK_Reverse, MVT::v4i32, 1}, // pshufd
{TTI::SK_Reverse, MVT::v8i16, 3}, // pshuflw + pshufhw + pshufd		{TTI::SK_Reverse, MVT::v8i16, 3}, // pshuflw + pshufhw + pshufd
		{TTI::SK_Reverse, MVT::v8f16, 3}, // pshuflw + pshufhw + pshufd
{TTI::SK_Reverse, MVT::v16i8, 9}, // 2pshuflw + 2pshufhw		{TTI::SK_Reverse, MVT::v16i8, 9}, // 2pshuflw + 2pshufhw
// + 2pshufd + 2unpck + packus		// + 2pshufd + 2unpck + packus

{TTI::SK_Select, MVT::v2i64, 1}, // movsd		{TTI::SK_Select, MVT::v2i64, 1}, // movsd
{TTI::SK_Select, MVT::v2f64, 1}, // movsd		{TTI::SK_Select, MVT::v2f64, 1}, // movsd
{TTI::SK_Select, MVT::v4i32, 2}, // 2*shufps		{TTI::SK_Select, MVT::v4i32, 2}, // 2*shufps
{TTI::SK_Select, MVT::v8i16, 3}, // pand + pandn + por		{TTI::SK_Select, MVT::v8i16, 3}, // pand + pandn + por
		{TTI::SK_Select, MVT::v8f16, 3}, // pand + pandn + por
{TTI::SK_Select, MVT::v16i8, 3}, // pand + pandn + por		{TTI::SK_Select, MVT::v16i8, 3}, // pand + pandn + por

{TTI::SK_PermuteSingleSrc, MVT::v2f64, 1}, // shufpd		{TTI::SK_PermuteSingleSrc, MVT::v2f64, 1}, // shufpd
{TTI::SK_PermuteSingleSrc, MVT::v2i64, 1}, // pshufd		{TTI::SK_PermuteSingleSrc, MVT::v2i64, 1}, // pshufd
{TTI::SK_PermuteSingleSrc, MVT::v4i32, 1}, // pshufd		{TTI::SK_PermuteSingleSrc, MVT::v4i32, 1}, // pshufd
{TTI::SK_PermuteSingleSrc, MVT::v8i16, 5}, // 2pshuflw + 2pshufhw		{TTI::SK_PermuteSingleSrc, MVT::v8i16, 5}, // 2pshuflw + 2pshufhw
// + pshufd/unpck		// + pshufd/unpck
		{TTI::SK_PermuteSingleSrc, MVT::v8f16, 5}, // 2pshuflw + 2pshufhw
		// + pshufd/unpck
{ TTI::SK_PermuteSingleSrc, MVT::v16i8, 10 }, // 2pshuflw + 2pshufhw		{ TTI::SK_PermuteSingleSrc, MVT::v16i8, 10 }, // 2pshuflw + 2pshufhw
// + 2pshufd + 2unpck + 2*packus		// + 2pshufd + 2unpck + 2*packus

{ TTI::SK_PermuteTwoSrc, MVT::v2f64, 1 }, // shufpd		{ TTI::SK_PermuteTwoSrc, MVT::v2f64, 1 }, // shufpd
{ TTI::SK_PermuteTwoSrc, MVT::v2i64, 1 }, // shufpd		{ TTI::SK_PermuteTwoSrc, MVT::v2i64, 1 }, // shufpd
{ TTI::SK_PermuteTwoSrc, MVT::v4i32, 2 }, // 2*{unpck,movsd,pshufd}		{ TTI::SK_PermuteTwoSrc, MVT::v4i32, 2 }, // 2*{unpck,movsd,pshufd}
{ TTI::SK_PermuteTwoSrc, MVT::v8i16, 8 }, // blend+permute		{ TTI::SK_PermuteTwoSrc, MVT::v8i16, 8 }, // blend+permute
		{ TTI::SK_PermuteTwoSrc, MVT::v8f16, 8 }, // blend+permute
{ TTI::SK_PermuteTwoSrc, MVT::v16i8, 13 }, // blend+permute		{ TTI::SK_PermuteTwoSrc, MVT::v16i8, 13 }, // blend+permute
};		};

static const CostTblEntry SSE3BroadcastLoadTbl[] = {		static const CostTblEntry SSE3BroadcastLoadTbl[] = {
{TTI::SK_Broadcast, MVT::v2f64, 0}, // broadcast handled by movddup		{TTI::SK_Broadcast, MVT::v2f64, 0}, // broadcast handled by movddup
};		};

if (ST->hasSSE2()) {		if (ST->hasSSE2()) {
▲ Show 20 Lines • Show All 3,603 Lines • ▼ Show 20 Lines	bool X86TTIImpl::isLegalMaskedLoad(Type *DataTy, Align Alignment) {
Type *ScalarTy = DataTy->getScalarType();		Type *ScalarTy = DataTy->getScalarType();

if (ScalarTy->isPointerTy())		if (ScalarTy->isPointerTy())
return true;		return true;

if (ScalarTy->isFloatTy() \|\| ScalarTy->isDoubleTy())		if (ScalarTy->isFloatTy() \|\| ScalarTy->isDoubleTy())
return true;		return true;

if (ScalarTy->isHalfTy() && ST->hasBWI() && ST->hasFP16())		if (ScalarTy->isHalfTy() && ST->hasBWI())
return true;		return true;

if (!ScalarTy->isIntegerTy())		if (!ScalarTy->isIntegerTy())
return false;		return false;

unsigned IntWidth = ScalarTy->getIntegerBitWidth();		unsigned IntWidth = ScalarTy->getIntegerBitWidth();
return IntWidth == 32 \|\| IntWidth == 64 \|\|		return IntWidth == 32 \|\| IntWidth == 64 \|\|
((IntWidth == 8 \|\| IntWidth == 16) && ST->hasBWI());		((IntWidth == 8 \|\| IntWidth == 16) && ST->hasBWI());
▲ Show 20 Lines • Show All 438 Lines • ▼ Show 20 Lines	InstructionCost X86TTIImpl::getInterleavedMemoryOpCost(
bool UseMaskForCond, bool UseMaskForGaps) {		bool UseMaskForCond, bool UseMaskForGaps) {
auto *VecTy = cast<FixedVectorType>(BaseTy);		auto *VecTy = cast<FixedVectorType>(BaseTy);

auto isSupportedOnAVX512 = [&](Type *VecTy, bool HasBW) {		auto isSupportedOnAVX512 = [&](Type *VecTy, bool HasBW) {
Type *EltTy = cast<VectorType>(VecTy)->getElementType();		Type *EltTy = cast<VectorType>(VecTy)->getElementType();
if (EltTy->isFloatTy() \|\| EltTy->isDoubleTy() \|\| EltTy->isIntegerTy(64) \|\|		if (EltTy->isFloatTy() \|\| EltTy->isDoubleTy() \|\| EltTy->isIntegerTy(64) \|\|
EltTy->isIntegerTy(32) \|\| EltTy->isPointerTy())		EltTy->isIntegerTy(32) \|\| EltTy->isPointerTy())
return true;		return true;
if (EltTy->isIntegerTy(16) \|\| EltTy->isIntegerTy(8) \|\|		if (EltTy->isIntegerTy(16) \|\| EltTy->isIntegerTy(8) \|\| EltTy->isHalfTy())
(!ST->useSoftFloat() && ST->hasFP16() && EltTy->isHalfTy()))
return HasBW;		return HasBW;
return false;		return false;
};		};
if (ST->hasAVX512() && isSupportedOnAVX512(VecTy, ST->hasBWI()))		if (ST->hasAVX512() && isSupportedOnAVX512(VecTy, ST->hasBWI()))
return getInterleavedMemoryOpCostAVX512(		return getInterleavedMemoryOpCostAVX512(
Opcode, VecTy, Factor, Indices, Alignment,		Opcode, VecTy, Factor, Indices, Alignment,
AddressSpace, CostKind, UseMaskForCond, UseMaskForGaps);		AddressSpace, CostKind, UseMaskForCond, UseMaskForGaps);

▲ Show 20 Lines • Show All 292 Lines • Show Last 20 Lines

llvm/test/Analysis/CostModel/X86/fptoi_sat.ll

	; NOTE: Assertions have been autogenerated by utils/update_analyze_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_analyze_test_checks.py
	; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE2			; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+sse2 \| FileCheck %s --check-prefixes=SSE2
	; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+sse4.2 \| FileCheck %s --check-prefixes=SSE42			; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+sse4.2 \| FileCheck %s --check-prefixes=SSE42
	; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+avx \| FileCheck %s --check-prefixes=AVX1			; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+avx \| FileCheck %s --check-prefixes=AVX1
	; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX2			; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+avx2 \| FileCheck %s --check-prefixes=AVX2
	; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+avx512f \| FileCheck %s --check-prefixes=AVX512,AVX512F			; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+avx512f \| FileCheck %s --check-prefixes=AVX512F
	; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+avx512f,+avx512dq \| FileCheck %s --check-prefixes=AVX512,AVX512DQ			; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mattr=+avx512f,+avx512dq \| FileCheck %s --check-prefixes=AVX512DQ
	;			;
	; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mcpu=slm \| FileCheck %s --check-prefixes=SLM			; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mcpu=slm \| FileCheck %s --check-prefixes=SLM
	; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mcpu=goldmont \| FileCheck %s --check-prefixes=SSE42			; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mcpu=goldmont \| FileCheck %s --check-prefixes=SSE42
	; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mcpu=btver2 \| FileCheck %s --check-prefixes=AVX1			; RUN: opt < %s -mtriple=x86_64-apple-darwin -passes="print<cost-model>" 2>&1 -disable-output -mcpu=btver2 \| FileCheck %s --check-prefixes=AVX1

	define void @casts() {			define void @casts() {
	; SSE2-LABEL: 'casts'			; SSE2-LABEL: 'casts'
	; SSE2-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f32s1 = call i1 @llvm.fptosi.sat.i1.f32(float undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f32s1 = call i1 @llvm.fptosi.sat.i1.f32(float undef)
	▲ Show 20 Lines • Show All 856 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 26 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 26 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 26 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 26 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 22 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 22 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 99 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 82 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 62 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 96 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 52 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 79 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 61 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 51 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 78 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 73 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 44 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 71 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 113 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 197 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 165 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 117 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 185 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 99 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 153 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 122 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 190 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 102 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 156 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 184 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 146 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 120 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 188 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 88 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)			; SSE2-NEXT: Cost Model: Found an estimated cost of 142 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
	; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void			; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
	;			;
	; SSE42-LABEL: 'fp16'			; SSE42-LABEL: 'fp16'
	; SSE42-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
	Show All 17 Lines
	; SSE42-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 22 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 22 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 99 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 82 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 50 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 77 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 61 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 51 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 78 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 73 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 44 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 71 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 113 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 197 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 165 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 117 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 185 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 99 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 153 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 122 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 190 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 102 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 156 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 184 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 146 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 120 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 188 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 88 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)			; SSE42-NEXT: Cost Model: Found an estimated cost of 142 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
	; SSE42-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void			; SSE42-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
	;			;
	; AVX1-LABEL: 'fp16'
	; AVX1-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 17 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 13 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 62 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 52 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 62 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 52 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 113 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 118 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 100 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 119 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 100 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 120 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
	; AVX1-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
	;
	; AVX2-LABEL: 'fp16'			; AVX2-LABEL: 'fp16'
	; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)
	Show All 15 Lines
	; AVX2-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 24 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 24 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 24 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 24 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 76 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 59 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 61 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 106 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 51 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 89 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 59 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 104 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 49 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 87 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 102 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 85 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 73 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 113 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 203 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 170 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 214 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 98 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 181 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 214 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 98 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 181 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 114 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 212 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 177 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 192 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)			; AVX2-NEXT: Cost Model: Found an estimated cost of 153 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
	; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void			; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
	;			;
	; AVX512-LABEL: 'fp16'			; AVX512F-LABEL: 'fp16'
	; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 21 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 17 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 13 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 13 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 14 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 14 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 20 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 43 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 42 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 27 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 37 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 36 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 24 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 28 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 28 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 35 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 27 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 28 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 49 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 41 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 87 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 90 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 63 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 59 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 103 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 49 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 87 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 103 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 49 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 87 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 56 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 101 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 85 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 56 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 105 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 89 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 175 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 186 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 127 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 123 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 114 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 211 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 97 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 179 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 114 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 211 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 97 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 179 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 112 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 209 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 177 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 112 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 218 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)			; AVX512F-NEXT: Cost Model: Found an estimated cost of 185 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
	; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void			; AVX512F-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
				;
				; AVX512DQ-LABEL: 'fp16'
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 17 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 13 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 42 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 27 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 37 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 36 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 28 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 35 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 27 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 49 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 41 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 90 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 59 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 103 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 87 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 103 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 87 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 101 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 85 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 105 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 89 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 186 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 123 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 211 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 179 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 211 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 179 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 209 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 177 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 218 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 185 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
				; AVX512DQ-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
	;			;
	; SLM-LABEL: 'fp16'			; SLM-LABEL: 'fp16'
	; SLM-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
	Show All 16 Lines
	; SLM-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 22 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 22 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 99 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 82 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 50 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 77 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 61 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 51 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 78 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 73 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 44 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 71 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 113 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 197 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 165 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 117 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 185 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 99 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 153 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 122 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 190 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 102 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 156 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 184 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 146 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 120 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 188 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 88 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)			; SLM-NEXT: Cost Model: Found an estimated cost of 142 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
	; SLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void			; SLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
	;			;
	%f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)			%f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
	%f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)			%f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
	%f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)			%f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
	%f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)			%f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
	%f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)			%f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
	%f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)			%f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
	▲ Show 20 Lines • Show All 217 Lines • Show Last 20 Lines

llvm/test/Analysis/CostModel/X86/shuffle-load.ll

	Show First 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; SSE-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32			; SSE-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32
	; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer			; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer
	; SSE-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64			; SSE-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64
	; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer			; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer
	; SSE-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4			; SSE-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4
	; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer			; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer
	; SSE-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8			; SSE-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8
	; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer			; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer
	; SSE-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16			; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16
	; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer			; SSE-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer
	; SSE-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32			; SSE-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32
	; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer			; SSE-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer
	; SSE-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64			; SSE-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64
	; SSE-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer			; SSE-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer
	; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8			; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8
	; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer			; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer
	; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16			; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16
	; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer			; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer
	; SSE-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32			; SSE-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32
	; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer			; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer
	; SSE-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64			; SSE-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64
	; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer			; SSE-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32			; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32
	; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer			; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer
	; SSE2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64			; SSE2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64
	; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer			; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer
	; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4			; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4
	; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer			; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer
	; SSE2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8			; SSE2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8
	; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer			; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer
	; SSE2-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16			; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16
	; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer			; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer
	; SSE2-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32			; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32
	; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer			; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer
	; SSE2-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64			; SSE2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64
	; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer			; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer
	; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8			; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8
	; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer			; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer
	; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16			; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16
	; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer			; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer
	; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32			; SSE2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32
	; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer			; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer
	; SSE2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64			; SSE2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64
	; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer			; SSE2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; SSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32			; SSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32
	; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer			; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer
	; SSE3-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64			; SSE3-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64
	; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer			; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer
	; SSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4			; SSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4
	; SSE3-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer			; SSE3-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer
	; SSE3-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8			; SSE3-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8
	; SSE3-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer			; SSE3-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer
	; SSE3-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16			; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16
	; SSE3-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer			; SSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer
	; SSE3-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32			; SSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32
	; SSE3-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer			; SSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer
	; SSE3-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64			; SSE3-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64
	; SSE3-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer			; SSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer
	; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8			; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8
	; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer			; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer
	; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16			; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16
	; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer			; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer
	; SSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32			; SSE3-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32
	; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer			; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer
	; SSE3-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64			; SSE3-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64
	; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer			; SSE3-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; AVX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32			; AVX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32
	; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer			; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer
	; AVX-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64			; AVX-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64
	; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer			; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer
	; AVX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4			; AVX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4
	; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer			; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer
	; AVX-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8			; AVX-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8
	; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer			; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer
	; AVX-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16			; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16
	; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer			; AVX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer
	; AVX-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32			; AVX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32
	; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer			; AVX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer
	; AVX-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64			; AVX-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64
	; AVX-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer			; AVX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer
	; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8			; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8
	; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer			; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer
	; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16			; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16
	; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer			; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer
	; AVX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32			; AVX-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32
	; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer			; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer
	; AVX-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64			; AVX-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64
	; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer			; AVX-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32			; AVX2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32
	; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer			; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer
	; AVX2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64			; AVX2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64
	; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer			; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer
	; AVX2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4			; AVX2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4
	; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer			; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer
	; AVX2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8			; AVX2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8
	; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer			; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer
	; AVX2-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16			; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16
	; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer			; AVX2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer
	; AVX2-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32			; AVX2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32
	; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer			; AVX2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer
	; AVX2-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64			; AVX2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64
	; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer			; AVX2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer
	; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8			; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8
	; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer			; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer
	; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16			; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16
	; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer			; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer
	; AVX2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32			; AVX2-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32
	; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer			; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer
	; AVX2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64			; AVX2-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64
	; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer			; AVX2-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32			; AVX512-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_4xi64 = load <4 x i64>, ptr undef, align 32
	; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xi64 = shufflevector <4 x i64> %ld_4xi64, <4 x i64> undef, <4 x i32> zeroinitializer
	; AVX512-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64			; AVX512-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_8xi64 = load <8 x i64>, ptr undef, align 64
	; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xi64 = shufflevector <8 x i64> %ld_8xi64, <8 x i64> undef, <8 x i32> zeroinitializer
	; AVX512-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4			; AVX512-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_2xf16 = load <2 x half>, ptr undef, align 4
	; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer			; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_2xf16 = shufflevector <2 x half> %ld_2xf16, <2 x half> undef, <2 x i32> zeroinitializer
	; AVX512-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8			; AVX512-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_4xf16 = load <4 x half>, ptr undef, align 8
	; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer			; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_4xf16 = shufflevector <4 x half> %ld_4xf16, <4 x half> undef, <4 x i32> zeroinitializer
	; AVX512-NEXT: Cost Model: Found an estimated cost of 8 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_8xf16 = load <8 x half>, ptr undef, align 16
	; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer			; AVX512-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_8xf16 = shufflevector <8 x half> %ld_8xf16, <8 x half> undef, <8 x i32> zeroinitializer
	; AVX512-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32			; AVX512-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_16xf16 = load <16 x half>, ptr undef, align 32
	; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer			; AVX512-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_16xf16 = shufflevector <16 x half> %ld_16xf16, <16 x half> undef, <16 x i32> zeroinitializer
	; AVX512-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64			; AVX512-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_32xf16 = load <32 x half>, ptr undef, align 64
	; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer			; AVX512-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %sf_32xf16 = shufflevector <32 x half> %ld_32xf16, <32 x half> undef, <32 x i32> zeroinitializer
	; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_2xf32 = load <2 x float>, ptr undef, align 8
	; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_2xf32 = shufflevector <2 x float> %ld_2xf32, <2 x float> undef, <2 x i32> zeroinitializer
	; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %ld_4xf32 = load <4 x float>, ptr undef, align 16
	; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_4xf32 = shufflevector <4 x float> %ld_4xf32, <4 x float> undef, <4 x i32> zeroinitializer
	; AVX512-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32			; AVX512-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %ld_8xf32 = load <8 x float>, ptr undef, align 32
	; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_8xf32 = shufflevector <8 x float> %ld_8xf32, <8 x float> undef, <8 x i32> zeroinitializer
	; AVX512-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64			; AVX512-NEXT: Cost Model: Found an estimated cost of 4 for instruction: %ld_16xf32 = load <16 x float>, ptr undef, align 64
	; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer			; AVX512-NEXT: Cost Model: Found an estimated cost of 1 for instruction: %sf_16xf32 = shufflevector <16 x float> %ld_16xf32, <16 x float> undef, <16 x i32> zeroinitializer
	▲ Show 20 Lines • Show All 77 Lines • Show Last 20 Lines

llvm/test/Analysis/CostModel/X86/shuffle-two-src-fp16.ll

	; NOTE: Assertions have been autogenerated by utils/update_analyze_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_analyze_test_checks.py
	; RUN: opt < %s -mtriple=x86_64-unknown-linux-gnu -passes="print<cost-model>" 2>&1 -disable-output -mattr=+avx512fp16 \| FileCheck %s			; RUN: opt < %s -mtriple=x86_64-unknown-linux-gnu -passes="print<cost-model>" 2>&1 -disable-output -mattr=+avx512fp16 \| FileCheck %s

	define void @test_vXf16(<8 x half> %src128, <16 x half> %src256, <32 x half> %src512, <64 x half> %src1024, <8 x half> %src128_1, <16 x half> %src256_1, <32 x half> %src512_1, <64 x half> %src1024_1) {			define void @test_vXf16(<8 x half> %src128, <16 x half> %src256, <32 x half> %src512, <64 x half> %src1024, <8 x half> %src128_1, <16 x half> %src256_1, <32 x half> %src512_1, <64 x half> %src1024_1) {
	; CHECK-LABEL: 'test_vXf16'			; CHECK-LABEL: 'test_vXf16'
	; CHECK-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %V128 = shufflevector <8 x half> %src128, <8 x half> %src128_1, <8 x i32> <i32 7, i32 6, i32 6, i32 8, i32 9, i32 2, i32 1, i32 0>			; CHECK-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %V128 = shufflevector <8 x half> %src128, <8 x half> %src128_1, <8 x i32> <i32 7, i32 6, i32 6, i32 8, i32 9, i32 2, i32 1, i32 0>
	; CHECK-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %V256 = shufflevector <16 x half> %src256, <16 x half> %src256_1, <16 x i32> <i32 15, i32 14, i32 13, i32 20, i32 21, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>			; CHECK-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %V256 = shufflevector <16 x half> %src256, <16 x half> %src256_1, <16 x i32> <i32 15, i32 14, i32 13, i32 20, i32 21, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
	; CHECK-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %V512 = shufflevector <32 x half> %src512, <32 x half> %src512_1, <32 x i32> <i32 31, i32 30, i32 45, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 38, i32 11, i32 11, i32 9, i32 8, i32 7, i32 11, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>			; CHECK-NEXT: Cost Model: Found an estimated cost of 2 for instruction: %V512 = shufflevector <32 x half> %src512, <32 x half> %src512_1, <32 x i32> <i32 31, i32 30, i32 45, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 38, i32 11, i32 11, i32 9, i32 8, i32 7, i32 11, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
	; CHECK-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %V1024 = shufflevector <64 x half> %src1024, <64 x half> %src1024_1, <64 x i32> <i32 63, i32 62, i32 71, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 20, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 66, i32 2, i32 1, i32 0>			; CHECK-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %V1024 = shufflevector <64 x half> %src1024, <64 x half> %src1024_1, <64 x i32> <i32 63, i32 62, i32 71, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 20, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 66, i32 2, i32 1, i32 0>
	; CHECK-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void			; CHECK-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
	;			;
	%V128 = shufflevector <8 x half> %src128, <8 x half> %src128_1, <8 x i32> <i32 7, i32 6, i32 6, i32 8, i32 9, i32 2, i32 1, i32 0>			%V128 = shufflevector <8 x half> %src128, <8 x half> %src128_1, <8 x i32> <i32 7, i32 6, i32 6, i32 8, i32 9, i32 2, i32 1, i32 0>
	%V256 = shufflevector <16 x half> %src256, <16 x half> %src256_1, <16 x i32> <i32 15, i32 14, i32 13, i32 20, i32 21, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>			%V256 = shufflevector <16 x half> %src256, <16 x half> %src256_1, <16 x i32> <i32 15, i32 14, i32 13, i32 20, i32 21, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
	%V512 = shufflevector <32 x half> %src512, <32 x half> %src512_1, <32 x i32> <i32 31, i32 30, i32 45, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 38, i32 11, i32 11, i32 9, i32 8, i32 7, i32 11, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>			%V512 = shufflevector <32 x half> %src512, <32 x half> %src512_1, <32 x i32> <i32 31, i32 30, i32 45, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 22, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 38, i32 11, i32 11, i32 9, i32 8, i32 7, i32 11, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
	%V1024 = shufflevector <64 x half> %src1024, <64 x half> %src1024_1, <64 x i32> <i32 63, i32 62, i32 71, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 20, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 66, i32 2, i32 1, i32 0>			%V1024 = shufflevector <64 x half> %src1024, <64 x half> %src1024_1, <64 x i32> <i32 63, i32 62, i32 71, i32 60, i32 59, i32 58, i32 57, i32 56, i32 55, i32 54, i32 53, i32 52, i32 51, i32 50, i32 49, i32 48, i32 47, i32 46, i32 45, i32 44, i32 43, i32 42, i32 41, i32 40, i32 39, i32 38, i32 37, i32 36, i32 35, i32 34, i32 33, i32 32, i32 31, i32 30, i32 29, i32 28, i32 27, i32 26, i32 25, i32 24, i32 23, i32 20, i32 21, i32 20, i32 19, i32 18, i32 17, i32 16, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 66, i32 2, i32 1, i32 0>
	ret void			ret void
	}			}

llvm/test/CodeGen/X86/avx512-insert-extract.ll

Show First 20 Lines • Show All 2,220 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%t3 = insertelement <128 x i1> %t1, i1 %t2, i32 %index		%t3 = insertelement <128 x i1> %t1, i1 %t2, i32 %index
%t4 = bitcast <128 x i1> %t3 to i128		%t4 = bitcast <128 x i1> %t3 to i128
ret i128 %t4		ret i128 %t4
}		}

define void @test_concat_v2i1(ptr %arg, ptr %arg1, ptr %arg2) {		define void @test_concat_v2i1(ptr %arg, ptr %arg1, ptr %arg2) {
; KNL-LABEL: test_concat_v2i1:		; KNL-LABEL: test_concat_v2i1:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: movzwl 2(%rdi), %eax		; KNL-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; KNL-NEXT: movzwl (%rdi), %ecx		; KNL-NEXT: vpextrw $0, %xmm0, %eax
; KNL-NEXT: vmovd %ecx, %xmm0		; KNL-NEXT: movzwl %ax, %eax
		; KNL-NEXT: vmovd %eax, %xmm1
		; KNL-NEXT: vcvtph2ps %xmm1, %xmm1
		; KNL-NEXT: vmovss {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; KNL-NEXT: vucomiss %xmm2, %xmm1
		; KNL-NEXT: setb %al
		; KNL-NEXT: andl $1, %eax
		; KNL-NEXT: kmovw %eax, %k0
		; KNL-NEXT: vpsrld $16, %xmm0, %xmm0
		; KNL-NEXT: vpextrw $0, %xmm0, %eax
		; KNL-NEXT: movzwl %ax, %eax
		; KNL-NEXT: vmovd %eax, %xmm0
; KNL-NEXT: vcvtph2ps %xmm0, %xmm0		; KNL-NEXT: vcvtph2ps %xmm0, %xmm0
; KNL-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; KNL-NEXT: vucomiss %xmm2, %xmm0
; KNL-NEXT: vucomiss %xmm1, %xmm0
; KNL-NEXT: setb %cl
; KNL-NEXT: andl $1, %ecx
; KNL-NEXT: kmovw %ecx, %k0
; KNL-NEXT: vmovd %eax, %xmm2
; KNL-NEXT: vcvtph2ps %xmm2, %xmm2
; KNL-NEXT: vucomiss %xmm1, %xmm2
; KNL-NEXT: setb %al		; KNL-NEXT: setb %al
; KNL-NEXT: kmovw %eax, %k1		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: kshiftlw $1, %k1, %k1		; KNL-NEXT: kshiftlw $1, %k1, %k1
; KNL-NEXT: korw %k1, %k0, %k0		; KNL-NEXT: korw %k1, %k0, %k0
; KNL-NEXT: vxorps %xmm1, %xmm1, %xmm1		; KNL-NEXT: vxorps %xmm2, %xmm2, %xmm2
; KNL-NEXT: vucomiss %xmm1, %xmm0		; KNL-NEXT: vucomiss %xmm2, %xmm1
; KNL-NEXT: seta %al		; KNL-NEXT: seta %al
; KNL-NEXT: andl $1, %eax		; KNL-NEXT: andl $1, %eax
; KNL-NEXT: kmovw %eax, %k1		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: vucomiss %xmm1, %xmm2		; KNL-NEXT: vucomiss %xmm2, %xmm0
; KNL-NEXT: seta %al		; KNL-NEXT: seta %al
; KNL-NEXT: kmovw %eax, %k2		; KNL-NEXT: kmovw %eax, %k2
; KNL-NEXT: kshiftlw $1, %k2, %k2		; KNL-NEXT: kshiftlw $1, %k2, %k2
; KNL-NEXT: korw %k2, %k1, %k1		; KNL-NEXT: korw %k2, %k1, %k1
; KNL-NEXT: kandw %k1, %k0, %k0		; KNL-NEXT: kandw %k1, %k0, %k1
; KNL-NEXT: kshiftrw $1, %k0, %k1		; KNL-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; KNL-NEXT: kmovw %k1, %edi		; KNL-NEXT: vpternlogd $255, %zmm1, %zmm1, %zmm1 {%k1} {z}
; KNL-NEXT: movzwl 2(%rsi), %eax		; KNL-NEXT: vpmovdw %zmm1, %ymm1
; KNL-NEXT: xorl %ecx, %ecx		; KNL-NEXT: vpand %xmm0, %xmm1, %xmm0
; KNL-NEXT: testb $1, %dil		; KNL-NEXT: vmovd %xmm0, (%rdx)
; KNL-NEXT: cmovel %ecx, %eax		; KNL-NEXT: vzeroupper
; KNL-NEXT: kmovw %k0, %edi
; KNL-NEXT: testb $1, %dil
; KNL-NEXT: je LBB85_2
; KNL-NEXT: ## %bb.1:
; KNL-NEXT: movl (%rsi), %ecx
; KNL-NEXT: LBB85_2:
; KNL-NEXT: movw %cx, (%rdx)
; KNL-NEXT: movw %ax, 2(%rdx)
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: test_concat_v2i1:		; SKX-LABEL: test_concat_v2i1:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: movzwl (%rdi), %eax		; SKX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; SKX-NEXT: movzwl 2(%rdi), %ecx		; SKX-NEXT: vpsrld $16, %xmm0, %xmm1
; SKX-NEXT: vmovd %ecx, %xmm0		; SKX-NEXT: vpextrw $0, %xmm1, %eax
; SKX-NEXT: vcvtph2ps %xmm0, %xmm0		; SKX-NEXT: movzwl %ax, %eax
; SKX-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SKX-NEXT: vmovd %eax, %xmm1
; SKX-NEXT: vucomiss %xmm1, %xmm0		; SKX-NEXT: vcvtph2ps %xmm1, %xmm1
; SKX-NEXT: setb %cl		; SKX-NEXT: vmovss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SKX-NEXT: kmovd %ecx, %k0		; SKX-NEXT: vucomiss %xmm2, %xmm1
		; SKX-NEXT: setb %al
		; SKX-NEXT: kmovd %eax, %k0
; SKX-NEXT: kshiftlb $1, %k0, %k0		; SKX-NEXT: kshiftlb $1, %k0, %k0
; SKX-NEXT: vmovd %eax, %xmm2		; SKX-NEXT: vpextrw $0, %xmm0, %eax
; SKX-NEXT: vcvtph2ps %xmm2, %xmm2		; SKX-NEXT: movzwl %ax, %eax
; SKX-NEXT: vucomiss %xmm1, %xmm2		; SKX-NEXT: vmovd %eax, %xmm0
		; SKX-NEXT: vcvtph2ps %xmm0, %xmm0
		; SKX-NEXT: vucomiss %xmm2, %xmm0
; SKX-NEXT: setb %al		; SKX-NEXT: setb %al
; SKX-NEXT: kmovd %eax, %k1		; SKX-NEXT: kmovd %eax, %k1
; SKX-NEXT: kshiftlb $7, %k1, %k1		; SKX-NEXT: kshiftlb $7, %k1, %k1
; SKX-NEXT: kshiftrb $7, %k1, %k1		; SKX-NEXT: kshiftrb $7, %k1, %k1
; SKX-NEXT: korw %k0, %k1, %k0		; SKX-NEXT: korw %k0, %k1, %k0
; SKX-NEXT: vxorps %xmm1, %xmm1, %xmm1		; SKX-NEXT: vxorps %xmm2, %xmm2, %xmm2
; SKX-NEXT: vucomiss %xmm1, %xmm0		; SKX-NEXT: vucomiss %xmm2, %xmm1
; SKX-NEXT: seta %al		; SKX-NEXT: seta %al
; SKX-NEXT: kmovd %eax, %k1		; SKX-NEXT: kmovd %eax, %k1
; SKX-NEXT: kshiftlb $1, %k1, %k1		; SKX-NEXT: kshiftlb $1, %k1, %k1
; SKX-NEXT: vucomiss %xmm1, %xmm2		; SKX-NEXT: vucomiss %xmm2, %xmm0
; SKX-NEXT: seta %al		; SKX-NEXT: seta %al
; SKX-NEXT: kmovd %eax, %k2		; SKX-NEXT: kmovd %eax, %k2
; SKX-NEXT: kshiftlb $7, %k2, %k2		; SKX-NEXT: kshiftlb $7, %k2, %k2
; SKX-NEXT: kshiftrb $7, %k2, %k2		; SKX-NEXT: kshiftrb $7, %k2, %k2
; SKX-NEXT: korw %k1, %k2, %k1		; SKX-NEXT: korw %k1, %k2, %k1
; SKX-NEXT: kandw %k1, %k0, %k0		; SKX-NEXT: kandw %k1, %k0, %k1
; SKX-NEXT: kshiftrb $1, %k0, %k1		; SKX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; SKX-NEXT: kmovd %k1, %edi		; SKX-NEXT: vmovdqu16 %xmm0, %xmm0 {%k1} {z}
; SKX-NEXT: movzwl 2(%rsi), %eax		; SKX-NEXT: vmovd %xmm0, (%rdx)
; SKX-NEXT: xorl %ecx, %ecx
; SKX-NEXT: testb $1, %dil
; SKX-NEXT: cmovel %ecx, %eax
; SKX-NEXT: kmovd %k0, %edi
; SKX-NEXT: testb $1, %dil
; SKX-NEXT: je LBB85_2
; SKX-NEXT: ## %bb.1:
; SKX-NEXT: movl (%rsi), %ecx
; SKX-NEXT: LBB85_2:
; SKX-NEXT: movw %cx, (%rdx)
; SKX-NEXT: movw %ax, 2(%rdx)
; SKX-NEXT: retq		; SKX-NEXT: retq
%tmp = load <2 x half>, ptr %arg, align 8		%tmp = load <2 x half>, ptr %arg, align 8
%tmp3 = fcmp fast olt <2 x half> %tmp, <half 0xH4600, half 0xH4600>		%tmp3 = fcmp fast olt <2 x half> %tmp, <half 0xH4600, half 0xH4600>
%tmp4 = fcmp fast ogt <2 x half> %tmp, zeroinitializer		%tmp4 = fcmp fast ogt <2 x half> %tmp, zeroinitializer
%tmp5 = and <2 x i1> %tmp3, %tmp4		%tmp5 = and <2 x i1> %tmp3, %tmp4
%tmp6 = load <2 x half>, ptr %arg1, align 8		%tmp6 = load <2 x half>, ptr %arg1, align 8
%tmp7 = select <2 x i1> %tmp5, <2 x half> %tmp6, <2 x half> zeroinitializer		%tmp7 = select <2 x i1> %tmp5, <2 x half> %tmp6, <2 x half> zeroinitializer
store <2 x half> %tmp7, ptr %arg2, align 8		store <2 x half> %tmp7, ptr %arg2, align 8
ret void		ret void
}		}

llvm/test/CodeGen/X86/avx512-masked_memop-16-8.ll

	Show First 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	}			}

	declare void @llvm.masked.store.v32i16.p0(<32 x i16>, ptr, i32, <32 x i1>)			declare void @llvm.masked.store.v32i16.p0(<32 x i16>, ptr, i32, <32 x i1>)

	; Make sure we scalarize masked loads of f16.			; Make sure we scalarize masked loads of f16.
	define <16 x half> @test_mask_load_16xf16(<16 x i1> %mask, ptr %addr) {			define <16 x half> @test_mask_load_16xf16(<16 x i1> %mask, ptr %addr) {
	; CHECK-LABEL: test_mask_load_16xf16:			; CHECK-LABEL: test_mask_load_16xf16:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: movq %rdi, %rax
	; CHECK-NEXT: vpsllw $7, %xmm0, %xmm0			; CHECK-NEXT: vpsllw $7, %xmm0, %xmm0
	; CHECK-NEXT: vpmovmskb %xmm0, %ecx			; CHECK-NEXT: vpmovb2m %xmm0, %k1
	; CHECK-NEXT: testb $1, %cl			; CHECK-NEXT: vmovdqu16 (%rdi), %ymm0 {%k1} {z}
	; CHECK-NEXT: je LBB12_1			; CHECK-NEXT: retq
	; CHECK-NEXT: ## %bb.2: ## %cond.load
	; CHECK-NEXT: vpinsrw $0, (%rsi), %xmm0, %xmm8
	; CHECK-NEXT: jmp LBB12_3
	; CHECK-NEXT: LBB12_1:
	; CHECK-NEXT: vpxor %xmm8, %xmm8, %xmm8
	; CHECK-NEXT: LBB12_3: ## %else
	; CHECK-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; CHECK-NEXT: vpxor %xmm9, %xmm9, %xmm9
	; CHECK-NEXT: vmovdqa %xmm2, %xmm10
	; CHECK-NEXT: vmovdqa %xmm2, %xmm4
	; CHECK-NEXT: vmovdqa %xmm2, %xmm5
	; CHECK-NEXT: vmovdqa %xmm2, %xmm6
	; CHECK-NEXT: vmovdqa %xmm2, %xmm7
	; CHECK-NEXT: vmovdqa %xmm2, %xmm1
	; CHECK-NEXT: vmovdqa %xmm2, %xmm0
	; CHECK-NEXT: vmovdqa %xmm2, %xmm3
	; CHECK-NEXT: vmovdqa %xmm2, %xmm11
	; CHECK-NEXT: vmovdqa %xmm2, %xmm12
	; CHECK-NEXT: vmovdqa %xmm2, %xmm13
	; CHECK-NEXT: vmovdqa %xmm2, %xmm14
	; CHECK-NEXT: testb $2, %cl
	; CHECK-NEXT: je LBB12_4
	; CHECK-NEXT: ## %bb.5: ## %cond.load1
	; CHECK-NEXT: vmovdqa %xmm2, %xmm15
	; CHECK-NEXT: vpinsrw $0, 2(%rsi), %xmm0, %xmm2
	; CHECK-NEXT: testb $4, %cl
	; CHECK-NEXT: jne LBB12_7
	; CHECK-NEXT: jmp LBB12_8
	; CHECK-NEXT: LBB12_4:
	; CHECK-NEXT: vmovdqa %xmm2, %xmm15
	; CHECK-NEXT: testb $4, %cl
	; CHECK-NEXT: je LBB12_8
	; CHECK-NEXT: LBB12_7: ## %cond.load4
	; CHECK-NEXT: vpinsrw $0, 4(%rsi), %xmm0, %xmm10
	; CHECK-NEXT: LBB12_8: ## %else5
	; CHECK-NEXT: testb $8, %cl
	; CHECK-NEXT: jne LBB12_9
	; CHECK-NEXT: ## %bb.10: ## %else8
	; CHECK-NEXT: testb $16, %cl
	; CHECK-NEXT: jne LBB12_11
	; CHECK-NEXT: LBB12_12: ## %else11
	; CHECK-NEXT: testb $32, %cl
	; CHECK-NEXT: jne LBB12_13
	; CHECK-NEXT: LBB12_14: ## %else14
	; CHECK-NEXT: testb $64, %cl
	; CHECK-NEXT: jne LBB12_15
	; CHECK-NEXT: LBB12_16: ## %else17
	; CHECK-NEXT: testb $-128, %cl
	; CHECK-NEXT: jne LBB12_17
	; CHECK-NEXT: LBB12_18: ## %else20
	; CHECK-NEXT: testl $256, %ecx ## imm = 0x100
	; CHECK-NEXT: jne LBB12_19
	; CHECK-NEXT: LBB12_20: ## %else23
	; CHECK-NEXT: testl $512, %ecx ## imm = 0x200
	; CHECK-NEXT: jne LBB12_21
	; CHECK-NEXT: LBB12_22: ## %else26
	; CHECK-NEXT: testl $1024, %ecx ## imm = 0x400
	; CHECK-NEXT: jne LBB12_23
	; CHECK-NEXT: LBB12_24: ## %else29
	; CHECK-NEXT: testl $2048, %ecx ## imm = 0x800
	; CHECK-NEXT: jne LBB12_25
	; CHECK-NEXT: LBB12_26: ## %else32
	; CHECK-NEXT: testl $4096, %ecx ## imm = 0x1000
	; CHECK-NEXT: jne LBB12_27
	; CHECK-NEXT: LBB12_28: ## %else35
	; CHECK-NEXT: testl $8192, %ecx ## imm = 0x2000
	; CHECK-NEXT: jne LBB12_29
	; CHECK-NEXT: LBB12_30: ## %else38
	; CHECK-NEXT: testl $16384, %ecx ## imm = 0x4000
	; CHECK-NEXT: jne LBB12_31
	; CHECK-NEXT: LBB12_32: ## %else41
	; CHECK-NEXT: testl $32768, %ecx ## imm = 0x8000
	; CHECK-NEXT: je LBB12_34
	; CHECK-NEXT: LBB12_33: ## %cond.load43
	; CHECK-NEXT: vpinsrw $0, 30(%rsi), %xmm0, %xmm9
	; CHECK-NEXT: LBB12_34: ## %else44
	; CHECK-NEXT: vpextrw $0, %xmm8, (%rax)
	; CHECK-NEXT: vpextrw $0, %xmm2, 2(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm10, 4(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm4, 6(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm5, 8(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm6, 10(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm7, 12(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm1, 14(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm0, 16(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm3, 18(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm11, 20(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm12, 22(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm13, 24(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm14, 26(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm15, 28(%rax)
	; CHECK-NEXT: vpextrw $0, %xmm9, 30(%rax)
	; CHECK-NEXT: retq
	; CHECK-NEXT: LBB12_9: ## %cond.load7
	; CHECK-NEXT: vpinsrw $0, 6(%rsi), %xmm0, %xmm4
	; CHECK-NEXT: testb $16, %cl
	; CHECK-NEXT: je LBB12_12
	; CHECK-NEXT: LBB12_11: ## %cond.load10
	; CHECK-NEXT: vpinsrw $0, 8(%rsi), %xmm0, %xmm5
	; CHECK-NEXT: testb $32, %cl
	; CHECK-NEXT: je LBB12_14
	; CHECK-NEXT: LBB12_13: ## %cond.load13
	; CHECK-NEXT: vpinsrw $0, 10(%rsi), %xmm0, %xmm6
	; CHECK-NEXT: testb $64, %cl
	; CHECK-NEXT: je LBB12_16
	; CHECK-NEXT: LBB12_15: ## %cond.load16
	; CHECK-NEXT: vpinsrw $0, 12(%rsi), %xmm0, %xmm7
	; CHECK-NEXT: testb $-128, %cl
	; CHECK-NEXT: je LBB12_18
	; CHECK-NEXT: LBB12_17: ## %cond.load19
	; CHECK-NEXT: vpinsrw $0, 14(%rsi), %xmm0, %xmm1
	; CHECK-NEXT: testl $256, %ecx ## imm = 0x100
	; CHECK-NEXT: je LBB12_20
	; CHECK-NEXT: LBB12_19: ## %cond.load22
	; CHECK-NEXT: vpinsrw $0, 16(%rsi), %xmm0, %xmm0
	; CHECK-NEXT: testl $512, %ecx ## imm = 0x200
	; CHECK-NEXT: je LBB12_22
	; CHECK-NEXT: LBB12_21: ## %cond.load25
	; CHECK-NEXT: vpinsrw $0, 18(%rsi), %xmm0, %xmm3
	; CHECK-NEXT: testl $1024, %ecx ## imm = 0x400
	; CHECK-NEXT: je LBB12_24
	; CHECK-NEXT: LBB12_23: ## %cond.load28
	; CHECK-NEXT: vpinsrw $0, 20(%rsi), %xmm0, %xmm11
	; CHECK-NEXT: testl $2048, %ecx ## imm = 0x800
	; CHECK-NEXT: je LBB12_26
	; CHECK-NEXT: LBB12_25: ## %cond.load31
	; CHECK-NEXT: vpinsrw $0, 22(%rsi), %xmm0, %xmm12
	; CHECK-NEXT: testl $4096, %ecx ## imm = 0x1000
	; CHECK-NEXT: je LBB12_28
	; CHECK-NEXT: LBB12_27: ## %cond.load34
	; CHECK-NEXT: vpinsrw $0, 24(%rsi), %xmm0, %xmm13
	; CHECK-NEXT: testl $8192, %ecx ## imm = 0x2000
	; CHECK-NEXT: je LBB12_30
	; CHECK-NEXT: LBB12_29: ## %cond.load37
	; CHECK-NEXT: vpinsrw $0, 26(%rsi), %xmm0, %xmm14
	; CHECK-NEXT: testl $16384, %ecx ## imm = 0x4000
	; CHECK-NEXT: je LBB12_32
	; CHECK-NEXT: LBB12_31: ## %cond.load40
	; CHECK-NEXT: vpinsrw $0, 28(%rsi), %xmm0, %xmm15
	; CHECK-NEXT: testl $32768, %ecx ## imm = 0x8000
	; CHECK-NEXT: jne LBB12_33
	; CHECK-NEXT: jmp LBB12_34
	%res = call <16 x half> @llvm.masked.load.v16f16(ptr %addr, i32 4, <16 x i1>%mask, <16 x half> zeroinitializer)			%res = call <16 x half> @llvm.masked.load.v16f16(ptr %addr, i32 4, <16 x i1>%mask, <16 x half> zeroinitializer)
	ret <16 x half> %res			ret <16 x half> %res
	}			}
	declare <16 x half> @llvm.masked.load.v16f16(ptr, i32, <16 x i1>, <16 x half>)			declare <16 x half> @llvm.masked.load.v16f16(ptr, i32, <16 x i1>, <16 x half>)

	; Make sure we scalarize masked stores of f16.			; Make sure we scalarize masked stores of f16.
	define void @test_mask_store_16xf16(<16 x i1> %mask, ptr %addr, <16 x half> %val) {			define void @test_mask_store_16xf16(<16 x i1> %mask, ptr %addr, <16 x half> %val) {
	; CHECK-LABEL: test_mask_store_16xf16:			; CHECK-LABEL: test_mask_store_16xf16:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: vpsllw $7, %xmm0, %xmm0			; CHECK-NEXT: vpsllw $7, %xmm0, %xmm0
	; CHECK-NEXT: vpmovmskb %xmm0, %eax			; CHECK-NEXT: vpmovb2m %xmm0, %k1
	; CHECK-NEXT: testb $1, %al			; CHECK-NEXT: vmovdqu16 %ymm1, (%rdi) {%k1}
	; CHECK-NEXT: jne LBB13_1			; CHECK-NEXT: vzeroupper
	; CHECK-NEXT: ## %bb.2: ## %else
	; CHECK-NEXT: testb $2, %al
	; CHECK-NEXT: jne LBB13_3
	; CHECK-NEXT: LBB13_4: ## %else2
	; CHECK-NEXT: testb $4, %al
	; CHECK-NEXT: jne LBB13_5
	; CHECK-NEXT: LBB13_6: ## %else4
	; CHECK-NEXT: testb $8, %al
	; CHECK-NEXT: jne LBB13_7
	; CHECK-NEXT: LBB13_8: ## %else6
	; CHECK-NEXT: testb $16, %al
	; CHECK-NEXT: jne LBB13_9
	; CHECK-NEXT: LBB13_10: ## %else8
	; CHECK-NEXT: testb $32, %al
	; CHECK-NEXT: jne LBB13_11
	; CHECK-NEXT: LBB13_12: ## %else10
	; CHECK-NEXT: testb $64, %al
	; CHECK-NEXT: jne LBB13_13
	; CHECK-NEXT: LBB13_14: ## %else12
	; CHECK-NEXT: testb $-128, %al
	; CHECK-NEXT: jne LBB13_15
	; CHECK-NEXT: LBB13_16: ## %else14
	; CHECK-NEXT: testl $256, %eax ## imm = 0x100
	; CHECK-NEXT: jne LBB13_17
	; CHECK-NEXT: LBB13_18: ## %else16
	; CHECK-NEXT: testl $512, %eax ## imm = 0x200
	; CHECK-NEXT: jne LBB13_19
	; CHECK-NEXT: LBB13_20: ## %else18
	; CHECK-NEXT: testl $1024, %eax ## imm = 0x400
	; CHECK-NEXT: jne LBB13_21
	; CHECK-NEXT: LBB13_22: ## %else20
	; CHECK-NEXT: testl $2048, %eax ## imm = 0x800
	; CHECK-NEXT: jne LBB13_23
	; CHECK-NEXT: LBB13_24: ## %else22
	; CHECK-NEXT: testl $4096, %eax ## imm = 0x1000
	; CHECK-NEXT: jne LBB13_25
	; CHECK-NEXT: LBB13_26: ## %else24
	; CHECK-NEXT: testl $8192, %eax ## imm = 0x2000
	; CHECK-NEXT: jne LBB13_27
	; CHECK-NEXT: LBB13_28: ## %else26
	; CHECK-NEXT: testl $16384, %eax ## imm = 0x4000
	; CHECK-NEXT: jne LBB13_29
	; CHECK-NEXT: LBB13_30: ## %else28
	; CHECK-NEXT: testl $32768, %eax ## imm = 0x8000
	; CHECK-NEXT: jne LBB13_31
	; CHECK-NEXT: LBB13_32: ## %else30
	; CHECK-NEXT: retq
	; CHECK-NEXT: LBB13_1: ## %cond.store
	; CHECK-NEXT: vpextrw $0, %xmm1, (%rdi)
	; CHECK-NEXT: testb $2, %al
	; CHECK-NEXT: je LBB13_4
	; CHECK-NEXT: LBB13_3: ## %cond.store1
	; CHECK-NEXT: vpextrw $0, %xmm2, 2(%rdi)
	; CHECK-NEXT: testb $4, %al
	; CHECK-NEXT: je LBB13_6
	; CHECK-NEXT: LBB13_5: ## %cond.store3
	; CHECK-NEXT: vpextrw $0, %xmm3, 4(%rdi)
	; CHECK-NEXT: testb $8, %al
	; CHECK-NEXT: je LBB13_8
	; CHECK-NEXT: LBB13_7: ## %cond.store5
	; CHECK-NEXT: vpextrw $0, %xmm4, 6(%rdi)
	; CHECK-NEXT: testb $16, %al
	; CHECK-NEXT: je LBB13_10
	; CHECK-NEXT: LBB13_9: ## %cond.store7
	; CHECK-NEXT: vpextrw $0, %xmm5, 8(%rdi)
	; CHECK-NEXT: testb $32, %al
	; CHECK-NEXT: je LBB13_12
	; CHECK-NEXT: LBB13_11: ## %cond.store9
	; CHECK-NEXT: vpextrw $0, %xmm6, 10(%rdi)
	; CHECK-NEXT: testb $64, %al
	; CHECK-NEXT: je LBB13_14
	; CHECK-NEXT: LBB13_13: ## %cond.store11
	; CHECK-NEXT: vpextrw $0, %xmm7, 12(%rdi)
	; CHECK-NEXT: testb $-128, %al
	; CHECK-NEXT: je LBB13_16
	; CHECK-NEXT: LBB13_15: ## %cond.store13
	; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: vpextrw $0, %xmm0, 14(%rdi)
	; CHECK-NEXT: testl $256, %eax ## imm = 0x100
	; CHECK-NEXT: je LBB13_18
	; CHECK-NEXT: LBB13_17: ## %cond.store15
	; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: vpextrw $0, %xmm0, 16(%rdi)
	; CHECK-NEXT: testl $512, %eax ## imm = 0x200
	; CHECK-NEXT: je LBB13_20
	; CHECK-NEXT: LBB13_19: ## %cond.store17
	; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: vpextrw $0, %xmm0, 18(%rdi)
	; CHECK-NEXT: testl $1024, %eax ## imm = 0x400
	; CHECK-NEXT: je LBB13_22
	; CHECK-NEXT: LBB13_21: ## %cond.store19
	; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: vpextrw $0, %xmm0, 20(%rdi)
	; CHECK-NEXT: testl $2048, %eax ## imm = 0x800
	; CHECK-NEXT: je LBB13_24
	; CHECK-NEXT: LBB13_23: ## %cond.store21
	; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: vpextrw $0, %xmm0, 22(%rdi)
	; CHECK-NEXT: testl $4096, %eax ## imm = 0x1000
	; CHECK-NEXT: je LBB13_26
	; CHECK-NEXT: LBB13_25: ## %cond.store23
	; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: vpextrw $0, %xmm0, 24(%rdi)
	; CHECK-NEXT: testl $8192, %eax ## imm = 0x2000
	; CHECK-NEXT: je LBB13_28
	; CHECK-NEXT: LBB13_27: ## %cond.store25
	; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: vpextrw $0, %xmm0, 26(%rdi)
	; CHECK-NEXT: testl $16384, %eax ## imm = 0x4000
	; CHECK-NEXT: je LBB13_30
	; CHECK-NEXT: LBB13_29: ## %cond.store27
	; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: vpextrw $0, %xmm0, 28(%rdi)
	; CHECK-NEXT: testl $32768, %eax ## imm = 0x8000
	; CHECK-NEXT: je LBB13_32
	; CHECK-NEXT: LBB13_31: ## %cond.store29
	; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: vpextrw $0, %xmm0, 30(%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	call void @llvm.masked.store.v16f16.p0(<16 x half> %val, ptr %addr, i32 4, <16 x i1>%mask)			call void @llvm.masked.store.v16f16.p0(<16 x half> %val, ptr %addr, i32 4, <16 x i1>%mask)
	ret void			ret void
	}			}
	declare void @llvm.masked.store.v16f16.p0(<16 x half>, ptr, i32, <16 x i1>)			declare void @llvm.masked.store.v16f16.p0(<16 x half>, ptr, i32, <16 x i1>)

llvm/test/CodeGen/X86/avx512-vec-cmp.ll

Show First 20 Lines • Show All 1,428 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq ## encoding: [0xc3]
ret <4 x i32> %e		ret <4 x i32> %e
}		}

; This used to crash in WidenVecRes_SETCC due to generating the wrong		; This used to crash in WidenVecRes_SETCC due to generating the wrong
; result type.		; result type.
define void @half_vec_compare(ptr %x, ptr %y) {		define void @half_vec_compare(ptr %x, ptr %y) {
; KNL-LABEL: half_vec_compare:		; KNL-LABEL: half_vec_compare:
; KNL: ## %bb.0: ## %entry		; KNL: ## %bb.0: ## %entry
; KNL-NEXT: movzwl 2(%rdi), %eax ## encoding: [0x0f,0xb7,0x47,0x02]		; KNL-NEXT: vmovd (%rdi), %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0x07]
; KNL-NEXT: movzwl (%rdi), %ecx ## encoding: [0x0f,0xb7,0x0f]		; KNL-NEXT: ## xmm0 = mem[0],zero,zero,zero
; KNL-NEXT: vmovd %ecx, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc1]		; KNL-NEXT: vpsrld $16, %xmm0, %xmm1 ## encoding: [0xc5,0xf1,0x72,0xd0,0x10]
		; KNL-NEXT: vpextrw $0, %xmm1, %eax ## encoding: [0xc5,0xf9,0xc5,0xc1,0x00]
		; KNL-NEXT: movzwl %ax, %eax ## encoding: [0x0f,0xb7,0xc0]
		; KNL-NEXT: vmovd %eax, %xmm1 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc8]
		; KNL-NEXT: vcvtph2ps %xmm1, %xmm1 ## encoding: [0xc4,0xe2,0x79,0x13,0xc9]
		; KNL-NEXT: xorl %eax, %eax ## encoding: [0x31,0xc0]
		; KNL-NEXT: vxorps %xmm2, %xmm2, %xmm2 ## encoding: [0xc5,0xe8,0x57,0xd2]
		; KNL-NEXT: vucomiss %xmm2, %xmm1 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xca]
		; KNL-NEXT: movl $65535, %ecx ## encoding: [0xb9,0xff,0xff,0x00,0x00]
		; KNL-NEXT: ## imm = 0xFFFF
		; KNL-NEXT: movl $0, %edx ## encoding: [0xba,0x00,0x00,0x00,0x00]
		; KNL-NEXT: cmovnel %ecx, %edx ## encoding: [0x0f,0x45,0xd1]
		; KNL-NEXT: cmovpl %ecx, %edx ## encoding: [0x0f,0x4a,0xd1]
		; KNL-NEXT: vpextrw $0, %xmm0, %edi ## encoding: [0xc5,0xf9,0xc5,0xf8,0x00]
		; KNL-NEXT: movzwl %di, %edi ## encoding: [0x0f,0xb7,0xff]
		; KNL-NEXT: vmovd %edi, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc7]
; KNL-NEXT: vcvtph2ps %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x13,0xc0]		; KNL-NEXT: vcvtph2ps %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x13,0xc0]
; KNL-NEXT: vxorps %xmm1, %xmm1, %xmm1 ## encoding: [0xc5,0xf0,0x57,0xc9]		; KNL-NEXT: vucomiss %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xc2]
; KNL-NEXT: vucomiss %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xc1]		; KNL-NEXT: cmovnel %ecx, %eax ## encoding: [0x0f,0x45,0xc1]
; KNL-NEXT: setp %cl ## encoding: [0x0f,0x9a,0xc1]		; KNL-NEXT: cmovpl %ecx, %eax ## encoding: [0x0f,0x4a,0xc1]
; KNL-NEXT: setne %dl ## encoding: [0x0f,0x95,0xc2]
; KNL-NEXT: orb %cl, %dl ## encoding: [0x08,0xca]
; KNL-NEXT: andl $1, %edx ## encoding: [0x83,0xe2,0x01]
; KNL-NEXT: kmovw %edx, %k0 ## encoding: [0xc5,0xf8,0x92,0xc2]
; KNL-NEXT: vmovd %eax, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc0]		; KNL-NEXT: vmovd %eax, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc0]
; KNL-NEXT: vcvtph2ps %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x13,0xc0]		; KNL-NEXT: vpinsrw $1, %edx, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xc4,0xc2,0x01]
; KNL-NEXT: vucomiss %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xc1]		; KNL-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
; KNL-NEXT: setp %al ## encoding: [0x0f,0x9a,0xc0]		; KNL-NEXT: ## encoding: [0xc4,0xe2,0x79,0x00,0x05,A,A,A,A]
; KNL-NEXT: setne %cl ## encoding: [0x0f,0x95,0xc1]		; KNL-NEXT: ## fixup A - offset: 5, value: {{\.?LCPI[0-9]+_[0-9]+}}-4, kind: reloc_riprel_4byte
; KNL-NEXT: orb %al, %cl ## encoding: [0x08,0xc1]
; KNL-NEXT: kmovw %ecx, %k1 ## encoding: [0xc5,0xf8,0x92,0xc9]
; KNL-NEXT: kshiftlw $1, %k1, %k1 ## encoding: [0xc4,0xe3,0xf9,0x32,0xc9,0x01]
; KNL-NEXT: korw %k1, %k0, %k1 ## encoding: [0xc5,0xfc,0x45,0xc9]
; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z} ## encoding: [0x62,0xf3,0x7d,0xc9,0x25,0xc0,0xff]
; KNL-NEXT: vpmovdw %zmm0, %ymm0 ## encoding: [0x62,0xf2,0x7e,0x48,0x33,0xc0]
; KNL-NEXT: vpacksswb %xmm0, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0x63,0xc0]
; KNL-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xdb,0x05,A,A,A,A]		; KNL-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xdb,0x05,A,A,A,A]
; KNL-NEXT: ## fixup A - offset: 4, value: {{\.?LCPI[0-9]+_[0-9]+}}-4, kind: reloc_riprel_4byte		; KNL-NEXT: ## fixup A - offset: 4, value: {{\.?LCPI[0-9]+_[0-9]+}}-4, kind: reloc_riprel_4byte
; KNL-NEXT: vpextrw $0, %xmm0, (%rsi) ## encoding: [0xc4,0xe3,0x79,0x15,0x06,0x00]		; KNL-NEXT: vpextrw $0, %xmm0, (%rsi) ## encoding: [0xc4,0xe3,0x79,0x15,0x06,0x00]
; KNL-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]
; KNL-NEXT: retq ## encoding: [0xc3]		; KNL-NEXT: retq ## encoding: [0xc3]
;		;
; AVX512BW-LABEL: half_vec_compare:		; AVX512BW-LABEL: half_vec_compare:
; AVX512BW: ## %bb.0: ## %entry		; AVX512BW: ## %bb.0: ## %entry
; AVX512BW-NEXT: movzwl 2(%rdi), %eax ## encoding: [0x0f,0xb7,0x47,0x02]		; AVX512BW-NEXT: vmovd (%rdi), %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0x07]
; AVX512BW-NEXT: movzwl (%rdi), %ecx ## encoding: [0x0f,0xb7,0x0f]		; AVX512BW-NEXT: ## xmm0 = mem[0],zero,zero,zero
; AVX512BW-NEXT: vmovd %ecx, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc1]		; AVX512BW-NEXT: vpsrld $16, %xmm0, %xmm1 ## encoding: [0xc5,0xf1,0x72,0xd0,0x10]
		; AVX512BW-NEXT: vpextrw $0, %xmm1, %eax ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc5,0xc1,0x00]
		; AVX512BW-NEXT: movzwl %ax, %eax ## encoding: [0x0f,0xb7,0xc0]
		; AVX512BW-NEXT: vmovd %eax, %xmm1 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc8]
		; AVX512BW-NEXT: vcvtph2ps %xmm1, %xmm1 ## encoding: [0xc4,0xe2,0x79,0x13,0xc9]
		; AVX512BW-NEXT: xorl %eax, %eax ## encoding: [0x31,0xc0]
		; AVX512BW-NEXT: vxorps %xmm2, %xmm2, %xmm2 ## encoding: [0xc5,0xe8,0x57,0xd2]
		; AVX512BW-NEXT: vucomiss %xmm2, %xmm1 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xca]
		; AVX512BW-NEXT: movl $65535, %ecx ## encoding: [0xb9,0xff,0xff,0x00,0x00]
		; AVX512BW-NEXT: ## imm = 0xFFFF
		; AVX512BW-NEXT: movl $0, %edx ## encoding: [0xba,0x00,0x00,0x00,0x00]
		; AVX512BW-NEXT: cmovnel %ecx, %edx ## encoding: [0x0f,0x45,0xd1]
		; AVX512BW-NEXT: cmovpl %ecx, %edx ## encoding: [0x0f,0x4a,0xd1]
		; AVX512BW-NEXT: vpextrw $0, %xmm0, %edi ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc5,0xf8,0x00]
		; AVX512BW-NEXT: movzwl %di, %edi ## encoding: [0x0f,0xb7,0xff]
		; AVX512BW-NEXT: vmovd %edi, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc7]
; AVX512BW-NEXT: vcvtph2ps %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x13,0xc0]		; AVX512BW-NEXT: vcvtph2ps %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x13,0xc0]
; AVX512BW-NEXT: vxorps %xmm1, %xmm1, %xmm1 ## encoding: [0xc5,0xf0,0x57,0xc9]		; AVX512BW-NEXT: vucomiss %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xc2]
; AVX512BW-NEXT: vucomiss %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xc1]		; AVX512BW-NEXT: cmovnel %ecx, %eax ## encoding: [0x0f,0x45,0xc1]
; AVX512BW-NEXT: setp %cl ## encoding: [0x0f,0x9a,0xc1]		; AVX512BW-NEXT: cmovpl %ecx, %eax ## encoding: [0x0f,0x4a,0xc1]
; AVX512BW-NEXT: setne %dl ## encoding: [0x0f,0x95,0xc2]
; AVX512BW-NEXT: orb %cl, %dl ## encoding: [0x08,0xca]
; AVX512BW-NEXT: andl $1, %edx ## encoding: [0x83,0xe2,0x01]
; AVX512BW-NEXT: kmovw %edx, %k0 ## encoding: [0xc5,0xf8,0x92,0xc2]
; AVX512BW-NEXT: vmovd %eax, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc0]		; AVX512BW-NEXT: vmovd %eax, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc0]
; AVX512BW-NEXT: vcvtph2ps %xmm0, %xmm0 ## encoding: [0xc4,0xe2,0x79,0x13,0xc0]		; AVX512BW-NEXT: vpinsrw $1, %edx, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc4,0xc2,0x01]
; AVX512BW-NEXT: vucomiss %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xc1]		; AVX512BW-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,u,u,u,u,u,u,u,u,u,u,u,u,u,u]
; AVX512BW-NEXT: setp %al ## encoding: [0x0f,0x9a,0xc0]		; AVX512BW-NEXT: ## encoding: [0xc4,0xe2,0x79,0x00,0x05,A,A,A,A]
; AVX512BW-NEXT: setne %cl ## encoding: [0x0f,0x95,0xc1]		; AVX512BW-NEXT: ## fixup A - offset: 5, value: {{\.?LCPI[0-9]+_[0-9]+}}-4, kind: reloc_riprel_4byte
; AVX512BW-NEXT: orb %al, %cl ## encoding: [0x08,0xc1]
; AVX512BW-NEXT: kmovd %ecx, %k1 ## encoding: [0xc5,0xfb,0x92,0xc9]
; AVX512BW-NEXT: kshiftlw $1, %k1, %k1 ## encoding: [0xc4,0xe3,0xf9,0x32,0xc9,0x01]
; AVX512BW-NEXT: korw %k1, %k0, %k0 ## encoding: [0xc5,0xfc,0x45,0xc1]
; AVX512BW-NEXT: vpmovm2w %k0, %zmm0 ## encoding: [0x62,0xf2,0xfe,0x48,0x28,0xc0]
; AVX512BW-NEXT: vpacksswb %xmm0, %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0x63,0xc0]
; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xdb,0x05,A,A,A,A]		; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0 ## encoding: [0xc5,0xf9,0xdb,0x05,A,A,A,A]
; AVX512BW-NEXT: ## fixup A - offset: 4, value: {{\.?LCPI[0-9]+_[0-9]+}}-4, kind: reloc_riprel_4byte		; AVX512BW-NEXT: ## fixup A - offset: 4, value: {{\.?LCPI[0-9]+_[0-9]+}}-4, kind: reloc_riprel_4byte
; AVX512BW-NEXT: vpextrw $0, %xmm0, (%rsi) ## EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x15,0x06,0x00]		; AVX512BW-NEXT: vpextrw $0, %xmm0, (%rsi) ## EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x15,0x06,0x00]
; AVX512BW-NEXT: vzeroupper ## encoding: [0xc5,0xf8,0x77]
; AVX512BW-NEXT: retq ## encoding: [0xc3]		; AVX512BW-NEXT: retq ## encoding: [0xc3]
;		;
; SKX-LABEL: half_vec_compare:		; SKX-LABEL: half_vec_compare:
; SKX: ## %bb.0: ## %entry		; SKX: ## %bb.0: ## %entry
; SKX-NEXT: movzwl (%rdi), %eax ## encoding: [0x0f,0xb7,0x07]		; SKX-NEXT: vmovd (%rdi), %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0x07]
; SKX-NEXT: movzwl 2(%rdi), %ecx ## encoding: [0x0f,0xb7,0x4f,0x02]		; SKX-NEXT: ## xmm0 = mem[0],zero,zero,zero
		; SKX-NEXT: vpsrld $16, %xmm0, %xmm1 ## EVEX TO VEX Compression encoding: [0xc5,0xf1,0x72,0xd0,0x10]
		; SKX-NEXT: vpextrw $0, %xmm1, %eax ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc5,0xc1,0x00]
		; SKX-NEXT: movzwl %ax, %eax ## encoding: [0x0f,0xb7,0xc0]
		; SKX-NEXT: vmovd %eax, %xmm1 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc8]
		; SKX-NEXT: vcvtph2ps %xmm1, %xmm1 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x13,0xc9]
		; SKX-NEXT: vxorps %xmm2, %xmm2, %xmm2 ## EVEX TO VEX Compression encoding: [0xc5,0xe8,0x57,0xd2]
		; SKX-NEXT: vucomiss %xmm2, %xmm1 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xca]
		; SKX-NEXT: setp %al ## encoding: [0x0f,0x9a,0xc0]
		; SKX-NEXT: setne %cl ## encoding: [0x0f,0x95,0xc1]
		; SKX-NEXT: orb %al, %cl ## encoding: [0x08,0xc1]
		; SKX-NEXT: testb %cl, %cl ## encoding: [0x84,0xc9]
		; SKX-NEXT: setne %al ## encoding: [0x0f,0x95,0xc0]
		; SKX-NEXT: vpextrw $0, %xmm0, %ecx ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xc5,0xc8,0x00]
		; SKX-NEXT: movzwl %cx, %ecx ## encoding: [0x0f,0xb7,0xc9]
; SKX-NEXT: vmovd %ecx, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc1]		; SKX-NEXT: vmovd %ecx, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc1]
; SKX-NEXT: vcvtph2ps %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x13,0xc0]		; SKX-NEXT: vcvtph2ps %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x13,0xc0]
; SKX-NEXT: vxorps %xmm1, %xmm1, %xmm1 ## EVEX TO VEX Compression encoding: [0xc5,0xf0,0x57,0xc9]		; SKX-NEXT: vucomiss %xmm2, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xc2]
; SKX-NEXT: vucomiss %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xc1]
; SKX-NEXT: setp %cl ## encoding: [0x0f,0x9a,0xc1]		; SKX-NEXT: setp %cl ## encoding: [0x0f,0x9a,0xc1]
; SKX-NEXT: setne %dl ## encoding: [0x0f,0x95,0xc2]		; SKX-NEXT: setne %dl ## encoding: [0x0f,0x95,0xc2]
; SKX-NEXT: orb %cl, %dl ## encoding: [0x08,0xca]		; SKX-NEXT: orb %cl, %dl ## encoding: [0x08,0xca]
; SKX-NEXT: kmovd %edx, %k0 ## encoding: [0xc5,0xfb,0x92,0xc2]		; SKX-NEXT: testb %dl, %dl ## encoding: [0x84,0xd2]
; SKX-NEXT: kshiftlb $1, %k0, %k0 ## encoding: [0xc4,0xe3,0x79,0x32,0xc0,0x01]
; SKX-NEXT: vmovd %eax, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x6e,0xc0]
; SKX-NEXT: vcvtph2ps %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc4,0xe2,0x79,0x13,0xc0]
; SKX-NEXT: vucomiss %xmm1, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf8,0x2e,0xc1]
; SKX-NEXT: setp %al ## encoding: [0x0f,0x9a,0xc0]
; SKX-NEXT: setne %cl ## encoding: [0x0f,0x95,0xc1]		; SKX-NEXT: setne %cl ## encoding: [0x0f,0x95,0xc1]
; SKX-NEXT: orb %al, %cl ## encoding: [0x08,0xc1]		; SKX-NEXT: andl $1, %ecx ## encoding: [0x83,0xe1,0x01]
; SKX-NEXT: kmovd %ecx, %k1 ## encoding: [0xc5,0xfb,0x92,0xc9]		; SKX-NEXT: kmovw %ecx, %k0 ## encoding: [0xc5,0xf8,0x92,0xc1]
; SKX-NEXT: kshiftlb $7, %k1, %k1 ## encoding: [0xc4,0xe3,0x79,0x32,0xc9,0x07]		; SKX-NEXT: kmovd %eax, %k1 ## encoding: [0xc5,0xfb,0x92,0xc8]
; SKX-NEXT: kshiftrb $7, %k1, %k1 ## encoding: [0xc4,0xe3,0x79,0x30,0xc9,0x07]		; SKX-NEXT: kshiftlw $1, %k1, %k1 ## encoding: [0xc4,0xe3,0xf9,0x32,0xc9,0x01]
; SKX-NEXT: korw %k0, %k1, %k0 ## encoding: [0xc5,0xf4,0x45,0xc0]		; SKX-NEXT: korw %k1, %k0, %k1 ## encoding: [0xc5,0xfc,0x45,0xc9]
; SKX-NEXT: vpmovm2w %k0, %xmm0 ## encoding: [0x62,0xf2,0xfe,0x08,0x28,0xc0]		; SKX-NEXT: vmovdqu8 {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0 {%k1} {z} ## encoding: [0x62,0xf1,0x7f,0x89,0x6f,0x05,A,A,A,A]
; SKX-NEXT: vpacksswb %xmm0, %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0x63,0xc0]		; SKX-NEXT: ## fixup A - offset: 6, value: {{\.?LCPI[0-9]+_[0-9]+}}-4, kind: reloc_riprel_4byte
; SKX-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0 ## EVEX TO VEX Compression encoding: [0xc5,0xf9,0xdb,0x05,A,A,A,A]
; SKX-NEXT: ## fixup A - offset: 4, value: {{\.?LCPI[0-9]+_[0-9]+}}-4, kind: reloc_riprel_4byte
; SKX-NEXT: vpextrw $0, %xmm0, (%rsi) ## EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x15,0x06,0x00]		; SKX-NEXT: vpextrw $0, %xmm0, (%rsi) ## EVEX TO VEX Compression encoding: [0xc4,0xe3,0x79,0x15,0x06,0x00]
; SKX-NEXT: retq ## encoding: [0xc3]		; SKX-NEXT: retq ## encoding: [0xc3]
entry:		entry:
%0 = load <2 x half>, ptr %x		%0 = load <2 x half>, ptr %x
%1 = fcmp une <2 x half> %0, zeroinitializer		%1 = fcmp une <2 x half> %0, zeroinitializer
%2 = zext <2 x i1> %1 to <2 x i8>		%2 = zext <2 x i1> %1 to <2 x i8>
store <2 x i8> %2, ptr %y		store <2 x i8> %2, ptr %y
ret void		ret void
▲ Show 20 Lines • Show All 61 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512fp16-mov.ll

Show First 20 Lines • Show All 957 Lines • ▼ Show 20 Lines	; X86-NEXT: retl
%mask = bitcast i16 %msk to <16 x i1>		%mask = bitcast i16 %msk to <16 x i1>
%res = select <16 x i1> %mask, <16 x half> %a, <16 x half> zeroinitializer		%res = select <16 x i1> %mask, <16 x half> %a, <16 x half> zeroinitializer
ret <16 x half> %res		ret <16 x half> %res
}		}

define <8 x half> @load8f16(ptr %a) {		define <8 x half> @load8f16(ptr %a) {
; X64-LABEL: load8f16:		; X64-LABEL: load8f16:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: vmovaps (%rdi), %xmm0		; X64-NEXT: movaps (%rdi), %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
;		;
; X86-LABEL: load8f16:		; X86-LABEL: load8f16:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: vmovaps (%eax), %xmm0		; X86-NEXT: movaps (%eax), %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
%res = load <8 x half>, ptr %a		%res = load <8 x half>, ptr %a
ret <8 x half> %res		ret <8 x half> %res
}		}

define <8 x half> @load8f16mask(ptr %a, <8 x half> %b, i8 %c) {		define <8 x half> @load8f16mask(ptr %a, <8 x half> %b, i8 %c) {
; X64-LABEL: load8f16mask:		; X64-LABEL: load8f16mask:
; X64: # %bb.0:		; X64: # %bb.0:
Show All 30 Lines	; X86-NEXT: retl
%res0 = load <8 x half>, ptr %a		%res0 = load <8 x half>, ptr %a
%res = select <8 x i1> %msk, <8 x half> %res0, <8 x half> zeroinitializer		%res = select <8 x i1> %msk, <8 x half> %res0, <8 x half> zeroinitializer
ret <8 x half> %res		ret <8 x half> %res
}		}

define <8 x half> @loadu8f16(ptr %a) {		define <8 x half> @loadu8f16(ptr %a) {
; X64-LABEL: loadu8f16:		; X64-LABEL: loadu8f16:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: vmovups (%rdi), %xmm0		; X64-NEXT: movups (%rdi), %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
;		;
; X86-LABEL: loadu8f16:		; X86-LABEL: loadu8f16:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: vmovups (%eax), %xmm0		; X86-NEXT: movups (%eax), %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
%res = load <8 x half>, ptr %a, align 8		%res = load <8 x half>, ptr %a, align 8
ret <8 x half> %res		ret <8 x half> %res
}		}

define <8 x half> @loadu8f16mask(ptr %a, <8 x half> %b, i8 %c) {		define <8 x half> @loadu8f16mask(ptr %a, <8 x half> %b, i8 %c) {
; X64-LABEL: loadu8f16mask:		; X64-LABEL: loadu8f16mask:
; X64: # %bb.0:		; X64: # %bb.0:
Show All 31 Lines	; X86-NEXT: retl
%res = select <8 x i1> %msk, <8 x half> %res0, <8 x half> zeroinitializer		%res = select <8 x i1> %msk, <8 x half> %res0, <8 x half> zeroinitializer
ret <8 x half> %res		ret <8 x half> %res
}		}

define void @store8f16(<8 x half> %a) {		define void @store8f16(<8 x half> %a) {
; X64-LABEL: store8f16:		; X64-LABEL: store8f16:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: movq g8f16@GOTPCREL(%rip), %rax		; X64-NEXT: movq g8f16@GOTPCREL(%rip), %rax
; X64-NEXT: vmovaps %xmm0, (%rax)		; X64-NEXT: movaps %xmm0, (%rax)
; X64-NEXT: retq		; X64-NEXT: retq
;		;
; X86-LABEL: store8f16:		; X86-LABEL: store8f16:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: vmovaps %xmm0, g8f16		; X86-NEXT: movaps %xmm0, g8f16
; X86-NEXT: retl		; X86-NEXT: retl
store <8 x half> %a, ptr @g8f16		store <8 x half> %a, ptr @g8f16
ret void		ret void
}		}

define void @storeu8f16(<8 x half> %a) {		define void @storeu8f16(<8 x half> %a) {
; X64-LABEL: storeu8f16:		; X64-LABEL: storeu8f16:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: movq g8f16u@GOTPCREL(%rip), %rax		; X64-NEXT: movq g8f16u@GOTPCREL(%rip), %rax
; X64-NEXT: vmovups %xmm0, (%rax)		; X64-NEXT: movups %xmm0, (%rax)
; X64-NEXT: retq		; X64-NEXT: retq
;		;
; X86-LABEL: storeu8f16:		; X86-LABEL: storeu8f16:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: vmovups %xmm0, g8f16u		; X86-NEXT: movups %xmm0, g8f16u
; X86-NEXT: retl		; X86-NEXT: retl
store <8 x half> %a, ptr @g8f16u, align 8		store <8 x half> %a, ptr @g8f16u, align 8
ret void		ret void
}		}

declare void @llvm.masked.store.v8f16.p0(<8 x half>, ptr, i32, <8 x i1>)		declare void @llvm.masked.store.v8f16.p0(<8 x half>, ptr, i32, <8 x i1>)
declare <8 x half> @llvm.masked.load.v8f16.p0(ptr, i32, <8 x i1>, <8 x half>)		declare <8 x half> @llvm.masked.load.v8f16.p0(ptr, i32, <8 x i1>, <8 x half>)

▲ Show 20 Lines • Show All 959 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512fp16-unsafe-fp-math.ll

	Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	define <8 x half> @test_max_v8f16(ptr %a_ptr, <8 x half> %b) {			define <8 x half> @test_max_v8f16(ptr %a_ptr, <8 x half> %b) {
	; CHECK_UNSAFE-LABEL: test_max_v8f16:			; CHECK_UNSAFE-LABEL: test_max_v8f16:
	; CHECK_UNSAFE: # %bb.0:			; CHECK_UNSAFE: # %bb.0:
	; CHECK_UNSAFE-NEXT: vmaxph (%rdi), %xmm0, %xmm0			; CHECK_UNSAFE-NEXT: vmaxph (%rdi), %xmm0, %xmm0
	; CHECK_UNSAFE-NEXT: retq			; CHECK_UNSAFE-NEXT: retq
	;			;
	; CHECK-LABEL: test_max_v8f16:			; CHECK-LABEL: test_max_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovaps (%rdi), %xmm1			; CHECK-NEXT: movaps (%rdi), %xmm1
	; CHECK-NEXT: vmaxph %xmm0, %xmm1, %xmm0			; CHECK-NEXT: vmaxph %xmm0, %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%a = load <8 x half>, ptr %a_ptr			%a = load <8 x half>, ptr %a_ptr
	%tmp = fcmp fast ogt <8 x half> %a, %b			%tmp = fcmp fast ogt <8 x half> %a, %b
	%tmp4 = select <8 x i1> %tmp, <8 x half> %a, <8 x half> %b			%tmp4 = select <8 x i1> %tmp, <8 x half> %a, <8 x half> %b
	ret <8 x half> %tmp4;			ret <8 x half> %tmp4;
	}			}

	define <8 x half> @test_min_v8f16(ptr %a_ptr, <8 x half> %b) {			define <8 x half> @test_min_v8f16(ptr %a_ptr, <8 x half> %b) {
	; CHECK_UNSAFE-LABEL: test_min_v8f16:			; CHECK_UNSAFE-LABEL: test_min_v8f16:
	; CHECK_UNSAFE: # %bb.0:			; CHECK_UNSAFE: # %bb.0:
	; CHECK_UNSAFE-NEXT: vminph (%rdi), %xmm0, %xmm0			; CHECK_UNSAFE-NEXT: vminph (%rdi), %xmm0, %xmm0
	; CHECK_UNSAFE-NEXT: retq			; CHECK_UNSAFE-NEXT: retq
	;			;
	; CHECK-LABEL: test_min_v8f16:			; CHECK-LABEL: test_min_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovaps (%rdi), %xmm1			; CHECK-NEXT: movaps (%rdi), %xmm1
	; CHECK-NEXT: vminph %xmm0, %xmm1, %xmm0			; CHECK-NEXT: vminph %xmm0, %xmm1, %xmm0
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%a = load <8 x half>, ptr %a_ptr			%a = load <8 x half>, ptr %a_ptr
	%tmp = fcmp fast olt <8 x half> %a, %b			%tmp = fcmp fast olt <8 x half> %a, %b
	%tmp4 = select <8 x i1> %tmp, <8 x half> %a, <8 x half> %b			%tmp4 = select <8 x i1> %tmp, <8 x half> %a, <8 x half> %b
	ret <8 x half> %tmp4;			ret <8 x half> %tmp4;
	}			}

	Show All 35 Lines

llvm/test/CodeGen/X86/fpclamptosat_vec.ll

Show First 20 Lines • Show All 388 Lines • ▼ Show 20 Lines	entry:
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @stest_f16i32(<4 x half> %x) {		define <4 x i32> @stest_f16i32(<4 x half> %x) {
; CHECK-LABEL: stest_f16i32:		; CHECK-LABEL: stest_f16i32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $72, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 80		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, %xmm1
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: psrld $16, %xmm1
; CHECK-NEXT: movaps %xmm3, %xmm0		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa %xmm0, %xmm1
		; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
		; CHECK-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm3		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload		; CHECK-NEXT: movdqa (%rsp), %xmm3 # 16-byte Reload
; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm8 = [2147483647,2147483647]		; CHECK-NEXT: movdqa {{.*#+}} xmm8 = [2147483647,2147483647]
; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm3, %xmm1		; CHECK-NEXT: movdqa %xmm3, %xmm1
		; CHECK-NEXT: movdqa %xmm3, %xmm2
; CHECK-NEXT: pxor %xmm0, %xmm1		; CHECK-NEXT: pxor %xmm0, %xmm1
; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; CHECK-NEXT: pxor %xmm5, %xmm5		; CHECK-NEXT: pxor %xmm4, %xmm4
; CHECK-NEXT: pcmpeqd %xmm5, %xmm4		; CHECK-NEXT: pcmpeqd %xmm4, %xmm3
; CHECK-NEXT: movdqa {{.*#+}} xmm6 = [4294967295,4294967295]		; CHECK-NEXT: movdqa {{.*#+}} xmm5 = [4294967295,4294967295]
; CHECK-NEXT: movdqa %xmm6, %xmm7		; CHECK-NEXT: movdqa %xmm5, %xmm6
; CHECK-NEXT: pcmpgtd %xmm1, %xmm7		; CHECK-NEXT: pcmpgtd %xmm1, %xmm6
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm7[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
; CHECK-NEXT: pand %xmm4, %xmm2		; CHECK-NEXT: pand %xmm3, %xmm7
; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm7[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm6[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm1		; CHECK-NEXT: por %xmm7, %xmm1
; CHECK-NEXT: pand %xmm1, %xmm3		; CHECK-NEXT: pand %xmm1, %xmm2
; CHECK-NEXT: pandn %xmm8, %xmm1		; CHECK-NEXT: pandn %xmm8, %xmm1
; CHECK-NEXT: por %xmm3, %xmm1		; CHECK-NEXT: por %xmm2, %xmm1
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm4 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 16-byte Reload
; CHECK-NEXT: movdqa %xmm4, %xmm2		; CHECK-NEXT: movdqa %xmm7, %xmm3
; CHECK-NEXT: pxor %xmm0, %xmm2		; CHECK-NEXT: pxor %xmm0, %xmm3
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm3[1,1,3,3]
; CHECK-NEXT: pcmpeqd %xmm5, %xmm3		; CHECK-NEXT: pcmpeqd %xmm4, %xmm6
; CHECK-NEXT: pcmpgtd %xmm2, %xmm6		; CHECK-NEXT: pcmpgtd %xmm3, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm6[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm5[0,0,2,2]
; CHECK-NEXT: pand %xmm3, %xmm2		; CHECK-NEXT: pand %xmm6, %xmm3
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm6[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm3		; CHECK-NEXT: por %xmm3, %xmm4
; CHECK-NEXT: movdqa %xmm4, %xmm2		; CHECK-NEXT: movdqa %xmm7, %xmm3
; CHECK-NEXT: pand %xmm3, %xmm2		; CHECK-NEXT: pand %xmm4, %xmm3
; CHECK-NEXT: pandn %xmm8, %xmm3		; CHECK-NEXT: pandn %xmm8, %xmm4
; CHECK-NEXT: por %xmm2, %xmm3		; CHECK-NEXT: por %xmm3, %xmm4
; CHECK-NEXT: movdqa {{.*#+}} xmm8 = [18446744071562067968,18446744071562067968]		; CHECK-NEXT: movdqa {{.*#+}} xmm8 = [18446744071562067968,18446744071562067968]
; CHECK-NEXT: movdqa %xmm3, %xmm4		; CHECK-NEXT: movdqa %xmm4, %xmm3
; CHECK-NEXT: pxor %xmm0, %xmm4		; CHECK-NEXT: pxor %xmm0, %xmm3
; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm4[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm3[1,1,3,3]
; CHECK-NEXT: pcmpeqd %xmm6, %xmm6		; CHECK-NEXT: pcmpeqd %xmm6, %xmm6
; CHECK-NEXT: pcmpeqd %xmm6, %xmm5		; CHECK-NEXT: pcmpeqd %xmm6, %xmm5
; CHECK-NEXT: movdqa {{.*#+}} xmm7 = [18446744069414584320,18446744069414584320]		; CHECK-NEXT: movdqa {{.*#+}} xmm7 = [18446744069414584320,18446744069414584320]
; CHECK-NEXT: pcmpgtd %xmm7, %xmm4		; CHECK-NEXT: pcmpgtd %xmm7, %xmm3
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm4[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm3[0,0,2,2]
; CHECK-NEXT: pand %xmm5, %xmm2		; CHECK-NEXT: pand %xmm5, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm4		; CHECK-NEXT: por %xmm2, %xmm3
; CHECK-NEXT: pand %xmm4, %xmm3		; CHECK-NEXT: pand %xmm3, %xmm4
; CHECK-NEXT: pandn %xmm8, %xmm4		; CHECK-NEXT: pandn %xmm8, %xmm3
; CHECK-NEXT: por %xmm3, %xmm4		; CHECK-NEXT: por %xmm4, %xmm3
; CHECK-NEXT: pxor %xmm1, %xmm0		; CHECK-NEXT: pxor %xmm1, %xmm0
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm0[1,1,3,3]
; CHECK-NEXT: pcmpeqd %xmm6, %xmm2		; CHECK-NEXT: pcmpeqd %xmm6, %xmm2
; CHECK-NEXT: pcmpgtd %xmm7, %xmm0		; CHECK-NEXT: pcmpgtd %xmm7, %xmm0
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm0[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm0[0,0,2,2]
; CHECK-NEXT: pand %xmm2, %xmm3		; CHECK-NEXT: pand %xmm2, %xmm4
; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; CHECK-NEXT: por %xmm3, %xmm0		; CHECK-NEXT: por %xmm4, %xmm0
; CHECK-NEXT: pand %xmm0, %xmm1		; CHECK-NEXT: pand %xmm0, %xmm1
; CHECK-NEXT: pandn %xmm8, %xmm0		; CHECK-NEXT: pandn %xmm8, %xmm0
; CHECK-NEXT: por %xmm1, %xmm0		; CHECK-NEXT: por %xmm1, %xmm0
; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]
; CHECK-NEXT: addq $72, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <4 x half> %x to <4 x i64>		%conv = fptosi <4 x half> %x to <4 x i64>
%0 = icmp slt <4 x i64> %conv, <i64 2147483647, i64 2147483647, i64 2147483647, i64 2147483647>		%0 = icmp slt <4 x i64> %conv, <i64 2147483647, i64 2147483647, i64 2147483647, i64 2147483647>
%spec.store.select = select <4 x i1> %0, <4 x i64> %conv, <4 x i64> <i64 2147483647, i64 2147483647, i64 2147483647, i64 2147483647>		%spec.store.select = select <4 x i1> %0, <4 x i64> %conv, <4 x i64> <i64 2147483647, i64 2147483647, i64 2147483647, i64 2147483647>
%1 = icmp sgt <4 x i64> %spec.store.select, <i64 -2147483648, i64 -2147483648, i64 -2147483648, i64 -2147483648>		%1 = icmp sgt <4 x i64> %spec.store.select, <i64 -2147483648, i64 -2147483648, i64 -2147483648, i64 -2147483648>
%spec.store.select7 = select <4 x i1> %1, <4 x i64> %spec.store.select, <4 x i64> <i64 -2147483648, i64 -2147483648, i64 -2147483648, i64 -2147483648>		%spec.store.select7 = select <4 x i1> %1, <4 x i64> %spec.store.select, <4 x i64> <i64 -2147483648, i64 -2147483648, i64 -2147483648, i64 -2147483648>
%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>		%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @utesth_f16i32(<4 x half> %x) {		define <4 x i32> @utesth_f16i32(<4 x half> %x) {
; CHECK-LABEL: utesth_f16i32:		; CHECK-LABEL: utesth_f16i32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $72, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 80		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm0, %xmm1
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps %xmm1, %xmm0		; CHECK-NEXT: movaps %xmm0, %xmm1
		; CHECK-NEXT: psrlq $48, %xmm1
		; CHECK-NEXT: movdqa %xmm1, (%rsp) # 16-byte Spill
		; CHECK-NEXT: movaps %xmm0, %xmm1
		; CHECK-NEXT: psrld $16, %xmm1
		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [4294967295,4294967295]		; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [4294967295,4294967295]
; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]		; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [9223372039002259456,9223372039002259456]
; CHECK-NEXT: movdqa %xmm0, %xmm3		; CHECK-NEXT: movdqa %xmm0, %xmm3
; CHECK-NEXT: pxor %xmm2, %xmm3		; CHECK-NEXT: pxor %xmm2, %xmm3
; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
; CHECK-NEXT: pcmpeqd %xmm2, %xmm4		; CHECK-NEXT: pcmpeqd %xmm2, %xmm4
; CHECK-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259455,9223372039002259455]		; CHECK-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259455,9223372039002259455]
Show All 32 Lines	entry:
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @ustest_f16i32(<4 x half> %x) {		define <4 x i32> @ustest_f16i32(<4 x half> %x) {
; CHECK-LABEL: ustest_f16i32:		; CHECK-LABEL: ustest_f16i32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $72, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 80		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, %xmm1
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: psrld $16, %xmm1
; CHECK-NEXT: movaps %xmm3, %xmm0		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa %xmm0, %xmm1
		; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
		; CHECK-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm3		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload		; CHECK-NEXT: movdqa (%rsp), %xmm3 # 16-byte Reload
; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm0[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm8 = [4294967295,4294967295]		; CHECK-NEXT: movdqa {{.*#+}} xmm8 = [4294967295,4294967295]
; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm3, %xmm1		; CHECK-NEXT: movdqa %xmm3, %xmm1
		; CHECK-NEXT: movdqa %xmm3, %xmm2
; CHECK-NEXT: pxor %xmm0, %xmm1		; CHECK-NEXT: pxor %xmm0, %xmm1
; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm1[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]
; CHECK-NEXT: pxor %xmm5, %xmm5		; CHECK-NEXT: pxor %xmm4, %xmm4
; CHECK-NEXT: pcmpeqd %xmm5, %xmm4		; CHECK-NEXT: pcmpeqd %xmm4, %xmm3
; CHECK-NEXT: movdqa {{.*#+}} xmm6 = [2147483647,2147483647]		; CHECK-NEXT: movdqa {{.*#+}} xmm5 = [2147483647,2147483647]
; CHECK-NEXT: movdqa %xmm6, %xmm7		; CHECK-NEXT: movdqa %xmm5, %xmm6
; CHECK-NEXT: pcmpgtd %xmm1, %xmm7		; CHECK-NEXT: pcmpgtd %xmm1, %xmm6
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm7[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]
; CHECK-NEXT: pand %xmm4, %xmm2		; CHECK-NEXT: pand %xmm3, %xmm7
; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm7[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm6[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm1		; CHECK-NEXT: por %xmm7, %xmm1
; CHECK-NEXT: pand %xmm1, %xmm3		; CHECK-NEXT: pand %xmm1, %xmm2
; CHECK-NEXT: pandn %xmm8, %xmm1		; CHECK-NEXT: pandn %xmm8, %xmm1
; CHECK-NEXT: por %xmm3, %xmm1		; CHECK-NEXT: por %xmm2, %xmm1
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm4 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 16-byte Reload
		; CHECK-NEXT: movdqa %xmm7, %xmm3
		; CHECK-NEXT: pxor %xmm0, %xmm3
		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm3[1,1,3,3]
		; CHECK-NEXT: pcmpeqd %xmm4, %xmm6
		; CHECK-NEXT: pcmpgtd %xmm3, %xmm5
		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm5[0,0,2,2]
		; CHECK-NEXT: pand %xmm6, %xmm3
		; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]
		; CHECK-NEXT: por %xmm3, %xmm4
		; CHECK-NEXT: movdqa %xmm7, %xmm3
		; CHECK-NEXT: pand %xmm4, %xmm3
		; CHECK-NEXT: pandn %xmm8, %xmm4
		; CHECK-NEXT: por %xmm3, %xmm4
; CHECK-NEXT: movdqa %xmm4, %xmm2		; CHECK-NEXT: movdqa %xmm4, %xmm2
; CHECK-NEXT: pxor %xmm0, %xmm2		; CHECK-NEXT: pxor %xmm0, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; CHECK-NEXT: movdqa %xmm2, %xmm3
; CHECK-NEXT: pcmpeqd %xmm5, %xmm3		; CHECK-NEXT: pcmpgtd %xmm0, %xmm3
; CHECK-NEXT: pcmpgtd %xmm2, %xmm6		; CHECK-NEXT: pcmpeqd %xmm0, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm6[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-NEXT: pand %xmm3, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm6[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm3
; CHECK-NEXT: movdqa %xmm4, %xmm2
; CHECK-NEXT: pand %xmm3, %xmm2		; CHECK-NEXT: pand %xmm3, %xmm2
; CHECK-NEXT: pandn %xmm8, %xmm3		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm3		; CHECK-NEXT: por %xmm2, %xmm3
; CHECK-NEXT: movdqa %xmm3, %xmm2		; CHECK-NEXT: pand %xmm4, %xmm3
		; CHECK-NEXT: movdqa %xmm1, %xmm2
; CHECK-NEXT: pxor %xmm0, %xmm2		; CHECK-NEXT: pxor %xmm0, %xmm2
; CHECK-NEXT: movdqa %xmm2, %xmm4		; CHECK-NEXT: movdqa %xmm2, %xmm4
; CHECK-NEXT: pcmpgtd %xmm0, %xmm4		; CHECK-NEXT: pcmpgtd %xmm0, %xmm4
; CHECK-NEXT: pcmpeqd %xmm0, %xmm2		; CHECK-NEXT: pcmpeqd %xmm0, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-NEXT: pand %xmm4, %xmm2		; CHECK-NEXT: pand %xmm4, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm4
; CHECK-NEXT: pand %xmm3, %xmm4
; CHECK-NEXT: movdqa %xmm1, %xmm2
; CHECK-NEXT: pxor %xmm0, %xmm2
; CHECK-NEXT: movdqa %xmm2, %xmm3
; CHECK-NEXT: pcmpgtd %xmm0, %xmm3
; CHECK-NEXT: pcmpeqd %xmm0, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-NEXT: pand %xmm3, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm0		; CHECK-NEXT: por %xmm2, %xmm0
; CHECK-NEXT: pand %xmm1, %xmm0		; CHECK-NEXT: pand %xmm1, %xmm0
; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]
; CHECK-NEXT: addq $72, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <4 x half> %x to <4 x i64>		%conv = fptosi <4 x half> %x to <4 x i64>
%0 = icmp slt <4 x i64> %conv, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>		%0 = icmp slt <4 x i64> %conv, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>
%spec.store.select = select <4 x i1> %0, <4 x i64> %conv, <4 x i64> <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>		%spec.store.select = select <4 x i1> %0, <4 x i64> %conv, <4 x i64> <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>
%1 = icmp sgt <4 x i64> %spec.store.select, zeroinitializer		%1 = icmp sgt <4 x i64> %spec.store.select, zeroinitializer
▲ Show 20 Lines • Show All 156 Lines • ▼ Show 20 Lines	entry:
%spec.store.select7 = select <4 x i1> %1, <4 x i32> %spec.store.select, <4 x i32> zeroinitializer		%spec.store.select7 = select <4 x i1> %1, <4 x i32> %spec.store.select, <4 x i32> zeroinitializer
%conv6 = trunc <4 x i32> %spec.store.select7 to <4 x i16>		%conv6 = trunc <4 x i32> %spec.store.select7 to <4 x i16>
ret <4 x i16> %conv6		ret <4 x i16> %conv6
}		}

define <8 x i16> @stest_f16i16(<8 x half> %x) {		define <8 x i16> @stest_f16i16(<8 x half> %x) {
; CHECK-LABEL: stest_f16i16:		; CHECK-LABEL: stest_f16i16:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $136, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 144		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps %xmm7, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm1
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: packssdw {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: packssdw {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: addq $136, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <8 x half> %x to <8 x i32>		%conv = fptosi <8 x half> %x to <8 x i32>
%0 = icmp slt <8 x i32> %conv, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>		%0 = icmp slt <8 x i32> %conv, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>		%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
%1 = icmp sgt <8 x i32> %spec.store.select, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>		%1 = icmp sgt <8 x i32> %spec.store.select, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
%spec.store.select7 = select <8 x i1> %1, <8 x i32> %spec.store.select, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>		%spec.store.select7 = select <8 x i1> %1, <8 x i32> %spec.store.select, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>		%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>
ret <8 x i16> %conv6		ret <8 x i16> %conv6
}		}

define <8 x i16> @utesth_f16i16(<8 x half> %x) {		define <8 x i16> @utesth_f16i16(<8 x half> %x) {
; CHECK-LABEL: utesth_f16i16:		; CHECK-LABEL: utesth_f16i16:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $136, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 144		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps %xmm7, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm1		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm4 # 16-byte Reload
; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]		; CHECK-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm0[0],xmm4[1],xmm0[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm4 # 16-byte Folded Reload
; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]		; CHECK-NEXT: # xmm4 = xmm4[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [2147483648,2147483648,2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm1, %xmm3		; CHECK-NEXT: movdqa %xmm4, %xmm2
; CHECK-NEXT: pxor %xmm2, %xmm3
; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [2147549183,2147549183,2147549183,2147549183]
; CHECK-NEXT: movdqa %xmm4, %xmm0
; CHECK-NEXT: pcmpgtd %xmm3, %xmm0
; CHECK-NEXT: pand %xmm0, %xmm1
; CHECK-NEXT: pcmpeqd %xmm3, %xmm3
; CHECK-NEXT: pxor %xmm3, %xmm0
; CHECK-NEXT: por %xmm1, %xmm0
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: pxor %xmm1, %xmm2		; CHECK-NEXT: pxor %xmm1, %xmm2
; CHECK-NEXT: pcmpgtd %xmm2, %xmm4		; CHECK-NEXT: movdqa {{.*#+}} xmm3 = [2147549183,2147549183,2147549183,2147549183]
; CHECK-NEXT: pand %xmm4, %xmm1		; CHECK-NEXT: movdqa %xmm3, %xmm0
; CHECK-NEXT: pxor %xmm3, %xmm4		; CHECK-NEXT: pcmpgtd %xmm2, %xmm0
; CHECK-NEXT: por %xmm1, %xmm4		; CHECK-NEXT: pand %xmm0, %xmm4
; CHECK-NEXT: pslld $16, %xmm4		; CHECK-NEXT: pcmpeqd %xmm2, %xmm2
; CHECK-NEXT: psrad $16, %xmm4		; CHECK-NEXT: pxor %xmm2, %xmm0
		; CHECK-NEXT: por %xmm4, %xmm0
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm4 # 16-byte Reload
		; CHECK-NEXT: pxor %xmm4, %xmm1
		; CHECK-NEXT: pcmpgtd %xmm1, %xmm3
		; CHECK-NEXT: pand %xmm3, %xmm4
		; CHECK-NEXT: pxor %xmm2, %xmm3
		; CHECK-NEXT: por %xmm4, %xmm3
		; CHECK-NEXT: pslld $16, %xmm3
		; CHECK-NEXT: psrad $16, %xmm3
; CHECK-NEXT: pslld $16, %xmm0		; CHECK-NEXT: pslld $16, %xmm0
; CHECK-NEXT: psrad $16, %xmm0		; CHECK-NEXT: psrad $16, %xmm0
; CHECK-NEXT: packssdw %xmm4, %xmm0		; CHECK-NEXT: packssdw %xmm3, %xmm0
; CHECK-NEXT: addq $136, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui <8 x half> %x to <8 x i32>		%conv = fptoui <8 x half> %x to <8 x i32>
%0 = icmp ult <8 x i32> %conv, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>		%0 = icmp ult <8 x i32> %conv, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>		%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
%conv6 = trunc <8 x i32> %spec.store.select to <8 x i16>		%conv6 = trunc <8 x i32> %spec.store.select to <8 x i16>
ret <8 x i16> %conv6		ret <8 x i16> %conv6
}		}

define <8 x i16> @ustest_f16i16(<8 x half> %x) {		define <8 x i16> @ustest_f16i16(<8 x half> %x) {
; CHECK-LABEL: ustest_f16i16:		; CHECK-LABEL: ustest_f16i16:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $136, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 144		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps %xmm3, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [65535,65535,65535,65535]		; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [65535,65535,65535,65535]
Show All 15 Lines
; CHECK-NEXT: movdqa %xmm2, %xmm3		; CHECK-NEXT: movdqa %xmm2, %xmm3
; CHECK-NEXT: pcmpgtd %xmm1, %xmm3		; CHECK-NEXT: pcmpgtd %xmm1, %xmm3
; CHECK-NEXT: pand %xmm2, %xmm3		; CHECK-NEXT: pand %xmm2, %xmm3
; CHECK-NEXT: pslld $16, %xmm3		; CHECK-NEXT: pslld $16, %xmm3
; CHECK-NEXT: psrad $16, %xmm3		; CHECK-NEXT: psrad $16, %xmm3
; CHECK-NEXT: pslld $16, %xmm0		; CHECK-NEXT: pslld $16, %xmm0
; CHECK-NEXT: psrad $16, %xmm0		; CHECK-NEXT: psrad $16, %xmm0
; CHECK-NEXT: packssdw %xmm3, %xmm0		; CHECK-NEXT: packssdw %xmm3, %xmm0
; CHECK-NEXT: addq $136, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <8 x half> %x to <8 x i32>		%conv = fptosi <8 x half> %x to <8 x i32>
%0 = icmp slt <8 x i32> %conv, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>		%0 = icmp slt <8 x i32> %conv, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>		%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
%1 = icmp sgt <8 x i32> %spec.store.select, zeroinitializer		%1 = icmp sgt <8 x i32> %spec.store.select, zeroinitializer
%spec.store.select7 = select <8 x i1> %1, <8 x i32> %spec.store.select, <8 x i32> zeroinitializer		%spec.store.select7 = select <8 x i1> %1, <8 x i32> %spec.store.select, <8 x i32> zeroinitializer
▲ Show 20 Lines • Show All 317 Lines • ▼ Show 20 Lines

define <2 x i64> @stest_f16i64(<2 x half> %x) {		define <2 x i64> @stest_f16i64(<2 x half> %x) {
; CHECK-LABEL: stest_f16i64:		; CHECK-LABEL: stest_f16i64:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: subq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: .cfi_offset %rbx, -24		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -16		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __fixhfti@PLT		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: movq %rax, %r14		; CHECK-NEXT: movq %rax, %r14
; CHECK-NEXT: movq %rdx, %rbx		; CHECK-NEXT: movq %rdx, %rbx
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __fixhfti@PLT		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: movabsq $9223372036854775807, %rsi # imm = 0x7FFFFFFFFFFFFFFF		; CHECK-NEXT: movabsq $9223372036854775807, %rsi # imm = 0x7FFFFFFFFFFFFFFF
; CHECK-NEXT: cmpq %rsi, %rax		; CHECK-NEXT: cmpq %rsi, %rax
; CHECK-NEXT: movq %rdx, %rdi		; CHECK-NEXT: movq %rdx, %rdi
; CHECK-NEXT: sbbq $0, %rdi		; CHECK-NEXT: sbbq $0, %rdi
; CHECK-NEXT: cmovgeq %rcx, %rdx		; CHECK-NEXT: cmovgeq %rcx, %rdx
; CHECK-NEXT: cmovgeq %rsi, %rax		; CHECK-NEXT: cmovgeq %rsi, %rax
; CHECK-NEXT: cmpq %rsi, %r14		; CHECK-NEXT: cmpq %rsi, %r14
; CHECK-NEXT: movq %rbx, %rdi		; CHECK-NEXT: movq %rbx, %rdi
; CHECK-NEXT: sbbq $0, %rdi		; CHECK-NEXT: sbbq $0, %rdi
; CHECK-NEXT: cmovlq %rbx, %rcx		; CHECK-NEXT: cmovlq %rbx, %rcx
; CHECK-NEXT: cmovlq %r14, %rsi		; CHECK-NEXT: cmovlq %r14, %rsi
; CHECK-NEXT: movabsq $-9223372036854775808, %r8 # imm = 0x8000000000000000		; CHECK-NEXT: movabsq $-9223372036854775808, %r8 # imm = 0x8000000000000000
; CHECK-NEXT: cmpq %rsi, %r8		; CHECK-NEXT: cmpq %rsi, %r8
; CHECK-NEXT: movq $-1, %rbx		; CHECK-NEXT: movq $-1, %rbx
; CHECK-NEXT: movq $-1, %rdi		; CHECK-NEXT: movq $-1, %rdi
; CHECK-NEXT: sbbq %rcx, %rdi		; CHECK-NEXT: sbbq %rcx, %rdi
; CHECK-NEXT: cmovgeq %r8, %rsi		; CHECK-NEXT: cmovgeq %r8, %rsi
; CHECK-NEXT: cmpq %rax, %r8		; CHECK-NEXT: cmpq %rax, %r8
; CHECK-NEXT: sbbq %rdx, %rbx		; CHECK-NEXT: sbbq %rdx, %rbx
; CHECK-NEXT: cmovgeq %r8, %rax		; CHECK-NEXT: cmovgeq %r8, %rax
; CHECK-NEXT: movq %rax, %xmm1		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movq %rsi, %xmm0		; CHECK-NEXT: movq %rsi, %xmm1
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: addq $8, %rsp		; CHECK-NEXT: addq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <2 x half> %x to <2 x i128>		%conv = fptosi <2 x half> %x to <2 x i128>
%0 = icmp slt <2 x i128> %conv, <i128 9223372036854775807, i128 9223372036854775807>		%0 = icmp slt <2 x i128> %conv, <i128 9223372036854775807, i128 9223372036854775807>
%spec.store.select = select <2 x i1> %0, <2 x i128> %conv, <2 x i128> <i128 9223372036854775807, i128 9223372036854775807>		%spec.store.select = select <2 x i1> %0, <2 x i128> %conv, <2 x i128> <i128 9223372036854775807, i128 9223372036854775807>
%1 = icmp sgt <2 x i128> %spec.store.select, <i128 -9223372036854775808, i128 -9223372036854775808>		%1 = icmp sgt <2 x i128> %spec.store.select, <i128 -9223372036854775808, i128 -9223372036854775808>
%spec.store.select7 = select <2 x i1> %1, <2 x i128> %spec.store.select, <2 x i128> <i128 -9223372036854775808, i128 -9223372036854775808>		%spec.store.select7 = select <2 x i1> %1, <2 x i128> %spec.store.select, <2 x i128> <i128 -9223372036854775808, i128 -9223372036854775808>
%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>		%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>
ret <2 x i64> %conv6		ret <2 x i64> %conv6
}		}

define <2 x i64> @utesth_f16i64(<2 x half> %x) {		define <2 x i64> @utesth_f16i64(<2 x half> %x) {
; CHECK-LABEL: utesth_f16i64:		; CHECK-LABEL: utesth_f16i64:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: subq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: .cfi_offset %rbx, -24		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -16		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, %xmm1
; CHECK-NEXT: movaps %xmm1, %xmm0		; CHECK-NEXT: psrld $16, %xmm1
		; CHECK-NEXT: movdqa %xmm1, (%rsp) # 16-byte Spill
; CHECK-NEXT: callq __fixunshfti@PLT		; CHECK-NEXT: callq __fixunshfti@PLT
; CHECK-NEXT: movq %rax, %rbx		; CHECK-NEXT: movq %rax, %rbx
; CHECK-NEXT: movq %rdx, %r14		; CHECK-NEXT: movq %rdx, %r14
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __fixunshfti@PLT		; CHECK-NEXT: callq __fixunshfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: cmovneq %rcx, %rax		; CHECK-NEXT: cmovneq %rcx, %rax
; CHECK-NEXT: testq %r14, %r14		; CHECK-NEXT: testq %r14, %r14
; CHECK-NEXT: cmovneq %rcx, %rbx		; CHECK-NEXT: cmovneq %rcx, %rbx
; CHECK-NEXT: movq %rbx, %xmm1		; CHECK-NEXT: movq %rbx, %xmm0
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm1
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: addq $8, %rsp		; CHECK-NEXT: addq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui <2 x half> %x to <2 x i128>		%conv = fptoui <2 x half> %x to <2 x i128>
%0 = icmp ult <2 x i128> %conv, <i128 18446744073709551616, i128 18446744073709551616>		%0 = icmp ult <2 x i128> %conv, <i128 18446744073709551616, i128 18446744073709551616>
%spec.store.select = select <2 x i1> %0, <2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>		%spec.store.select = select <2 x i1> %0, <2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>
%conv6 = trunc <2 x i128> %spec.store.select to <2 x i64>		%conv6 = trunc <2 x i128> %spec.store.select to <2 x i64>
ret <2 x i64> %conv6		ret <2 x i64> %conv6
}		}

define <2 x i64> @ustest_f16i64(<2 x half> %x) {		define <2 x i64> @ustest_f16i64(<2 x half> %x) {
; CHECK-LABEL: ustest_f16i64:		; CHECK-LABEL: ustest_f16i64:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: subq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: .cfi_offset %rbx, -24		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -16		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __fixhfti@PLT		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: movq %rax, %rbx		; CHECK-NEXT: movq %rax, %rbx
; CHECK-NEXT: movq %rdx, %r14		; CHECK-NEXT: movq %rdx, %r14
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __fixhfti@PLT		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: movl $1, %esi		; CHECK-NEXT: movl $1, %esi
; CHECK-NEXT: cmovgq %rsi, %rdx		; CHECK-NEXT: cmovgq %rsi, %rdx
; CHECK-NEXT: cmovgq %rcx, %rax		; CHECK-NEXT: cmovgq %rcx, %rax
; CHECK-NEXT: testq %r14, %r14		; CHECK-NEXT: testq %r14, %r14
; CHECK-NEXT: cmovleq %r14, %rsi		; CHECK-NEXT: cmovleq %r14, %rsi
; CHECK-NEXT: cmovgq %rcx, %rbx		; CHECK-NEXT: cmovgq %rcx, %rbx
; CHECK-NEXT: movq %rbx, %rdi		; CHECK-NEXT: movq %rbx, %rdi
; CHECK-NEXT: negq %rdi		; CHECK-NEXT: negq %rdi
; CHECK-NEXT: movl $0, %edi		; CHECK-NEXT: movl $0, %edi
; CHECK-NEXT: sbbq %rsi, %rdi		; CHECK-NEXT: sbbq %rsi, %rdi
; CHECK-NEXT: cmovgeq %rcx, %rbx		; CHECK-NEXT: cmovgeq %rcx, %rbx
; CHECK-NEXT: movq %rax, %rsi		; CHECK-NEXT: movq %rax, %rsi
; CHECK-NEXT: negq %rsi		; CHECK-NEXT: negq %rsi
; CHECK-NEXT: movl $0, %esi		; CHECK-NEXT: movl $0, %esi
; CHECK-NEXT: sbbq %rdx, %rsi		; CHECK-NEXT: sbbq %rdx, %rsi
; CHECK-NEXT: cmovgeq %rcx, %rax		; CHECK-NEXT: cmovgeq %rcx, %rax
; CHECK-NEXT: movq %rax, %xmm1		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movq %rbx, %xmm0		; CHECK-NEXT: movq %rbx, %xmm1
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: addq $8, %rsp		; CHECK-NEXT: addq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <2 x half> %x to <2 x i128>		%conv = fptosi <2 x half> %x to <2 x i128>
▲ Show 20 Lines • Show All 385 Lines • ▼ Show 20 Lines	entry:
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @stest_f16i32_mm(<4 x half> %x) {		define <4 x i32> @stest_f16i32_mm(<4 x half> %x) {
; CHECK-LABEL: stest_f16i32_mm:		; CHECK-LABEL: stest_f16i32_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $72, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 80		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, %xmm1
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: psrld $16, %xmm1
; CHECK-NEXT: movaps %xmm3, %xmm0		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa %xmm0, %xmm1
		; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
		; CHECK-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm2		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload		; CHECK-NEXT: movdqa (%rsp), %xmm2 # 16-byte Reload
; CHECK-NEXT: # xmm2 = xmm2[0],mem[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm0[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm2, %xmm1		; CHECK-NEXT: movdqa %xmm2, %xmm1
		; CHECK-NEXT: movdqa %xmm2, %xmm7
; CHECK-NEXT: pxor %xmm0, %xmm1		; CHECK-NEXT: pxor %xmm0, %xmm1
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; CHECK-NEXT: pxor %xmm4, %xmm4		; CHECK-NEXT: pxor %xmm3, %xmm3
; CHECK-NEXT: pcmpeqd %xmm4, %xmm3		; CHECK-NEXT: pcmpeqd %xmm3, %xmm2
; CHECK-NEXT: movdqa {{.*#+}} xmm5 = [4294967295,4294967295]		; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [4294967295,4294967295]
; CHECK-NEXT: movdqa %xmm5, %xmm6		; CHECK-NEXT: movdqa %xmm4, %xmm5
; CHECK-NEXT: pcmpgtd %xmm1, %xmm6		; CHECK-NEXT: pcmpgtd %xmm1, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; CHECK-NEXT: pand %xmm3, %xmm7		; CHECK-NEXT: pand %xmm2, %xmm6
; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm6[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm5[1,1,3,3]
		; CHECK-NEXT: por %xmm6, %xmm1
		; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [2147483647,2147483647]
		; CHECK-NEXT: pand %xmm1, %xmm7
		; CHECK-NEXT: pandn %xmm2, %xmm1
; CHECK-NEXT: por %xmm7, %xmm1		; CHECK-NEXT: por %xmm7, %xmm1
; CHECK-NEXT: movdqa {{.*#+}} xmm3 = [2147483647,2147483647]
; CHECK-NEXT: pand %xmm1, %xmm2
; CHECK-NEXT: pandn %xmm3, %xmm1
; CHECK-NEXT: por %xmm2, %xmm1
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 16-byte Reload
; CHECK-NEXT: movdqa %xmm7, %xmm2		; CHECK-NEXT: movdqa %xmm7, %xmm5
; CHECK-NEXT: pxor %xmm0, %xmm2		; CHECK-NEXT: pxor %xmm0, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[1,1,3,3]
; CHECK-NEXT: pcmpeqd %xmm4, %xmm6		; CHECK-NEXT: pcmpeqd %xmm3, %xmm6
; CHECK-NEXT: pcmpgtd %xmm2, %xmm5		; CHECK-NEXT: pcmpgtd %xmm5, %xmm4
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm5[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,0,2,2]
; CHECK-NEXT: pand %xmm6, %xmm2		; CHECK-NEXT: pand %xmm6, %xmm3
; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm4		; CHECK-NEXT: por %xmm3, %xmm4
; CHECK-NEXT: movdqa %xmm7, %xmm2		; CHECK-NEXT: movdqa %xmm7, %xmm3
; CHECK-NEXT: pand %xmm4, %xmm2		; CHECK-NEXT: pand %xmm4, %xmm3
; CHECK-NEXT: pandn %xmm3, %xmm4		; CHECK-NEXT: pandn %xmm2, %xmm4
; CHECK-NEXT: por %xmm2, %xmm4		; CHECK-NEXT: por %xmm3, %xmm4
; CHECK-NEXT: movdqa %xmm4, %xmm2		; CHECK-NEXT: movdqa %xmm4, %xmm2
; CHECK-NEXT: pxor %xmm0, %xmm2		; CHECK-NEXT: pxor %xmm0, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; CHECK-NEXT: pcmpeqd %xmm5, %xmm5		; CHECK-NEXT: pcmpeqd %xmm5, %xmm5
; CHECK-NEXT: pcmpeqd %xmm5, %xmm3		; CHECK-NEXT: pcmpeqd %xmm5, %xmm3
; CHECK-NEXT: movdqa {{.*#+}} xmm6 = [18446744069414584320,18446744069414584320]		; CHECK-NEXT: movdqa {{.*#+}} xmm6 = [18446744069414584320,18446744069414584320]
; CHECK-NEXT: pcmpgtd %xmm6, %xmm2		; CHECK-NEXT: pcmpgtd %xmm6, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm7 = xmm2[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm7 = xmm2[0,0,2,2]
Show All 27 Lines	entry:
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @utesth_f16i32_mm(<4 x half> %x) {		define <4 x i32> @utesth_f16i32_mm(<4 x half> %x) {
; CHECK-LABEL: utesth_f16i32_mm:		; CHECK-LABEL: utesth_f16i32_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $72, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 80		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm0, %xmm1
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps %xmm1, %xmm0		; CHECK-NEXT: movaps %xmm0, %xmm1
		; CHECK-NEXT: psrlq $48, %xmm1
		; CHECK-NEXT: movdqa %xmm1, (%rsp) # 16-byte Spill
		; CHECK-NEXT: movaps %xmm0, %xmm1
		; CHECK-NEXT: psrld $16, %xmm1
		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [9223372039002259456,9223372039002259456]		; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [9223372039002259456,9223372039002259456]
; CHECK-NEXT: movdqa %xmm0, %xmm2		; CHECK-NEXT: movdqa %xmm0, %xmm2
; CHECK-NEXT: pxor %xmm1, %xmm2		; CHECK-NEXT: pxor %xmm1, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
; CHECK-NEXT: pcmpeqd %xmm1, %xmm3		; CHECK-NEXT: pcmpeqd %xmm1, %xmm3
; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259455,9223372039002259455]		; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259455,9223372039002259455]
; CHECK-NEXT: movdqa %xmm4, %xmm5		; CHECK-NEXT: movdqa %xmm4, %xmm5
Show All 31 Lines	entry:
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @ustest_f16i32_mm(<4 x half> %x) {		define <4 x i32> @ustest_f16i32_mm(<4 x half> %x) {
; CHECK-LABEL: ustest_f16i32_mm:		; CHECK-LABEL: ustest_f16i32_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $72, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 80		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, %xmm1
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: psrld $16, %xmm1
; CHECK-NEXT: movaps %xmm3, %xmm0		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa %xmm0, %xmm1
		; CHECK-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
		; CHECK-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm2		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload		; CHECK-NEXT: movdqa (%rsp), %xmm2 # 16-byte Reload
; CHECK-NEXT: # xmm2 = xmm2[0],mem[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm2 = xmm2[0],xmm0[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm2, %xmm1		; CHECK-NEXT: movdqa %xmm2, %xmm1
		; CHECK-NEXT: movdqa %xmm2, %xmm7
; CHECK-NEXT: pxor %xmm0, %xmm1		; CHECK-NEXT: pxor %xmm0, %xmm1
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm1[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
; CHECK-NEXT: pxor %xmm4, %xmm4		; CHECK-NEXT: pxor %xmm3, %xmm3
; CHECK-NEXT: pcmpeqd %xmm4, %xmm3		; CHECK-NEXT: pcmpeqd %xmm3, %xmm2
; CHECK-NEXT: movdqa {{.*#+}} xmm5 = [2147483647,2147483647]		; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [2147483647,2147483647]
; CHECK-NEXT: movdqa %xmm5, %xmm6		; CHECK-NEXT: movdqa %xmm4, %xmm5
; CHECK-NEXT: pcmpgtd %xmm1, %xmm6		; CHECK-NEXT: pcmpgtd %xmm1, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; CHECK-NEXT: pand %xmm3, %xmm7		; CHECK-NEXT: pand %xmm2, %xmm6
; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm6[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm5[1,1,3,3]
		; CHECK-NEXT: por %xmm6, %xmm1
		; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,4294967295]
		; CHECK-NEXT: pand %xmm1, %xmm7
		; CHECK-NEXT: pandn %xmm2, %xmm1
; CHECK-NEXT: por %xmm7, %xmm1		; CHECK-NEXT: por %xmm7, %xmm1
; CHECK-NEXT: movdqa {{.*#+}} xmm3 = [4294967295,4294967295]
; CHECK-NEXT: pand %xmm1, %xmm2
; CHECK-NEXT: pandn %xmm3, %xmm1
; CHECK-NEXT: por %xmm2, %xmm1
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 16-byte Reload
; CHECK-NEXT: movdqa %xmm7, %xmm2		; CHECK-NEXT: movdqa %xmm7, %xmm5
; CHECK-NEXT: pxor %xmm0, %xmm2		; CHECK-NEXT: pxor %xmm0, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[1,1,3,3]
; CHECK-NEXT: pcmpeqd %xmm4, %xmm6		; CHECK-NEXT: pcmpeqd %xmm3, %xmm6
; CHECK-NEXT: pcmpgtd %xmm2, %xmm5		; CHECK-NEXT: pcmpgtd %xmm5, %xmm4
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm5[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,0,2,2]
; CHECK-NEXT: pand %xmm6, %xmm2		; CHECK-NEXT: pand %xmm6, %xmm3
; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm4		; CHECK-NEXT: por %xmm3, %xmm4
; CHECK-NEXT: movdqa %xmm7, %xmm2		; CHECK-NEXT: movdqa %xmm7, %xmm3
; CHECK-NEXT: pand %xmm4, %xmm2		; CHECK-NEXT: pand %xmm4, %xmm3
; CHECK-NEXT: pandn %xmm3, %xmm4		; CHECK-NEXT: pandn %xmm2, %xmm4
; CHECK-NEXT: por %xmm2, %xmm4		; CHECK-NEXT: por %xmm3, %xmm4
; CHECK-NEXT: movdqa %xmm4, %xmm2		; CHECK-NEXT: movdqa %xmm4, %xmm2
; CHECK-NEXT: pxor %xmm0, %xmm2		; CHECK-NEXT: pxor %xmm0, %xmm2
; CHECK-NEXT: movdqa %xmm2, %xmm3		; CHECK-NEXT: movdqa %xmm2, %xmm3
; CHECK-NEXT: pcmpgtd %xmm0, %xmm3		; CHECK-NEXT: pcmpgtd %xmm0, %xmm3
; CHECK-NEXT: pcmpeqd %xmm0, %xmm2		; CHECK-NEXT: pcmpeqd %xmm0, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-NEXT: pand %xmm3, %xmm2		; CHECK-NEXT: pand %xmm3, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
▲ Show 20 Lines • Show All 165 Lines • ▼ Show 20 Lines	entry:
%spec.store.select7 = call <4 x i32> @llvm.smax.v4i32(<4 x i32> %spec.store.select, <4 x i32> zeroinitializer)		%spec.store.select7 = call <4 x i32> @llvm.smax.v4i32(<4 x i32> %spec.store.select, <4 x i32> zeroinitializer)
%conv6 = trunc <4 x i32> %spec.store.select7 to <4 x i16>		%conv6 = trunc <4 x i32> %spec.store.select7 to <4 x i16>
ret <4 x i16> %conv6		ret <4 x i16> %conv6
}		}

define <8 x i16> @stest_f16i16_mm(<8 x half> %x) {		define <8 x i16> @stest_f16i16_mm(<8 x half> %x) {
; CHECK-LABEL: stest_f16i16_mm:		; CHECK-LABEL: stest_f16i16_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $136, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 144		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps %xmm7, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm1
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: packssdw {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: packssdw {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: addq $136, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <8 x half> %x to <8 x i32>		%conv = fptosi <8 x half> %x to <8 x i32>
%spec.store.select = call <8 x i32> @llvm.smin.v8i32(<8 x i32> %conv, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>)		%spec.store.select = call <8 x i32> @llvm.smin.v8i32(<8 x i32> %conv, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>)
%spec.store.select7 = call <8 x i32> @llvm.smax.v8i32(<8 x i32> %spec.store.select, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>)		%spec.store.select7 = call <8 x i32> @llvm.smax.v8i32(<8 x i32> %spec.store.select, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>)
%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>		%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>
ret <8 x i16> %conv6		ret <8 x i16> %conv6
}		}

define <8 x i16> @utesth_f16i16_mm(<8 x half> %x) {		define <8 x i16> @utesth_f16i16_mm(<8 x half> %x) {
; CHECK-LABEL: utesth_f16i16_mm:		; CHECK-LABEL: utesth_f16i16_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $136, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 144		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps %xmm7, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm1		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm4 # 16-byte Reload
; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]		; CHECK-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm0[0],xmm4[1],xmm0[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm4 # 16-byte Folded Reload
; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]		; CHECK-NEXT: # xmm4 = xmm4[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [2147483648,2147483648,2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm1, %xmm3		; CHECK-NEXT: movdqa %xmm4, %xmm2
; CHECK-NEXT: pxor %xmm2, %xmm3
; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [2147549183,2147549183,2147549183,2147549183]
; CHECK-NEXT: movdqa %xmm4, %xmm0
; CHECK-NEXT: pcmpgtd %xmm3, %xmm0
; CHECK-NEXT: pand %xmm0, %xmm1
; CHECK-NEXT: pcmpeqd %xmm3, %xmm3
; CHECK-NEXT: pxor %xmm3, %xmm0
; CHECK-NEXT: por %xmm1, %xmm0
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: pxor %xmm1, %xmm2		; CHECK-NEXT: pxor %xmm1, %xmm2
; CHECK-NEXT: pcmpgtd %xmm2, %xmm4		; CHECK-NEXT: movdqa {{.*#+}} xmm3 = [2147549183,2147549183,2147549183,2147549183]
; CHECK-NEXT: pand %xmm4, %xmm1		; CHECK-NEXT: movdqa %xmm3, %xmm0
; CHECK-NEXT: pxor %xmm3, %xmm4		; CHECK-NEXT: pcmpgtd %xmm2, %xmm0
; CHECK-NEXT: por %xmm1, %xmm4		; CHECK-NEXT: pand %xmm0, %xmm4
; CHECK-NEXT: pslld $16, %xmm4		; CHECK-NEXT: pcmpeqd %xmm2, %xmm2
; CHECK-NEXT: psrad $16, %xmm4		; CHECK-NEXT: pxor %xmm2, %xmm0
		; CHECK-NEXT: por %xmm4, %xmm0
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm4 # 16-byte Reload
		; CHECK-NEXT: pxor %xmm4, %xmm1
		; CHECK-NEXT: pcmpgtd %xmm1, %xmm3
		; CHECK-NEXT: pand %xmm3, %xmm4
		; CHECK-NEXT: pxor %xmm2, %xmm3
		; CHECK-NEXT: por %xmm4, %xmm3
		; CHECK-NEXT: pslld $16, %xmm3
		; CHECK-NEXT: psrad $16, %xmm3
; CHECK-NEXT: pslld $16, %xmm0		; CHECK-NEXT: pslld $16, %xmm0
; CHECK-NEXT: psrad $16, %xmm0		; CHECK-NEXT: psrad $16, %xmm0
; CHECK-NEXT: packssdw %xmm4, %xmm0		; CHECK-NEXT: packssdw %xmm3, %xmm0
; CHECK-NEXT: addq $136, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui <8 x half> %x to <8 x i32>		%conv = fptoui <8 x half> %x to <8 x i32>
%spec.store.select = call <8 x i32> @llvm.umin.v8i32(<8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>)		%spec.store.select = call <8 x i32> @llvm.umin.v8i32(<8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>)
%conv6 = trunc <8 x i32> %spec.store.select to <8 x i16>		%conv6 = trunc <8 x i32> %spec.store.select to <8 x i16>
ret <8 x i16> %conv6		ret <8 x i16> %conv6
}		}

define <8 x i16> @ustest_f16i16_mm(<8 x half> %x) {		define <8 x i16> @ustest_f16i16_mm(<8 x half> %x) {
; CHECK-LABEL: ustest_f16i16_mm:		; CHECK-LABEL: ustest_f16i16_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: subq $136, %rsp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 144		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps %xmm3, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [65535,65535,65535,65535]		; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [65535,65535,65535,65535]
Show All 15 Lines
; CHECK-NEXT: movdqa %xmm2, %xmm3		; CHECK-NEXT: movdqa %xmm2, %xmm3
; CHECK-NEXT: pcmpgtd %xmm1, %xmm3		; CHECK-NEXT: pcmpgtd %xmm1, %xmm3
; CHECK-NEXT: pand %xmm2, %xmm3		; CHECK-NEXT: pand %xmm2, %xmm3
; CHECK-NEXT: pslld $16, %xmm3		; CHECK-NEXT: pslld $16, %xmm3
; CHECK-NEXT: psrad $16, %xmm3		; CHECK-NEXT: psrad $16, %xmm3
; CHECK-NEXT: pslld $16, %xmm0		; CHECK-NEXT: pslld $16, %xmm0
; CHECK-NEXT: psrad $16, %xmm0		; CHECK-NEXT: psrad $16, %xmm0
; CHECK-NEXT: packssdw %xmm3, %xmm0		; CHECK-NEXT: packssdw %xmm3, %xmm0
; CHECK-NEXT: addq $136, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <8 x half> %x to <8 x i32>		%conv = fptosi <8 x half> %x to <8 x i32>
%spec.store.select = call <8 x i32> @llvm.smin.v8i32(<8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>)		%spec.store.select = call <8 x i32> @llvm.smin.v8i32(<8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>)
%spec.store.select7 = call <8 x i32> @llvm.smax.v8i32(<8 x i32> %spec.store.select, <8 x i32> zeroinitializer)		%spec.store.select7 = call <8 x i32> @llvm.smax.v8i32(<8 x i32> %spec.store.select, <8 x i32> zeroinitializer)
%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>		%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>
ret <8 x i16> %conv6		ret <8 x i16> %conv6
▲ Show 20 Lines • Show All 331 Lines • ▼ Show 20 Lines

define <2 x i64> @stest_f16i64_mm(<2 x half> %x) {		define <2 x i64> @stest_f16i64_mm(<2 x half> %x) {
; CHECK-LABEL: stest_f16i64_mm:		; CHECK-LABEL: stest_f16i64_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: subq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: .cfi_offset %rbx, -24		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -16		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __fixhfti@PLT		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: movq %rax, %rbx		; CHECK-NEXT: movq %rax, %rbx
; CHECK-NEXT: movq %rdx, %r14		; CHECK-NEXT: movq %rdx, %r14
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __fixhfti@PLT		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF		; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF
; CHECK-NEXT: cmpq %rcx, %rax		; CHECK-NEXT: cmpq %rcx, %rax
; CHECK-NEXT: movq %rcx, %rsi		; CHECK-NEXT: movq %rcx, %rsi
; CHECK-NEXT: cmovbq %rax, %rsi		; CHECK-NEXT: cmovbq %rax, %rsi
; CHECK-NEXT: xorl %edi, %edi		; CHECK-NEXT: xorl %edi, %edi
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: cmovnsq %rcx, %rax		; CHECK-NEXT: cmovnsq %rcx, %rax
Show All 16 Lines
; CHECK-NEXT: cmovneq %rsi, %rcx		; CHECK-NEXT: cmovneq %rsi, %rcx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: movq %rbx, %rsi		; CHECK-NEXT: movq %rbx, %rsi
; CHECK-NEXT: cmovnsq %rax, %rsi		; CHECK-NEXT: cmovnsq %rax, %rsi
; CHECK-NEXT: cmpq %rbx, %rax		; CHECK-NEXT: cmpq %rbx, %rax
; CHECK-NEXT: cmovbeq %rbx, %rax		; CHECK-NEXT: cmovbeq %rbx, %rax
; CHECK-NEXT: cmpq $-1, %rdx		; CHECK-NEXT: cmpq $-1, %rdx
; CHECK-NEXT: cmovneq %rsi, %rax		; CHECK-NEXT: cmovneq %rsi, %rax
; CHECK-NEXT: movq %rax, %xmm1		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movq %rcx, %xmm0		; CHECK-NEXT: movq %rcx, %xmm1
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: addq $8, %rsp		; CHECK-NEXT: addq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <2 x half> %x to <2 x i128>		%conv = fptosi <2 x half> %x to <2 x i128>
%spec.store.select = call <2 x i128> @llvm.smin.v2i128(<2 x i128> %conv, <2 x i128> <i128 9223372036854775807, i128 9223372036854775807>)		%spec.store.select = call <2 x i128> @llvm.smin.v2i128(<2 x i128> %conv, <2 x i128> <i128 9223372036854775807, i128 9223372036854775807>)
%spec.store.select7 = call <2 x i128> @llvm.smax.v2i128(<2 x i128> %spec.store.select, <2 x i128> <i128 -9223372036854775808, i128 -9223372036854775808>)		%spec.store.select7 = call <2 x i128> @llvm.smax.v2i128(<2 x i128> %spec.store.select, <2 x i128> <i128 -9223372036854775808, i128 -9223372036854775808>)
%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>		%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>
ret <2 x i64> %conv6		ret <2 x i64> %conv6
}		}

define <2 x i64> @utesth_f16i64_mm(<2 x half> %x) {		define <2 x i64> @utesth_f16i64_mm(<2 x half> %x) {
; CHECK-LABEL: utesth_f16i64_mm:		; CHECK-LABEL: utesth_f16i64_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: subq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: .cfi_offset %rbx, -24		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -16		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, %xmm1
; CHECK-NEXT: movaps %xmm1, %xmm0		; CHECK-NEXT: psrld $16, %xmm1
		; CHECK-NEXT: movdqa %xmm1, (%rsp) # 16-byte Spill
; CHECK-NEXT: callq __fixunshfti@PLT		; CHECK-NEXT: callq __fixunshfti@PLT
; CHECK-NEXT: movq %rax, %rbx		; CHECK-NEXT: movq %rax, %rbx
; CHECK-NEXT: movq %rdx, %r14		; CHECK-NEXT: movq %rdx, %r14
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __fixunshfti@PLT		; CHECK-NEXT: callq __fixunshfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: cmovneq %rcx, %rax		; CHECK-NEXT: cmovneq %rcx, %rax
; CHECK-NEXT: cmpq $1, %rdx		; CHECK-NEXT: cmpq $1, %rdx
; CHECK-NEXT: cmoveq %rcx, %rax		; CHECK-NEXT: cmoveq %rcx, %rax
; CHECK-NEXT: testq %r14, %r14		; CHECK-NEXT: testq %r14, %r14
; CHECK-NEXT: cmovneq %rcx, %rbx		; CHECK-NEXT: cmovneq %rcx, %rbx
; CHECK-NEXT: cmpq $1, %r14		; CHECK-NEXT: cmpq $1, %r14
; CHECK-NEXT: cmoveq %rcx, %rbx		; CHECK-NEXT: cmoveq %rcx, %rbx
; CHECK-NEXT: movq %rbx, %xmm1		; CHECK-NEXT: movq %rbx, %xmm0
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm1
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: addq $8, %rsp		; CHECK-NEXT: addq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui <2 x half> %x to <2 x i128>		%conv = fptoui <2 x half> %x to <2 x i128>
%spec.store.select = call <2 x i128> @llvm.umin.v2i128(<2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>)		%spec.store.select = call <2 x i128> @llvm.umin.v2i128(<2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>)
%conv6 = trunc <2 x i128> %spec.store.select to <2 x i64>		%conv6 = trunc <2 x i128> %spec.store.select to <2 x i64>
ret <2 x i64> %conv6		ret <2 x i64> %conv6
}		}

define <2 x i64> @ustest_f16i64_mm(<2 x half> %x) {		define <2 x i64> @ustest_f16i64_mm(<2 x half> %x) {
; CHECK-LABEL: ustest_f16i64_mm:		; CHECK-LABEL: ustest_f16i64_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: subq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: .cfi_offset %rbx, -24		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -16		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __fixhfti@PLT		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: movq %rax, %rbx		; CHECK-NEXT: movq %rax, %rbx
; CHECK-NEXT: movq %rdx, %r14		; CHECK-NEXT: movq %rdx, %r14
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __fixhfti@PLT		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: movl $1, %esi		; CHECK-NEXT: movl $1, %esi
; CHECK-NEXT: movl $1, %edi		; CHECK-NEXT: movl $1, %edi
; CHECK-NEXT: cmovleq %rdx, %rdi		; CHECK-NEXT: cmovleq %rdx, %rdi
; CHECK-NEXT: cmovgq %rcx, %rax		; CHECK-NEXT: cmovgq %rcx, %rax
; CHECK-NEXT: cmpq $1, %rdx		; CHECK-NEXT: cmpq $1, %rdx
; CHECK-NEXT: cmoveq %rcx, %rax		; CHECK-NEXT: cmoveq %rcx, %rax
; CHECK-NEXT: testq %r14, %r14		; CHECK-NEXT: testq %r14, %r14
; CHECK-NEXT: cmovleq %r14, %rsi		; CHECK-NEXT: cmovleq %r14, %rsi
; CHECK-NEXT: cmovgq %rcx, %rbx		; CHECK-NEXT: cmovgq %rcx, %rbx
; CHECK-NEXT: cmpq $1, %r14		; CHECK-NEXT: cmpq $1, %r14
; CHECK-NEXT: cmoveq %rcx, %rbx		; CHECK-NEXT: cmoveq %rcx, %rbx
; CHECK-NEXT: testq %rsi, %rsi		; CHECK-NEXT: testq %rsi, %rsi
; CHECK-NEXT: cmovsq %rcx, %rbx		; CHECK-NEXT: cmovsq %rcx, %rbx
; CHECK-NEXT: testq %rdi, %rdi		; CHECK-NEXT: testq %rdi, %rdi
; CHECK-NEXT: cmovsq %rcx, %rax		; CHECK-NEXT: cmovsq %rcx, %rax
; CHECK-NEXT: movq %rax, %xmm1		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movq %rbx, %xmm0		; CHECK-NEXT: movq %rbx, %xmm1
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: addq $8, %rsp		; CHECK-NEXT: addq $24, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <2 x half> %x to <2 x i128>		%conv = fptosi <2 x half> %x to <2 x i128>
Show All 24 Lines

llvm/test/CodeGen/X86/fptosi-sat-vector-128.ll

	Show First 20 Lines • Show All 537 Lines • ▼ Show 20 Lines
	declare <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half>)			declare <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half>)
	declare <8 x i128> @llvm.fptosi.sat.v8i128.v8f16(<8 x half>)			declare <8 x i128> @llvm.fptosi.sat.v8i128.v8f16(<8 x half>)

	define <8 x i1> @test_signed_v8i1_v8f16(<8 x half> %f) nounwind {			define <8 x i1> @test_signed_v8i1_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i1_v8f16:			; CHECK-LABEL: test_signed_v8i1_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $136, %rsp			; CHECK-NEXT: subq $72, %rsp
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movaps %xmm7, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $65535, %ebp # imm = 0xFFFF			; CHECK-NEXT: movl $65535, %ebp # imm = 0xFFFF
	; CHECK-NEXT: cmovbl %ebp, %eax			; CHECK-NEXT: cmovbl %ebp, %eax
	; CHECK-NEXT: xorl %ebx, %ebx			; CHECK-NEXT: xorl %ebx, %ebx
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: ucomiss %xmm1, %xmm0			; CHECK-NEXT: ucomiss %xmm1, %xmm0
	; CHECK-NEXT: cmoval %ebx, %eax			; CHECK-NEXT: cmoval %ebx, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebp, %eax			; CHECK-NEXT: cmovbl %ebp, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebx, %eax			; CHECK-NEXT: cmoval %ebx, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebp, %eax			; CHECK-NEXT: cmovbl %ebp, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebx, %eax			; CHECK-NEXT: cmoval %ebx, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebp, %eax			; CHECK-NEXT: cmovbl %ebp, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebx, %eax			; CHECK-NEXT: cmoval %ebx, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebp, %eax			; CHECK-NEXT: cmovbl %ebp, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebx, %eax			; CHECK-NEXT: cmoval %ebx, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebp, %eax			; CHECK-NEXT: cmovbl %ebp, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebx, %eax			; CHECK-NEXT: cmoval %ebx, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebp, %eax			; CHECK-NEXT: cmovbl %ebp, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebx, %eax			; CHECK-NEXT: cmoval %ebx, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebp, %eax			; CHECK-NEXT: cmovbl %ebp, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebx, %eax			; CHECK-NEXT: cmoval %ebx, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: addq $136, %rsp			; CHECK-NEXT: addq $72, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> %f)			%x = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> %f)
	ret <8 x i1> %x			ret <8 x i1> %x
	}			}

	define <8 x i8> @test_signed_v8i8_v8f16(<8 x half> %f) nounwind {			define <8 x i8> @test_signed_v8i8_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i8_v8f16:			; CHECK-LABEL: test_signed_v8i8_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15			; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r12			; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $48, %rsp			; CHECK-NEXT: subq $32, %rsp
	; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movaps %xmm3, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %ebp			; CHECK-NEXT: cvttss2si %xmm0, %ebp
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $128, %r14d			; CHECK-NEXT: movl $128, %r14d
	; CHECK-NEXT: cmovbl %r14d, %ebp			; CHECK-NEXT: cmovbl %r14d, %ebp
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $127, %r12d			; CHECK-NEXT: movl $127, %r12d
	; CHECK-NEXT: cmoval %r12d, %ebp			; CHECK-NEXT: cmoval %r12d, %ebp
	; CHECK-NEXT: xorl %r15d, %r15d			; CHECK-NEXT: xorl %r15d, %r15d
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r15d, %ebp			; CHECK-NEXT: cmovpl %r15d, %ebp
	; CHECK-NEXT: shll $8, %ebp			; CHECK-NEXT: shll $8, %ebp
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %r12d, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r15d, %eax			; CHECK-NEXT: cmovpl %r15d, %eax
	; CHECK-NEXT: movzbl %al, %ebx			; CHECK-NEXT: movzbl %al, %ebx
	; CHECK-NEXT: orl %ebp, %ebx			; CHECK-NEXT: orl %ebp, %ebx
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %ebp			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %ebp			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %ebp			; CHECK-NEXT: cmoval %r12d, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r15d, %ebp			; CHECK-NEXT: cmovpl %r15d, %eax
	; CHECK-NEXT: shll $8, %ebp			; CHECK-NEXT: movzbl %al, %ebp
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %r12d, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r15d, %eax			; CHECK-NEXT: cmovpl %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: shll $8, %eax
	; CHECK-NEXT: orl %ebp, %eax			; CHECK-NEXT: orl %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: pinsrw $1, %ebx, %xmm0			; CHECK-NEXT: pinsrw $1, %ebx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %ebx			; CHECK-NEXT: cvttss2si %xmm0, %ebx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %ebx			; CHECK-NEXT: cmovbl %r14d, %ebx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %ebx			; CHECK-NEXT: cmoval %r12d, %ebx
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r15d, %ebx			; CHECK-NEXT: cmovpl %r15d, %ebx
	; CHECK-NEXT: shll $8, %ebx			; CHECK-NEXT: shll $8, %ebx
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %r12d, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r15d, %eax			; CHECK-NEXT: cmovpl %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: movzbl %al, %eax
	; CHECK-NEXT: orl %ebx, %eax			; CHECK-NEXT: orl %ebx, %eax
	; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: pinsrw $2, %eax, %xmm0			; CHECK-NEXT: pinsrw $2, %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %ebx			; CHECK-NEXT: cvttss2si %xmm0, %ebx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %ebx			; CHECK-NEXT: cmovbl %r14d, %ebx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %ebx			; CHECK-NEXT: cmoval %r12d, %ebx
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r15d, %ebx			; CHECK-NEXT: cmovpl %r15d, %ebx
	; CHECK-NEXT: shll $8, %ebx			; CHECK-NEXT: shll $8, %ebx
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %r12d, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r15d, %eax			; CHECK-NEXT: cmovpl %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: movzbl %al, %eax
	; CHECK-NEXT: orl %ebx, %eax			; CHECK-NEXT: orl %ebx, %eax
	; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: pinsrw $3, %eax, %xmm0			; CHECK-NEXT: pinsrw $3, %eax, %xmm0
	; CHECK-NEXT: addq $48, %rsp			; CHECK-NEXT: addq $32, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12			; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15			; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> %f)			%x = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> %f)
	ret <8 x i8> %x			ret <8 x i8> %x
	}			}

	define <8 x i16> @test_signed_v8i16_v8f16(<8 x half> %f) nounwind {			define <8 x i16> @test_signed_v8i16_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i16_v8f16:			; CHECK-LABEL: test_signed_v8i16_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $128, %rsp			; CHECK-NEXT: subq $64, %rsp
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movaps %xmm7, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $32768, %r14d # imm = 0x8000			; CHECK-NEXT: movl $32768, %r14d # imm = 0x8000
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $32767, %ebp # imm = 0x7FFF			; CHECK-NEXT: movl $32767, %ebp # imm = 0x7FFF
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: xorl %ebx, %ebx			; CHECK-NEXT: xorl %ebx, %ebx
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: addq $128, %rsp			; CHECK-NEXT: addq $64, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> %f)			%x = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> %f)
	ret <8 x i16> %x			ret <8 x i16> %x
	}			}

	define <8 x i32> @test_signed_v8i32_v8f16(<8 x half> %f) nounwind {			define <8 x i32> @test_signed_v8i32_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i32_v8f16:			; CHECK-LABEL: test_signed_v8i32_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $128, %rsp			; CHECK-NEXT: subq $64, %rsp
	; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movaps %xmm3, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $-2147483648, %r14d # imm = 0x80000000			; CHECK-NEXT: movl $-2147483648, %r14d # imm = 0x80000000
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $2147483647, %ebp # imm = 0x7FFFFFFF			; CHECK-NEXT: movl $2147483647, %ebp # imm = 0x7FFFFFFF
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: xorl %ebx, %ebx			; CHECK-NEXT: xorl %ebx, %ebx
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %ebx, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm1			; CHECK-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]			; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]			; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: addq $128, %rsp			; CHECK-NEXT: addq $64, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> %f)			%x = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> %f)
	ret <8 x i32> %x			ret <8 x i32> %x
	}			}

	define <8 x i64> @test_signed_v8i64_v8f16(<8 x half> %f) nounwind {			define <8 x i64> @test_signed_v8i64_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i64_v8f16:			; CHECK-LABEL: test_signed_v8i64_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %r15			; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $128, %rsp			; CHECK-NEXT: subq $80, %rsp
	; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movaps %xmm1, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $-9223372036854775808, %r14 # imm = 0x8000000000000000			; CHECK-NEXT: movabsq $-9223372036854775808, %r14 # imm = 0x8000000000000000
	; CHECK-NEXT: cmovbq %r14, %rax			; CHECK-NEXT: cmovbq %r14, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $9223372036854775807, %rbx # imm = 0x7FFFFFFFFFFFFFFF			; CHECK-NEXT: movabsq $9223372036854775807, %rbx # imm = 0x7FFFFFFFFFFFFFFF
	; CHECK-NEXT: cmovaq %rbx, %rax			; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: xorl %r15d, %r15d			; CHECK-NEXT: xorl %r15d, %r15d
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r15, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rax			; CHECK-NEXT: cmovbq %r14, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rax			; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r15, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rax			; CHECK-NEXT: cmovbq %r14, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rax			; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r15, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rax			; CHECK-NEXT: cmovbq %r14, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rax			; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r15, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rax			; CHECK-NEXT: cmovbq %r14, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rax			; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r15, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rax			; CHECK-NEXT: cmovbq %r14, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rax			; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r15, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rax			; CHECK-NEXT: cmovbq %r14, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rax			; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r15, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rax			; CHECK-NEXT: cmovbq %r14, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rax			; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r15, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm3			; CHECK-NEXT: movq %rax, %xmm3
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]			; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
	; CHECK-NEXT: addq $128, %rsp			; CHECK-NEXT: addq $80, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15			; CHECK-NEXT: popq %r15
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> %f)			%x = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> %f)
	ret <8 x i64> %x			ret <8 x i64> %x
	}			}

	define <8 x i128> @test_signed_v8i128_v8f16(<8 x half> %f) nounwind {			define <8 x i128> @test_signed_v8i128_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i128_v8f16:			; CHECK-LABEL: test_signed_v8i128_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15			; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13			; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12			; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $88, %rsp			; CHECK-NEXT: subq $104, %rsp
	; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movq %rdi, %rbx			; CHECK-NEXT: movq %rdi, %rbx
				; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: xorl %r12d, %r12d			; CHECK-NEXT: xorl %r12d, %r12d
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r12, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000			; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
	; CHECK-NEXT: cmovbq %rcx, %rdx			; CHECK-NEXT: cmovbq %rcx, %rdx
	; CHECK-NEXT: movq %rcx, %r14			; CHECK-NEXT: movq %rcx, %r14
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF			; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF
	; CHECK-NEXT: cmovaq %rcx, %rdx			; CHECK-NEXT: cmovaq %rcx, %rdx
	; CHECK-NEXT: movq %rcx, %rbp			; CHECK-NEXT: movq %rcx, %rbp
	; CHECK-NEXT: movq $-1, %rcx			; CHECK-NEXT: movq $-1, %rcx
	; CHECK-NEXT: cmovaq %rcx, %rax			; CHECK-NEXT: cmovaq %rcx, %rax
	; CHECK-NEXT: movq $-1, %r15			; CHECK-NEXT: movq $-1, %r15
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r12, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovpq %r12, %rdx			; CHECK-NEXT: cmovpq %r12, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r12, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: cmovbq %r14, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbp, %rdx			; CHECK-NEXT: cmovaq %rbp, %rdx
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovaq %r15, %rax
	; CHECK-NEXT: movq $-1, %r15			; CHECK-NEXT: movq $-1, %r15
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r12, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovpq %r12, %rdx			; CHECK-NEXT: cmovpq %r12, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r12, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: cmovbq %r14, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbp, %rdx			; CHECK-NEXT: cmovaq %rbp, %rdx
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovaq %r15, %rax
	; CHECK-NEXT: movq $-1, %r15			; CHECK-NEXT: movq $-1, %r15
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r12, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovpq %r12, %rdx			; CHECK-NEXT: cmovpq %r12, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r12, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: cmovbq %r14, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbp, %rdx			; CHECK-NEXT: cmovaq %rbp, %rdx
	; CHECK-NEXT: movq %rbp, %r13			; CHECK-NEXT: movq %rbp, %r13
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovaq %r15, %rax
	; CHECK-NEXT: movq $-1, %r15			; CHECK-NEXT: movq $-1, %r15
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r12, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovpq %r12, %rdx			; CHECK-NEXT: cmovpq %r12, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movq %rdx, %rbp			; CHECK-NEXT: movq %rdx, %rbp
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r12, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: cmovbq %r14, %rbp			; CHECK-NEXT: cmovbq %r14, %rbp
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r13, %rbp			; CHECK-NEXT: cmovaq %r13, %rbp
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovaq %r15, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r12, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovpq %r12, %rbp			; CHECK-NEXT: cmovpq %r12, %rbp
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movq %rax, %r14			; CHECK-NEXT: movq %rax, %r14
	; CHECK-NEXT: movq %rdx, %r15			; CHECK-NEXT: movq %rdx, %r15
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r12, %r14			; CHECK-NEXT: cmovbq %r12, %r14
	; CHECK-NEXT: movabsq $-9223372036854775808, %rax # imm = 0x8000000000000000			; CHECK-NEXT: movabsq $-9223372036854775808, %rax # imm = 0x8000000000000000
	; CHECK-NEXT: cmovbq %rax, %r15			; CHECK-NEXT: cmovbq %rax, %r15
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r13, %r15			; CHECK-NEXT: cmovaq %r13, %r15
	; CHECK-NEXT: movq $-1, %rax			; CHECK-NEXT: movq $-1, %rax
	; CHECK-NEXT: cmovaq %rax, %r14			; CHECK-NEXT: cmovaq %rax, %r14
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %r14			; CHECK-NEXT: cmovpq %r12, %r14
	; CHECK-NEXT: cmovpq %r12, %r15			; CHECK-NEXT: cmovpq %r12, %r15
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movq %rax, %r12			; CHECK-NEXT: movq %rax, %r12
	; CHECK-NEXT: movq %rdx, %r13			; CHECK-NEXT: movq %rdx, %r13
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $0, %eax			; CHECK-NEXT: movl $0, %eax
	; CHECK-NEXT: cmovbq %rax, %r12			; CHECK-NEXT: cmovbq %rax, %r12
	; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000			; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
	; CHECK-NEXT: cmovbq %rcx, %r13			; CHECK-NEXT: cmovbq %rcx, %r13
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF			; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF
	; CHECK-NEXT: cmovaq %rcx, %r13			; CHECK-NEXT: cmovaq %rcx, %r13
	; CHECK-NEXT: movq $-1, %rcx			; CHECK-NEXT: movq $-1, %rcx
	; CHECK-NEXT: cmovaq %rcx, %r12			; CHECK-NEXT: cmovaq %rcx, %r12
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %rax, %r12			; CHECK-NEXT: cmovpq %rax, %r12
	; CHECK-NEXT: cmovpq %rax, %r13			; CHECK-NEXT: cmovpq %rax, %r13
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000			; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
	; CHECK-NEXT: cmovbq %rcx, %rdx			; CHECK-NEXT: cmovbq %rcx, %rdx
	; CHECK-NEXT: movl $0, %esi			; CHECK-NEXT: movl $0, %esi
	; CHECK-NEXT: cmovbq %rsi, %rax			; CHECK-NEXT: cmovbq %rsi, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF			; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF
	; CHECK-NEXT: cmovaq %rcx, %rdx			; CHECK-NEXT: cmovaq %rcx, %rdx
	; CHECK-NEXT: movq $-1, %rcx			; CHECK-NEXT: movq $-1, %rcx
	; CHECK-NEXT: cmovaq %rcx, %rax			; CHECK-NEXT: cmovaq %rcx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %rsi, %rax			; CHECK-NEXT: cmovpq %rsi, %rax
	; CHECK-NEXT: movl $0, %ecx			; CHECK-NEXT: movl $0, %ecx
	; CHECK-NEXT: cmovpq %rcx, %rdx			; CHECK-NEXT: cmovpq %rcx, %rdx
	; CHECK-NEXT: movq %rdx, 120(%rbx)			; CHECK-NEXT: movq %rdx, 8(%rbx)
	; CHECK-NEXT: movq %rax, 112(%rbx)			; CHECK-NEXT: movq %rax, (%rbx)
	; CHECK-NEXT: movq %r13, 104(%rbx)			; CHECK-NEXT: movq %r13, 120(%rbx)
	; CHECK-NEXT: movq %r12, 96(%rbx)			; CHECK-NEXT: movq %r12, 112(%rbx)
	; CHECK-NEXT: movq %r15, 88(%rbx)			; CHECK-NEXT: movq %r15, 104(%rbx)
	; CHECK-NEXT: movq %r14, 80(%rbx)			; CHECK-NEXT: movq %r14, 96(%rbx)
	; CHECK-NEXT: movq %rbp, 72(%rbx)			; CHECK-NEXT: movq %rbp, 88(%rbx)
				; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
				; CHECK-NEXT: movq %rax, 80(%rbx)
				; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
				; CHECK-NEXT: movq %rax, 72(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 64(%rbx)			; CHECK-NEXT: movq %rax, 64(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 56(%rbx)			; CHECK-NEXT: movq %rax, 56(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 48(%rbx)			; CHECK-NEXT: movq %rax, 48(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 40(%rbx)			; CHECK-NEXT: movq %rax, 40(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 32(%rbx)			; CHECK-NEXT: movq %rax, 32(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 24(%rbx)			; CHECK-NEXT: movq %rax, 24(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 16(%rbx)			; CHECK-NEXT: movq %rax, 16(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 8(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, (%rbx)
	; CHECK-NEXT: movq %rbx, %rax			; CHECK-NEXT: movq %rbx, %rax
	; CHECK-NEXT: addq $88, %rsp			; CHECK-NEXT: addq $104, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12			; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13			; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15			; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i128> @llvm.fptosi.sat.v8i128.v8f16(<8 x half> %f)			%x = call <8 x i128> @llvm.fptosi.sat.v8i128.v8f16(<8 x half> %f)
	ret <8 x i128> %x			ret <8 x i128> %x
	}			}

llvm/test/CodeGen/X86/fptoui-sat-vector-128.ll

	Show First 20 Lines • Show All 536 Lines • ▼ Show 20 Lines
	declare <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half>)			declare <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half>)
	declare <8 x i128> @llvm.fptoui.sat.v8i128.v8f16(<8 x half>)			declare <8 x i128> @llvm.fptoui.sat.v8i128.v8f16(<8 x half>)

	define <8 x i1> @test_unsigned_v8i1_v8f16(<8 x half> %f) nounwind {			define <8 x i1> @test_unsigned_v8i1_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i1_v8f16:			; CHECK-LABEL: test_unsigned_v8i1_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $136, %rsp			; CHECK-NEXT: subq $72, %rsp
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movaps %xmm7, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: xorl %ebx, %ebx			; CHECK-NEXT: xorl %ebx, %ebx
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: ucomiss %xmm1, %xmm0			; CHECK-NEXT: ucomiss %xmm1, %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $1, %ebp			; CHECK-NEXT: movl $1, %ebp
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: addq $136, %rsp			; CHECK-NEXT: addq $72, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> %f)			%x = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> %f)
	ret <8 x i1> %x			ret <8 x i1> %x
	}			}

	define <8 x i8> @test_unsigned_v8i8_v8f16(<8 x half> %f) nounwind {			define <8 x i8> @test_unsigned_v8i8_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i8_v8f16:			; CHECK-LABEL: test_unsigned_v8i8_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15			; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $56, %rsp			; CHECK-NEXT: subq $40, %rsp
	; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movaps %xmm3, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %ebp			; CHECK-NEXT: cvttss2si %xmm0, %ebp
	; CHECK-NEXT: xorl %r14d, %r14d			; CHECK-NEXT: xorl %r14d, %r14d
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: ucomiss %xmm1, %xmm0			; CHECK-NEXT: ucomiss %xmm1, %xmm0
	; CHECK-NEXT: cmovbl %r14d, %ebp			; CHECK-NEXT: cmovbl %r14d, %ebp
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $255, %r15d			; CHECK-NEXT: movl $255, %r15d
	; CHECK-NEXT: cmoval %r15d, %ebp			; CHECK-NEXT: cmoval %r15d, %ebp
	; CHECK-NEXT: shll $8, %ebp			; CHECK-NEXT: shll $8, %ebp
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmoval %r15d, %eax
	; CHECK-NEXT: movzbl %al, %ebx			; CHECK-NEXT: movzbl %al, %ebx
	; CHECK-NEXT: orl %ebp, %ebx			; CHECK-NEXT: orl %ebp, %ebx
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %ebp			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %ebp			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %ebp			; CHECK-NEXT: cmoval %r15d, %eax
	; CHECK-NEXT: shll $8, %ebp			; CHECK-NEXT: movzbl %al, %ebp
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmoval %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: shll $8, %eax
	; CHECK-NEXT: orl %ebp, %eax			; CHECK-NEXT: orl %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: pinsrw $1, %ebx, %xmm0			; CHECK-NEXT: pinsrw $1, %ebx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %ebx			; CHECK-NEXT: cvttss2si %xmm0, %ebx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %ebx			; CHECK-NEXT: cmovbl %r14d, %ebx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %ebx			; CHECK-NEXT: cmoval %r15d, %ebx
	; CHECK-NEXT: shll $8, %ebx			; CHECK-NEXT: shll $8, %ebx
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmoval %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: movzbl %al, %eax
	; CHECK-NEXT: orl %ebx, %eax			; CHECK-NEXT: orl %ebx, %eax
	; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: pinsrw $2, %eax, %xmm0			; CHECK-NEXT: pinsrw $2, %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %ebx			; CHECK-NEXT: cvttss2si %xmm0, %ebx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %ebx			; CHECK-NEXT: cmovbl %r14d, %ebx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %ebx			; CHECK-NEXT: cmoval %r15d, %ebx
	; CHECK-NEXT: shll $8, %ebx			; CHECK-NEXT: shll $8, %ebx
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r14d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmoval %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: movzbl %al, %eax
	; CHECK-NEXT: orl %ebx, %eax			; CHECK-NEXT: orl %ebx, %eax
	; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: pinsrw $3, %eax, %xmm0			; CHECK-NEXT: pinsrw $3, %eax, %xmm0
	; CHECK-NEXT: addq $56, %rsp			; CHECK-NEXT: addq $40, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15			; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> %f)			%x = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> %f)
	ret <8 x i8> %x			ret <8 x i8> %x
	}			}

	define <8 x i16> @test_unsigned_v8i16_v8f16(<8 x half> %f) nounwind {			define <8 x i16> @test_unsigned_v8i16_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i16_v8f16:			; CHECK-LABEL: test_unsigned_v8i16_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $136, %rsp			; CHECK-NEXT: subq $72, %rsp
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movaps %xmm7, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: xorl %ebx, %ebx			; CHECK-NEXT: xorl %ebx, %ebx
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: ucomiss %xmm1, %xmm0			; CHECK-NEXT: ucomiss %xmm1, %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $65535, %ebp # imm = 0xFFFF			; CHECK-NEXT: movl $65535, %ebp # imm = 0xFFFF
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: addq $136, %rsp			; CHECK-NEXT: addq $72, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> %f)			%x = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> %f)
	ret <8 x i16> %x			ret <8 x i16> %x
	}			}

	define <8 x i32> @test_unsigned_v8i32_v8f16(<8 x half> %f) nounwind {			define <8 x i32> @test_unsigned_v8i32_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i32_v8f16:			; CHECK-LABEL: test_unsigned_v8i32_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $136, %rsp			; CHECK-NEXT: subq $72, %rsp
	; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movaps %xmm3, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: xorl %ebx, %ebx			; CHECK-NEXT: xorl %ebx, %ebx
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: ucomiss %xmm1, %xmm0			; CHECK-NEXT: ucomiss %xmm1, %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $-1, %ebp			; CHECK-NEXT: movl $-1, %ebp
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %ebx, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %ebp, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm1			; CHECK-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]			; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]			; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: addq $136, %rsp			; CHECK-NEXT: addq $72, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> %f)			%x = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> %f)
	ret <8 x i32> %x			ret <8 x i32> %x
	}			}

	define <8 x i64> @test_unsigned_v8i64_v8f16(<8 x half> %f) nounwind {			define <8 x i64> @test_unsigned_v8i64_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i64_v8f16:			; CHECK-LABEL: test_unsigned_v8i64_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $136, %rsp			; CHECK-NEXT: subq $88, %rsp
	; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movaps %xmm1, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movaps %xmm0, %xmm1			; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: xorl %r14d, %r14d			; CHECK-NEXT: xorl %r14d, %r14d
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: ucomiss %xmm1, %xmm0			; CHECK-NEXT: ucomiss %xmm1, %xmm0
	; CHECK-NEXT: cmovbq %r14, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movq $-1, %rbx			; CHECK-NEXT: movq $-1, %rbx
	; CHECK-NEXT: cmovaq %rbx, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movaps %xmm0, %xmm1			; CHECK-NEXT: movdqa %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm0[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movaps %xmm0, %xmm1			; CHECK-NEXT: movdqa %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movaps %xmm0, %xmm1			; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movaps %xmm0, %xmm1			; CHECK-NEXT: movdqa %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movaps %xmm0, %xmm1			; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movaps %xmm0, %xmm1			; CHECK-NEXT: movdqa %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movaps %xmm0, %xmm1			; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r14, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbx, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm3			; CHECK-NEXT: movq %rdx, %xmm3
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]			; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
	; CHECK-NEXT: addq $136, %rsp			; CHECK-NEXT: addq $88, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> %f)			%x = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> %f)
	ret <8 x i64> %x			ret <8 x i64> %x
	}			}

	define <8 x i128> @test_unsigned_v8i128_v8f16(<8 x half> %f) nounwind {			define <8 x i128> @test_unsigned_v8i128_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i128_v8f16:			; CHECK-LABEL: test_unsigned_v8i128_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15			; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13			; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12			; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $88, %rsp			; CHECK-NEXT: subq $104, %rsp
	; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movq %rdi, %rbx			; CHECK-NEXT: movq %rdi, %rbx
				; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: xorl %r12d, %r12d			; CHECK-NEXT: xorl %r12d, %r12d
	; CHECK-NEXT: xorps %xmm0, %xmm0			; CHECK-NEXT: pxor %xmm0, %xmm0
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
	; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss %xmm0, %xmm1			; CHECK-NEXT: ucomiss %xmm0, %xmm1
	; CHECK-NEXT: cmovbq %r12, %rdx			; CHECK-NEXT: cmovbq %r12, %rdx
	; CHECK-NEXT: cmovbq %r12, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: movq $-1, %r13			; CHECK-NEXT: movq $-1, %r13
	; CHECK-NEXT: cmovaq %r13, %rax			; CHECK-NEXT: cmovaq %r13, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovaq %r13, %rdx			; CHECK-NEXT: cmovaq %r13, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r12, %rdx			; CHECK-NEXT: cmovbq %r12, %rdx
	; CHECK-NEXT: cmovbq %r12, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r13, %rax			; CHECK-NEXT: cmovaq %r13, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovaq %r13, %rdx			; CHECK-NEXT: cmovaq %r13, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrlq $48, %xmm0
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r12, %rdx			; CHECK-NEXT: cmovbq %r12, %rdx
	; CHECK-NEXT: cmovbq %r12, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r13, %rax			; CHECK-NEXT: cmovaq %r13, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovaq %r13, %rdx			; CHECK-NEXT: cmovaq %r13, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r12, %rdx			; CHECK-NEXT: cmovbq %r12, %rdx
	; CHECK-NEXT: cmovbq %r12, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r13, %rax			; CHECK-NEXT: cmovaq %r13, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovaq %r13, %rdx			; CHECK-NEXT: cmovaq %r13, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movq %rdx, %rbp			; CHECK-NEXT: movq %rdx, %rbp
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r12, %rbp			; CHECK-NEXT: cmovbq %r12, %rbp
	; CHECK-NEXT: cmovbq %r12, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r13, %rax			; CHECK-NEXT: cmovaq %r13, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovaq %r13, %rbp			; CHECK-NEXT: cmovaq %r13, %rbp
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movq %rax, %r14			; CHECK-NEXT: movq %rax, %r14
	; CHECK-NEXT: movq %rdx, %r15			; CHECK-NEXT: movq %rdx, %r15
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r12, %r15			; CHECK-NEXT: cmovbq %r12, %r15
	; CHECK-NEXT: cmovbq %r12, %r14			; CHECK-NEXT: cmovbq %r12, %r14
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r13, %r14			; CHECK-NEXT: cmovaq %r13, %r14
	; CHECK-NEXT: cmovaq %r13, %r15			; CHECK-NEXT: cmovaq %r13, %r15
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movq %rax, %r12			; CHECK-NEXT: movq %rax, %r12
	; CHECK-NEXT: movq %rdx, %r13			; CHECK-NEXT: movq %rdx, %r13
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $0, %eax			; CHECK-NEXT: movl $0, %eax
	; CHECK-NEXT: cmovbq %rax, %r13			; CHECK-NEXT: cmovbq %rax, %r13
	; CHECK-NEXT: cmovbq %rax, %r12			; CHECK-NEXT: cmovbq %rax, %r12
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movq $-1, %rax			; CHECK-NEXT: movq $-1, %rax
	; CHECK-NEXT: cmovaq %rax, %r12			; CHECK-NEXT: cmovaq %rax, %r12
	; CHECK-NEXT: cmovaq %rax, %r13			; CHECK-NEXT: cmovaq %rax, %r13
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __extendhfsf2@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $0, %ecx			; CHECK-NEXT: movl $0, %ecx
	; CHECK-NEXT: cmovbq %rcx, %rdx			; CHECK-NEXT: cmovbq %rcx, %rdx
	; CHECK-NEXT: cmovbq %rcx, %rax			; CHECK-NEXT: cmovbq %rcx, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movq $-1, %rcx			; CHECK-NEXT: movq $-1, %rcx
	; CHECK-NEXT: cmovaq %rcx, %rax			; CHECK-NEXT: cmovaq %rcx, %rax
	; CHECK-NEXT: cmovaq %rcx, %rdx			; CHECK-NEXT: cmovaq %rcx, %rdx
	; CHECK-NEXT: movq %rdx, 120(%rbx)			; CHECK-NEXT: movq %rdx, 8(%rbx)
	; CHECK-NEXT: movq %rax, 112(%rbx)			; CHECK-NEXT: movq %rax, (%rbx)
	; CHECK-NEXT: movq %r13, 104(%rbx)			; CHECK-NEXT: movq %r13, 120(%rbx)
	; CHECK-NEXT: movq %r12, 96(%rbx)			; CHECK-NEXT: movq %r12, 112(%rbx)
	; CHECK-NEXT: movq %r15, 88(%rbx)			; CHECK-NEXT: movq %r15, 104(%rbx)
	; CHECK-NEXT: movq %r14, 80(%rbx)			; CHECK-NEXT: movq %r14, 96(%rbx)
	; CHECK-NEXT: movq %rbp, 72(%rbx)			; CHECK-NEXT: movq %rbp, 88(%rbx)
				; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
				; CHECK-NEXT: movq %rax, 80(%rbx)
				; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
				; CHECK-NEXT: movq %rax, 72(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 64(%rbx)			; CHECK-NEXT: movq %rax, 64(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 56(%rbx)			; CHECK-NEXT: movq %rax, 56(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 48(%rbx)			; CHECK-NEXT: movq %rax, 48(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 40(%rbx)			; CHECK-NEXT: movq %rax, 40(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 32(%rbx)			; CHECK-NEXT: movq %rax, 32(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 24(%rbx)			; CHECK-NEXT: movq %rax, 24(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 16(%rbx)			; CHECK-NEXT: movq %rax, 16(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 8(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, (%rbx)
	; CHECK-NEXT: movq %rbx, %rax			; CHECK-NEXT: movq %rbx, %rax
	; CHECK-NEXT: addq $88, %rsp			; CHECK-NEXT: addq $104, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12			; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13			; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15			; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i128> @llvm.fptoui.sat.v8i128.v8f16(<8 x half> %f)			%x = call <8 x i128> @llvm.fptoui.sat.v8i128.v8f16(<8 x half> %f)
	ret <8 x i128> %x			ret <8 x i128> %x
	}			}

llvm/test/CodeGen/X86/frem.ll

Show First 20 Lines • Show All 489 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%frem = frem <2 x double> %a0, %a1		%frem = frem <2 x double> %a0, %a1
store <2 x double> %frem, ptr%p3		store <2 x double> %frem, ptr%p3
ret void		ret void
}		}

define void @frem_v32f16(<32 x half> %a0, <32 x half> %a1, ptr%p3) nounwind {		define void @frem_v32f16(<32 x half> %a0, <32 x half> %a1, ptr%p3) nounwind {
; CHECK-LABEL: frem_v32f16:		; CHECK-LABEL: frem_v32f16:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: pushq %rbp
; CHECK-NEXT: pushq %r15
; CHECK-NEXT: pushq %r14
; CHECK-NEXT: pushq %r13
; CHECK-NEXT: pushq %r12
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
; CHECK-NEXT: subq $1032, %rsp # imm = 0x408		; CHECK-NEXT: subq $176, %rsp
; CHECK-NEXT: movq %rdi, %rbx		; CHECK-NEXT: movq %rdi, %rbx
; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm5, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill		; CHECK-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1		; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm4, %xmm0
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: punpckhqdq {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: punpckhqdq {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, (%rsp) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, (%rsp) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, (%rsp) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: punpckhqdq {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
		; CHECK-NEXT: punpcklqdq (%rsp), %xmm1 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, (%rsp) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: punpckhqdq {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, (%rsp) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, (%rsp) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: pextrw $0, %xmm0, %eax		; CHECK-NEXT: movdqa (%rsp), %xmm1 # 16-byte Reload
; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
; CHECK-NEXT: pextrw $0, %xmm0, %eax		; CHECK-NEXT: movdqa %xmm1, 48(%rbx)
; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps %xmm0, 32(%rbx)
; CHECK-NEXT: pextrw $0, %xmm0, %esi		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps %xmm0, 16(%rbx)
; CHECK-NEXT: pextrw $0, %xmm0, %edi		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps %xmm0, (%rbx)
; CHECK-NEXT: pextrw $0, %xmm0, %eax		; CHECK-NEXT: addq $176, %rsp
; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %ecx
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %edx
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r11d
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %ebp
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r14d
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r15d
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r12d
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r13d
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r8d
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r9d
; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %r10d # 4-byte Reload
; CHECK-NEXT: movw %r10w, 62(%rbx)
; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
; CHECK-NEXT: movw %ax, 60(%rbx)
; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
; CHECK-NEXT: movw %ax, 58(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r10d
; CHECK-NEXT: movw %si, 56(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %esi
; CHECK-NEXT: movw %di, 54(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %edi
; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
; CHECK-NEXT: movw %ax, 52(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %cx, 50(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %ecx
; CHECK-NEXT: movw %dx, 48(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %edx
; CHECK-NEXT: movw %r11w, 46(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r11d
; CHECK-NEXT: movw %bp, 44(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %ebp
; CHECK-NEXT: movw %r14w, 42(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r14d
; CHECK-NEXT: movw %r15w, 40(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r15d
; CHECK-NEXT: movw %r12w, 38(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r12d
; CHECK-NEXT: movw %r13w, 36(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r13d
; CHECK-NEXT: movw %r8w, 34(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r8d
; CHECK-NEXT: movw %r9w, 32(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r9d
; CHECK-NEXT: movw %r10w, 30(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %r10d
; CHECK-NEXT: movw %si, 28(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %esi
; CHECK-NEXT: movw %di, 26(%rbx)
; CHECK-NEXT: movw %ax, 24(%rbx)
; CHECK-NEXT: movw %cx, 22(%rbx)
; CHECK-NEXT: movw %dx, 20(%rbx)
; CHECK-NEXT: movw %r11w, 18(%rbx)
; CHECK-NEXT: movw %bp, 16(%rbx)
; CHECK-NEXT: movw %r14w, 14(%rbx)
; CHECK-NEXT: movw %r15w, 12(%rbx)
; CHECK-NEXT: movw %r12w, 10(%rbx)
; CHECK-NEXT: movw %r13w, 8(%rbx)
; CHECK-NEXT: movw %r8w, 6(%rbx)
; CHECK-NEXT: movw %r9w, 4(%rbx)
; CHECK-NEXT: movw %r10w, 2(%rbx)
; CHECK-NEXT: movw %si, (%rbx)
; CHECK-NEXT: addq $1032, %rsp # imm = 0x408
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: popq %r12
; CHECK-NEXT: popq %r13
; CHECK-NEXT: popq %r14
; CHECK-NEXT: popq %r15
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%frem = frem <32 x half> %a0, %a1		%frem = frem <32 x half> %a0, %a1
store <32 x half> %frem, ptr%p3		store <32 x half> %frem, ptr%p3
ret void		ret void
}		}

define void @frem_v16f16(<16 x half> %a0, <16 x half> %a1, ptr%p3) nounwind {		define void @frem_v16f16(<16 x half> %a0, <16 x half> %a1, ptr%p3) nounwind {
; CHECK-LABEL: frem_v16f16:		; CHECK-LABEL: frem_v16f16:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
; CHECK-NEXT: subq $512, %rsp # imm = 0x200		; CHECK-NEXT: subq $112, %rsp
; CHECK-NEXT: movq %rdi, %rbx		; CHECK-NEXT: movq %rdi, %rbx
; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm2, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movdqa %xmm2, %xmm0
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: punpckhqdq {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, (%rsp) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, (%rsp) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, (%rsp) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: punpckhqdq {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, (%rsp) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd (%rsp), %xmm0 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: pextrw $0, %xmm0, %eax		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: movw %ax, 30(%rbx)		; CHECK-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: punpckldq (%rsp), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
; CHECK-NEXT: movw %ax, 28(%rbx)		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
; CHECK-NEXT: pextrw $0, %xmm0, %eax		; CHECK-NEXT: movdqa %xmm1, 16(%rbx)
; CHECK-NEXT: movw %ax, 26(%rbx)		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps %xmm0, (%rbx)
; CHECK-NEXT: pextrw $0, %xmm0, %eax		; CHECK-NEXT: addq $112, %rsp
; CHECK-NEXT: movw %ax, 24(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 22(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 20(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 18(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 16(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 14(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 12(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 10(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 8(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 6(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 4(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 2(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, (%rbx)
; CHECK-NEXT: addq $512, %rsp # imm = 0x200
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%frem = frem <16 x half> %a0, %a1		%frem = frem <16 x half> %a0, %a1
store <16 x half> %frem, ptr%p3		store <16 x half> %frem, ptr%p3
ret void		ret void
}		}

define void @frem_v8f16(<8 x half> %a0, <8 x half> %a1, ptr%p3) nounwind {		define void @frem_v8f16(<8 x half> %a0, <8 x half> %a1, ptr%p3) nounwind {
; CHECK-LABEL: frem_v8f16:		; CHECK-LABEL: frem_v8f16:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
; CHECK-NEXT: subq $240, %rsp		; CHECK-NEXT: subq $80, %rsp
; CHECK-NEXT: movq %rdi, %rbx		; CHECK-NEXT: movq %rdi, %rbx
; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movd %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%rsp), %xmm1
; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa %xmm1, %xmm0
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, (%rsp) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, (%rsp) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrldq {{.*#+}} xmm0 = xmm0[10,11,12,13,14,15],zero,zero,zero,zero,zero,zero,zero,zero,zero,zero
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: punpckhqdq {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, (%rsp) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrlq $48, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: punpcklwd (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-NEXT: psrld $16, %xmm0
; CHECK-NEXT: callq __extendhfsf2@PLT		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movaps %xmm0, %xmm1		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
; CHECK-NEXT: movd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload		; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq fmodf@PLT		; CHECK-NEXT: callq fmodf@PLT
; CHECK-NEXT: callq __truncsfhf2@PLT		; CHECK-NEXT: callq __truncsfhf2@PLT
; CHECK-NEXT: pextrw $0, %xmm0, %eax		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
; CHECK-NEXT: movw %ax, 14(%rbx)		; CHECK-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: punpckldq (%rsp), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
; CHECK-NEXT: movw %ax, 12(%rbx)		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
; CHECK-NEXT: pextrw $0, %xmm0, %eax		; CHECK-NEXT: movdqa %xmm1, (%rbx)
; CHECK-NEXT: movw %ax, 10(%rbx)		; CHECK-NEXT: addq $80, %rsp
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 8(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 6(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 4(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, 2(%rbx)
; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: movw %ax, (%rbx)
; CHECK-NEXT: addq $240, %rsp
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%frem = frem <8 x half> %a0, %a1		%frem = frem <8 x half> %a0, %a1
store <8 x half> %frem, ptr%p3		store <8 x half> %frem, ptr%p3
ret void		ret void
}		}

define void @frem_v4f80(<4 x x86_fp80> %a0, <4 x x86_fp80> %a1, ptr%p3) nounwind {		define void @frem_v4f80(<4 x x86_fp80> %a0, <4 x x86_fp80> %a1, ptr%p3) nounwind {
▲ Show 20 Lines • Show All 54 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/half.ll

	Show First 20 Lines • Show All 675 Lines • ▼ Show 20 Lines
	; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax			; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
	; CHECK-LIBCALL-NEXT: movw %ax, 2(%rbx)			; CHECK-LIBCALL-NEXT: movw %ax, 2(%rbx)
	; CHECK-LIBCALL-NEXT: addq $64, %rsp			; CHECK-LIBCALL-NEXT: addq $64, %rsp
	; CHECK-LIBCALL-NEXT: popq %rbx			; CHECK-LIBCALL-NEXT: popq %rbx
	; CHECK-LIBCALL-NEXT: retq			; CHECK-LIBCALL-NEXT: retq
	;			;
	; BWON-F16C-LABEL: test_trunc64_vec4:			; BWON-F16C-LABEL: test_trunc64_vec4:
	; BWON-F16C: # %bb.0:			; BWON-F16C: # %bb.0:
	; BWON-F16C-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]			; BWON-F16C-NEXT: vcvtpd2ps %ymm0, %xmm0
	; BWON-F16C-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1			; BWON-F16C-NEXT: vcvtps2ph $0, %xmm0, (%rdi)
	; BWON-F16C-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; BWON-F16C-NEXT: vmovd %xmm1, %eax
	; BWON-F16C-NEXT: vextractf128 $1, %ymm0, %xmm1
	; BWON-F16C-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; BWON-F16C-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
	; BWON-F16C-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; BWON-F16C-NEXT: vmovd %xmm2, %ecx
	; BWON-F16C-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; BWON-F16C-NEXT: vmovd %xmm0, %edx
	; BWON-F16C-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
	; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; BWON-F16C-NEXT: vmovd %xmm0, %esi
	; BWON-F16C-NEXT: movw %si, 4(%rdi)
	; BWON-F16C-NEXT: movw %dx, (%rdi)
	; BWON-F16C-NEXT: movw %cx, 6(%rdi)
	; BWON-F16C-NEXT: movw %ax, 2(%rdi)
	; BWON-F16C-NEXT: vzeroupper			; BWON-F16C-NEXT: vzeroupper
	; BWON-F16C-NEXT: retq			; BWON-F16C-NEXT: retq
	;			;
	; CHECK-I686-LABEL: test_trunc64_vec4:			; CHECK-I686-LABEL: test_trunc64_vec4:
	; CHECK-I686: # %bb.0:			; CHECK-I686: # %bb.0:
	; CHECK-I686-NEXT: pushl %esi			; CHECK-I686-NEXT: pushl %esi
	; CHECK-I686-NEXT: subl $88, %esp			; CHECK-I686-NEXT: subl $88, %esp
	; CHECK-I686-NEXT: movaps %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill			; CHECK-I686-NEXT: movaps %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	▲ Show 20 Lines • Show All 440 Lines • ▼ Show 20 Lines
	; CHECK-LIBCALL-NEXT: .cfi_def_cfa_offset 8			; CHECK-LIBCALL-NEXT: .cfi_def_cfa_offset 8
	; CHECK-LIBCALL-NEXT: retq			; CHECK-LIBCALL-NEXT: retq
	;			;
	; BWON-F16C-LABEL: main.45:			; BWON-F16C-LABEL: main.45:
	; BWON-F16C: # %bb.0: # %entry			; BWON-F16C: # %bb.0: # %entry
	; BWON-F16C-NEXT: movzwl (%rax), %eax			; BWON-F16C-NEXT: movzwl (%rax), %eax
	; BWON-F16C-NEXT: vmovd %eax, %xmm0			; BWON-F16C-NEXT: vmovd %eax, %xmm0
	; BWON-F16C-NEXT: vpshuflw {{.*#+}} xmm1 = xmm0[0,0,0,0,4,5,6,7]			; BWON-F16C-NEXT: vpshuflw {{.*#+}} xmm1 = xmm0[0,0,0,0,4,5,6,7]
	; BWON-F16C-NEXT: vmovq %xmm1, %rax
	; BWON-F16C-NEXT: movq %rax, %rcx
	; BWON-F16C-NEXT: shrq $48, %rcx
	; BWON-F16C-NEXT: movq %rax, %rdx
	; BWON-F16C-NEXT: shrq $32, %rdx
	; BWON-F16C-NEXT: movl %eax, %esi
	; BWON-F16C-NEXT: shrl $16, %esi
	; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0			; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0
				; BWON-F16C-NEXT: xorl %eax, %eax
	; BWON-F16C-NEXT: vucomiss %xmm0, %xmm0			; BWON-F16C-NEXT: vucomiss %xmm0, %xmm0
	; BWON-F16C-NEXT: movl $32256, %edi # imm = 0x7E00			; BWON-F16C-NEXT: movl $65535, %ecx # imm = 0xFFFF
	; BWON-F16C-NEXT: cmovpl %edi, %esi			; BWON-F16C-NEXT: cmovnpl %eax, %ecx
	; BWON-F16C-NEXT: cmovpl %edi, %edx			; BWON-F16C-NEXT: vmovd %ecx, %xmm0
	; BWON-F16C-NEXT: cmovpl %edi, %ecx			; BWON-F16C-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]
	; BWON-F16C-NEXT: cmovpl %edi, %eax			; BWON-F16C-NEXT: vpblendvb %xmm0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0
	; BWON-F16C-NEXT: movw %ax, (%rax)			; BWON-F16C-NEXT: vmovq %xmm0, (%rax)
	; BWON-F16C-NEXT: movw %cx, (%rax)
	; BWON-F16C-NEXT: movw %dx, (%rax)
	; BWON-F16C-NEXT: movw %si, (%rax)
	; BWON-F16C-NEXT: retq			; BWON-F16C-NEXT: retq
	;			;
	; CHECK-I686-LABEL: main.45:			; CHECK-I686-LABEL: main.45:
	; CHECK-I686: # %bb.0: # %entry			; CHECK-I686: # %bb.0: # %entry
	; CHECK-I686-NEXT: pushl %edi			; CHECK-I686-NEXT: pushl %edi
	; CHECK-I686-NEXT: .cfi_def_cfa_offset 8			; CHECK-I686-NEXT: .cfi_def_cfa_offset 8
	; CHECK-I686-NEXT: pushl %esi			; CHECK-I686-NEXT: pushl %esi
	; CHECK-I686-NEXT: .cfi_def_cfa_offset 12			; CHECK-I686-NEXT: .cfi_def_cfa_offset 12
	▲ Show 20 Lines • Show All 83 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/pr31088.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+f16c \| FileCheck %s --check-prefix=F16C			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+f16c \| FileCheck %s --check-prefix=F16C
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+f16c -O0 \| FileCheck %s --check-prefix=F16C-O0			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+f16c -O0 \| FileCheck %s --check-prefix=F16C-O0

	define <1 x half> @ir_fadd_v1f16(<1 x half> %arg0, <1 x half> %arg1) nounwind {			define <1 x half> @ir_fadd_v1f16(<1 x half> %arg0, <1 x half> %arg1) nounwind {
	; X86-LABEL: ir_fadd_v1f16:			; X86-LABEL: ir_fadd_v1f16:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: subl $28, %esp			; X86-NEXT: subl $28, %esp
	; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0			; X86-NEXT: movups %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; X86-NEXT: movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: pextrw $0, %xmm0, %eax			; X86-NEXT: pextrw $0, %xmm0, %eax
	; X86-NEXT: movw %ax, (%esp)			; X86-NEXT: movw %ax, (%esp)
	; X86-NEXT: calll __extendhfsf2			; X86-NEXT: calll __extendhfsf2
	; X86-NEXT: movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload			; X86-NEXT: movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
	; X86-NEXT: pextrw $0, %xmm0, %eax			; X86-NEXT: pextrw $0, %xmm0, %eax
	; X86-NEXT: movw %ax, (%esp)			; X86-NEXT: movw %ax, (%esp)
	; X86-NEXT: fstps {{[0-9]+}}(%esp)			; X86-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-NEXT: calll __extendhfsf2			; X86-NEXT: calll __extendhfsf2
	; X86-NEXT: fstps {{[0-9]+}}(%esp)			; X86-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0			; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: movss %xmm0, (%esp)			; X86-NEXT: movss %xmm0, (%esp)
	; X86-NEXT: calll __truncsfhf2			; X86-NEXT: calll __truncsfhf2
	; X86-NEXT: addl $28, %esp			; X86-NEXT: addl $28, %esp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: ir_fadd_v1f16:			; X64-LABEL: ir_fadd_v1f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: subq $40, %rsp
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; X64-NEXT: movaps %xmm1, %xmm0			; X64-NEXT: movaps %xmm1, %xmm0
	; X64-NEXT: callq __extendhfsf2@PLT			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: movss %xmm0, (%rsp) # 4-byte Spill			; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; X64-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; X64-NEXT: # xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: callq __extendhfsf2@PLT			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: addss (%rsp), %xmm0 # 4-byte Folded Reload			; X64-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
	; X64-NEXT: callq __truncsfhf2@PLT			; X64-NEXT: callq __truncsfhf2@PLT
	; X64-NEXT: popq %rax			; X64-NEXT: addq $40, %rsp
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; F16C-LABEL: ir_fadd_v1f16:			; F16C-LABEL: ir_fadd_v1f16:
	; F16C: # %bb.0:			; F16C: # %bb.0:
	; F16C-NEXT: vpextrw $0, %xmm0, %eax			; F16C-NEXT: vpextrw $0, %xmm0, %eax
	; F16C-NEXT: vpextrw $0, %xmm1, %ecx			; F16C-NEXT: vpextrw $0, %xmm1, %ecx
	; F16C-NEXT: movzwl %cx, %ecx			; F16C-NEXT: movzwl %cx, %ecx
	; F16C-NEXT: vmovd %ecx, %xmm0			; F16C-NEXT: vmovd %ecx, %xmm0
	Show All 30 Lines
	; F16C-O0-NEXT: retq			; F16C-O0-NEXT: retq
	%retval = fadd <1 x half> %arg0, %arg1			%retval = fadd <1 x half> %arg0, %arg1
	ret <1 x half> %retval			ret <1 x half> %retval
	}			}

	define <2 x half> @ir_fadd_v2f16(<2 x half> %arg0, <2 x half> %arg1) nounwind {			define <2 x half> @ir_fadd_v2f16(<2 x half> %arg0, <2 x half> %arg1) nounwind {
	; X86-LABEL: ir_fadd_v2f16:			; X86-LABEL: ir_fadd_v2f16:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: subl $80, %esp			; X86-NEXT: subl $84, %esp
	; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill			; X86-NEXT: movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0			; X86-NEXT: psrld $16, %xmm0
	; X86-NEXT: movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill			; X86-NEXT: movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0			; X86-NEXT: movdqa %xmm1, %xmm0
				; X86-NEXT: psrld $16, %xmm0
	; X86-NEXT: movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill			; X86-NEXT: movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0			; X86-NEXT: pextrw $0, %xmm1, %eax
	; X86-NEXT: pextrw $0, %xmm0, %eax
	; X86-NEXT: movw %ax, (%esp)			; X86-NEXT: movw %ax, (%esp)
	; X86-NEXT: calll __extendhfsf2			; X86-NEXT: calll __extendhfsf2
	; X86-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill			; X86-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
	; X86-NEXT: movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload			; X86-NEXT: movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
	; X86-NEXT: pextrw $0, %xmm0, %eax			; X86-NEXT: pextrw $0, %xmm0, %eax
	; X86-NEXT: movw %ax, (%esp)			; X86-NEXT: movw %ax, (%esp)
	; X86-NEXT: calll __extendhfsf2			; X86-NEXT: calll __extendhfsf2
	; X86-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill			; X86-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
	Show All 10 Lines
	; X86-NEXT: calll __extendhfsf2			; X86-NEXT: calll __extendhfsf2
	; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0			; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: movss %xmm0, (%esp)			; X86-NEXT: movss %xmm0, (%esp)
	; X86-NEXT: fstps {{[0-9]+}}(%esp)			; X86-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload			; X86-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload
	; X86-NEXT: fstps {{[0-9]+}}(%esp)			; X86-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-NEXT: calll __truncsfhf2			; X86-NEXT: calll __truncsfhf2
	; X86-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; X86-NEXT: movups %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0			; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: movss %xmm0, (%esp)			; X86-NEXT: movss %xmm0, (%esp)
	; X86-NEXT: calll __truncsfhf2			; X86-NEXT: calll __truncsfhf2
	; X86-NEXT: movaps %xmm0, %xmm1			; X86-NEXT: movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm1 # 16-byte Reload
	; X86-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload			; X86-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; X86-NEXT: # xmm0 = mem[0],zero,zero,zero			; X86-NEXT: addl $84, %esp
	; X86-NEXT: addl $80, %esp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: ir_fadd_v2f16:			; X64-LABEL: ir_fadd_v2f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: subq $24, %rsp			; X64-NEXT: subq $72, %rsp
	; X64-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movdqa %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; X64-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: psrld $16, %xmm0
	; X64-NEXT: movaps %xmm2, %xmm0			; X64-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
				; X64-NEXT: movdqa %xmm1, %xmm0
				; X64-NEXT: psrld $16, %xmm0
	; X64-NEXT: callq __extendhfsf2@PLT			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; X64-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; X64-NEXT: # xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: callq __extendhfsf2@PLT			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; X64-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
	; X64-NEXT: callq __truncsfhf2@PLT			; X64-NEXT: callq __truncsfhf2@PLT
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; X64-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; X64-NEXT: # xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: callq __extendhfsf2@PLT			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; X64-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; X64-NEXT: # xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: callq __extendhfsf2@PLT			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; X64-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
	; X64-NEXT: callq __truncsfhf2@PLT			; X64-NEXT: callq __truncsfhf2@PLT
	; X64-NEXT: movaps %xmm0, %xmm1			; X64-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; X64-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; X64-NEXT: # xmm0 = mem[0],zero,zero,zero			; X64-NEXT: addq $72, %rsp
	; X64-NEXT: addq $24, %rsp
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; F16C-LABEL: ir_fadd_v2f16:			; F16C-LABEL: ir_fadd_v2f16:
	; F16C: # %bb.0:			; F16C: # %bb.0:
	; F16C-NEXT: vpextrw $0, %xmm1, %eax			; F16C-NEXT: vcvtph2ps %xmm1, %ymm1
	; F16C-NEXT: vpextrw $0, %xmm3, %ecx			; F16C-NEXT: vcvtph2ps %xmm0, %ymm0
	; F16C-NEXT: vpextrw $0, %xmm0, %edx			; F16C-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; F16C-NEXT: vpextrw $0, %xmm2, %esi			; F16C-NEXT: vcvtps2ph $4, %ymm0, %xmm0
	; F16C-NEXT: movzwl %si, %esi			; F16C-NEXT: vzeroupper
	; F16C-NEXT: vmovd %esi, %xmm0
	; F16C-NEXT: vcvtph2ps %xmm0, %xmm0
	; F16C-NEXT: movzwl %dx, %edx
	; F16C-NEXT: vmovd %edx, %xmm1
	; F16C-NEXT: vcvtph2ps %xmm1, %xmm1
	; F16C-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; F16C-NEXT: vmovd %xmm0, %edx
	; F16C-NEXT: vpinsrw $0, %edx, %xmm0, %xmm0
	; F16C-NEXT: movzwl %cx, %ecx
	; F16C-NEXT: vmovd %ecx, %xmm1
	; F16C-NEXT: vcvtph2ps %xmm1, %xmm1
	; F16C-NEXT: movzwl %ax, %eax
	; F16C-NEXT: vmovd %eax, %xmm2
	; F16C-NEXT: vcvtph2ps %xmm2, %xmm2
	; F16C-NEXT: vaddss %xmm1, %xmm2, %xmm1
	; F16C-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; F16C-NEXT: vmovd %xmm1, %eax
	; F16C-NEXT: vpinsrw $0, %eax, %xmm0, %xmm1
	; F16C-NEXT: retq			; F16C-NEXT: retq
	;			;
	; F16C-O0-LABEL: ir_fadd_v2f16:			; F16C-O0-LABEL: ir_fadd_v2f16:
	; F16C-O0: # %bb.0:			; F16C-O0: # %bb.0:
	; F16C-O0-NEXT: vpextrw $0, %xmm2, %eax			; F16C-O0-NEXT: vcvtph2ps %xmm1, %ymm1
	; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax			; F16C-O0-NEXT: vcvtph2ps %xmm0, %ymm0
	; F16C-O0-NEXT: movzwl %ax, %eax			; F16C-O0-NEXT: vaddps %ymm1, %ymm0, %ymm0
	; F16C-O0-NEXT: vmovd %eax, %xmm2			; F16C-O0-NEXT: vcvtps2ph $4, %ymm0, %xmm0
	; F16C-O0-NEXT: vcvtph2ps %xmm2, %xmm2			; F16C-O0-NEXT: vzeroupper
	; F16C-O0-NEXT: vpextrw $0, %xmm0, %eax
	; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax
	; F16C-O0-NEXT: movzwl %ax, %eax
	; F16C-O0-NEXT: vmovd %eax, %xmm0
	; F16C-O0-NEXT: vcvtph2ps %xmm0, %xmm0
	; F16C-O0-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; F16C-O0-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; F16C-O0-NEXT: vmovd %xmm0, %eax
	; F16C-O0-NEXT: movw %ax, %cx
	; F16C-O0-NEXT: # implicit-def: $eax
	; F16C-O0-NEXT: movw %cx, %ax
	; F16C-O0-NEXT: # implicit-def: $xmm0
	; F16C-O0-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
	; F16C-O0-NEXT: vpextrw $0, %xmm3, %eax
	; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax
	; F16C-O0-NEXT: movzwl %ax, %eax
	; F16C-O0-NEXT: vmovd %eax, %xmm2
	; F16C-O0-NEXT: vcvtph2ps %xmm2, %xmm2
	; F16C-O0-NEXT: vpextrw $0, %xmm1, %eax
	; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax
	; F16C-O0-NEXT: movzwl %ax, %eax
	; F16C-O0-NEXT: vmovd %eax, %xmm1
	; F16C-O0-NEXT: vcvtph2ps %xmm1, %xmm1
	; F16C-O0-NEXT: vaddss %xmm2, %xmm1, %xmm1
	; F16C-O0-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; F16C-O0-NEXT: vmovd %xmm1, %eax
	; F16C-O0-NEXT: movw %ax, %cx
	; F16C-O0-NEXT: # implicit-def: $eax
	; F16C-O0-NEXT: movw %cx, %ax
	; F16C-O0-NEXT: # implicit-def: $xmm1
	; F16C-O0-NEXT: vpinsrw $0, %eax, %xmm1, %xmm1
	; F16C-O0-NEXT: retq			; F16C-O0-NEXT: retq
	%retval = fadd <2 x half> %arg0, %arg1			%retval = fadd <2 x half> %arg0, %arg1
	ret <2 x half> %retval			ret <2 x half> %retval
	}			}

llvm/test/CodeGen/X86/pr47000.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mcpu=pentium4 -O0 \| FileCheck %s			; RUN: llc < %s -mcpu=pentium4 -O0 \| FileCheck %s

	target datalayout = "e-m:e-p:32:32-p270:32:32-p271:32:32-p272:64:64-f64:32:64-f80:32-n8:16:32-S128"			target datalayout = "e-m:e-p:32:32-p270:32:32-p271:32:32-p272:64:64-f64:32:64-f80:32-n8:16:32-S128"
	target triple = "i386-unknown-linux-unknown"			target triple = "i386-unknown-linux-unknown"

	define <4 x half> @doTheTestMod(<4 x half> %0, <4 x half> %1) nounwind {			define <4 x half> @doTheTestMod(<4 x half> %0, <4 x half> %1) nounwind {
	; CHECK-LABEL: doTheTestMod:			; CHECK-LABEL: doTheTestMod:
	; CHECK: # %bb.0: # %Entry			; CHECK: # %bb.0: # %Entry
	; CHECK-NEXT: subl $124, %esp			; CHECK-NEXT: subl $140, %esp
	; CHECK-NEXT: # implicit-def: $xmm3			; CHECK-NEXT: movaps %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm3			; CHECK-NEXT: movaps %xmm0, %xmm6
	; CHECK-NEXT: # implicit-def: $xmm2			; CHECK-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm2			; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: # implicit-def: $xmm1			; CHECK-NEXT: movaps %xmm0, %xmm3
	; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm1			; CHECK-NEXT: psrlq $48, %xmm3
	; CHECK-NEXT: # implicit-def: $xmm0			; CHECK-NEXT: movaps %xmm0, %xmm2
	; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0			; CHECK-NEXT: shufps {{.*#+}} xmm2 = xmm2[1,1,1,1]
	; CHECK-NEXT: # implicit-def: $xmm4			; CHECK-NEXT: psrld $16, %xmm0
	; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm4			; CHECK-NEXT: movaps %xmm6, %xmm7
	; CHECK-NEXT: # implicit-def: $xmm5			; CHECK-NEXT: movaps %xmm6, %xmm4
	; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm5			; CHECK-NEXT: psrlq $48, %xmm4
	; CHECK-NEXT: # implicit-def: $xmm6			; CHECK-NEXT: movaps %xmm6, %xmm5
	; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm6			; CHECK-NEXT: shufps {{.*#+}} xmm5 = xmm5[1,1,1,1]
	; CHECK-NEXT: # implicit-def: $xmm7			; CHECK-NEXT: psrld $16, %xmm6
	; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm7
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: pextrw $0, %xmm7, %eax			; CHECK-NEXT: pextrw $0, %xmm7, %eax
	; CHECK-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: pextrw $0, %xmm6, %eax			; CHECK-NEXT: pextrw $0, %xmm6, %eax
	; CHECK-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: pextrw $0, %xmm5, %eax			; CHECK-NEXT: pextrw $0, %xmm5, %eax
	; CHECK-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: pextrw $0, %xmm4, %eax			; CHECK-NEXT: pextrw $0, %xmm4, %eax
	; CHECK-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: pextrw $0, %xmm3, %eax			; CHECK-NEXT: pextrw $0, %xmm3, %eax
	; CHECK-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: pextrw $0, %xmm2, %eax			; CHECK-NEXT: pextrw $0, %xmm2, %eax
	; CHECK-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: pextrw $0, %xmm1, %eax			; CHECK-NEXT: pextrw $0, %xmm0, %eax
	; CHECK-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: pextrw $0, %xmm0, %eax			; CHECK-NEXT: pextrw $0, %xmm1, %eax
	; CHECK-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: # implicit-def: $xmm0			; CHECK-NEXT: # implicit-def: $xmm0
	; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0			; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: # implicit-def: $xmm0			; CHECK-NEXT: # implicit-def: $xmm0
	; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0			; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: fxch %st(1)			; CHECK-NEXT: fxch %st(1)
	; CHECK-NEXT: fstps 4(%eax)			; CHECK-NEXT: fstps 4(%eax)
	; CHECK-NEXT: fstps (%eax)			; CHECK-NEXT: fstps (%eax)
	; CHECK-NEXT: calll fmodf			; CHECK-NEXT: calll fmodf
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: fstps (%eax)			; CHECK-NEXT: fstps (%eax)
	; CHECK-NEXT: calll __truncsfhf2			; CHECK-NEXT: calll __truncsfhf2
	; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm2 # 4-byte Reload
	; CHECK-NEXT: # xmm2 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm1 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm1 # 4-byte Reload
	; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
	; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm2 # 4-byte Reload
	; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload			; CHECK-NEXT: # xmm2 = mem[0],zero,zero,zero
	; CHECK-NEXT: movaps %xmm0, %xmm3			; CHECK-NEXT: movaps %xmm0, %xmm3
	; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: pextrw $0, %xmm3, %edx			; CHECK-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]
	; CHECK-NEXT: # kill: def $dx killed $dx killed $edx			; CHECK-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; CHECK-NEXT: movw %dx, 6(%ecx)			; CHECK-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; CHECK-NEXT: pextrw $0, %xmm2, %edx			; CHECK-NEXT: addl $140, %esp
	; CHECK-NEXT: # kill: def $dx killed $dx killed $edx			; CHECK-NEXT: retl
	; CHECK-NEXT: movw %dx, 4(%ecx)
	; CHECK-NEXT: pextrw $0, %xmm1, %edx
	; CHECK-NEXT: # kill: def $dx killed $dx killed $edx
	; CHECK-NEXT: movw %dx, 2(%ecx)
	; CHECK-NEXT: pextrw $0, %xmm0, %edx
	; CHECK-NEXT: # kill: def $dx killed $dx killed $edx
	; CHECK-NEXT: movw %dx, (%ecx)
	; CHECK-NEXT: addl $124, %esp
	; CHECK-NEXT: retl $4
	Entry:			Entry:
	%x = alloca <4 x half>, align 8			%x = alloca <4 x half>, align 8
	%y = alloca <4 x half>, align 8			%y = alloca <4 x half>, align 8
	store <4 x half> %0, ptr %x, align 8			store <4 x half> %0, ptr %x, align 8
	store <4 x half> %1, ptr %y, align 8			store <4 x half> %1, ptr %y, align 8
	%2 = load <4 x half>, ptr %x, align 8			%2 = load <4 x half>, ptr %x, align 8
	%3 = load <4 x half>, ptr %y, align 8			%3 = load <4 x half>, ptr %y, align 8
	%4 = frem <4 x half> %2, %3			%4 = frem <4 x half> %2, %3
	ret <4 x half> %4			ret <4 x half> %4
	}			}

llvm/test/CodeGen/X86/shuffle-extract-subvector.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s

	define void @f(ptr %a, ptr %b, ptr %c) {			define void @f(ptr %a, ptr %b, ptr %c) {
	; CHECK-LABEL: f:			; CHECK-LABEL: f:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pinsrw $0, (%rdi), %xmm0			; CHECK-NEXT: pinsrw $0, (%rdi), %xmm0
	; CHECK-NEXT: pinsrw $0, 2(%rdi), %xmm1			; CHECK-NEXT: pinsrw $0, 2(%rdi), %xmm1
	; CHECK-NEXT: pinsrw $0, 4(%rdi), %xmm2			; CHECK-NEXT: pinsrw $0, 4(%rdi), %xmm2
	; CHECK-NEXT: pinsrw $0, 6(%rdi), %xmm3			; CHECK-NEXT: pinsrw $0, 6(%rdi), %xmm3
	; CHECK-NEXT: pinsrw $0, (%rsi), %xmm4			; CHECK-NEXT: pinsrw $0, (%rsi), %xmm4
	; CHECK-NEXT: pinsrw $0, 2(%rsi), %xmm5			; CHECK-NEXT: pinsrw $0, 2(%rsi), %xmm5
	; CHECK-NEXT: pinsrw $0, 4(%rsi), %xmm6			; CHECK-NEXT: pinsrw $0, 4(%rsi), %xmm6
	; CHECK-NEXT: pinsrw $0, 6(%rsi), %xmm7			; CHECK-NEXT: pinsrw $0, 6(%rsi), %xmm7
	; CHECK-NEXT: pextrw $0, %xmm7, %eax			; CHECK-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm7[0],xmm3[1],xmm7[1],xmm3[2],xmm7[2],xmm3[3],xmm7[3]
	; CHECK-NEXT: movw %ax, 14(%rdx)			; CHECK-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm6[0],xmm2[1],xmm6[1],xmm2[2],xmm6[2],xmm2[3],xmm6[3]
	; CHECK-NEXT: pextrw $0, %xmm3, %eax			; CHECK-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1]
	; CHECK-NEXT: movw %ax, 12(%rdx)			; CHECK-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]
	; CHECK-NEXT: pextrw $0, %xmm6, %eax			; CHECK-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3]
	; CHECK-NEXT: movw %ax, 10(%rdx)			; CHECK-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; CHECK-NEXT: pextrw $0, %xmm2, %eax			; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; CHECK-NEXT: movw %ax, 8(%rdx)			; CHECK-NEXT: movdqa %xmm0, (%rdx)
	; CHECK-NEXT: pextrw $0, %xmm5, %eax
	; CHECK-NEXT: movw %ax, 6(%rdx)
	; CHECK-NEXT: pextrw $0, %xmm1, %eax
	; CHECK-NEXT: movw %ax, 4(%rdx)
	; CHECK-NEXT: pextrw $0, %xmm4, %eax
	; CHECK-NEXT: movw %ax, 2(%rdx)
	; CHECK-NEXT: pextrw $0, %xmm0, %eax
	; CHECK-NEXT: movw %ax, (%rdx)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%tmp4 = load <4 x half>, ptr %a			%tmp4 = load <4 x half>, ptr %a
	%tmp5 = load <4 x half>, ptr %b			%tmp5 = load <4 x half>, ptr %b
	%tmp7 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 0, i32 4>			%tmp7 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 0, i32 4>
	%tmp8 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 1, i32 5>			%tmp8 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 1, i32 5>
	%tmp9 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 2, i32 6>			%tmp9 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 2, i32 6>
	%tmp10 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 3, i32 7>			%tmp10 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 3, i32 7>
	%tmp11 = extractelement <2 x half> %tmp7, i32 0			%tmp11 = extractelement <2 x half> %tmp7, i32 0
	Show All 18 Lines

llvm/test/CodeGen/X86/vec_fp_to_int.ll

	Show First 20 Lines • Show All 2,088 Lines • ▼ Show 20 Lines
	; AVX-LABEL: fptoui_8f32_to_8i32_const:			; AVX-LABEL: fptoui_8f32_to_8i32_const:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vmovaps {{.*#+}} ymm0 = [1,2,4,6,8,6,4,1]			; AVX-NEXT: vmovaps {{.*#+}} ymm0 = [1,2,4,6,8,6,4,1]
	; AVX-NEXT: retq			; AVX-NEXT: retq
	%cvt = fptoui <8 x float> <float 1.0, float 2.0, float 4.0, float 6.0, float 8.0, float 6.0, float 4.0, float 1.0> to <8 x i32>			%cvt = fptoui <8 x float> <float 1.0, float 2.0, float 4.0, float 6.0, float 8.0, float 6.0, float 4.0, float 1.0> to <8 x i32>
	ret <8 x i32> %cvt			ret <8 x i32> %cvt
	}			}

	;
	; Special Cases
	;

	define <4 x i32> @fptosi_2f16_to_4i32(<2 x half> %a) nounwind {
	; SSE-LABEL: fptosi_2f16_to_4i32:
	; SSE: # %bb.0:
	; SSE-NEXT: pushq %rbx
	; SSE-NEXT: subq $16, %rsp
	; SSE-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: cvttss2si %xmm0, %ebx
	; SSE-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; SSE-NEXT: # xmm0 = mem[0],zero,zero,zero
	; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: cvttss2si %xmm0, %eax
	; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movd %ebx, %xmm1
	; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE-NEXT: movq {{.*#+}} xmm0 = xmm1[0],zero
	; SSE-NEXT: addq $16, %rsp
	; SSE-NEXT: popq %rbx
	; SSE-NEXT: retq
	;
	; VEX-LABEL: fptosi_2f16_to_4i32:
	; VEX: # %bb.0:
	; VEX-NEXT: pushq %rbx
	; VEX-NEXT: subq $16, %rsp
	; VEX-NEXT: vmovss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; VEX-NEXT: callq __extendhfsf2@PLT
	; VEX-NEXT: vcvttss2si %xmm0, %ebx
	; VEX-NEXT: vmovss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; VEX-NEXT: # xmm0 = mem[0],zero,zero,zero
	; VEX-NEXT: callq __extendhfsf2@PLT
	; VEX-NEXT: vcvttss2si %xmm0, %eax
	; VEX-NEXT: vmovd %eax, %xmm0
	; VEX-NEXT: vmovd %ebx, %xmm1
	; VEX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; VEX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; VEX-NEXT: addq $16, %rsp
	; VEX-NEXT: popq %rbx
	; VEX-NEXT: retq
	;
	; AVX512-LABEL: fptosi_2f16_to_4i32:
	; AVX512: # %bb.0:
	; AVX512-NEXT: vpextrw $0, %xmm1, %eax
	; AVX512-NEXT: vpextrw $0, %xmm0, %ecx
	; AVX512-NEXT: movzwl %cx, %ecx
	; AVX512-NEXT: vmovd %ecx, %xmm0
	; AVX512-NEXT: vcvtph2ps %xmm0, %xmm0
	; AVX512-NEXT: vcvttss2si %xmm0, %ecx
	; AVX512-NEXT: movzwl %ax, %eax
	; AVX512-NEXT: vmovd %eax, %xmm0
	; AVX512-NEXT: vcvtph2ps %xmm0, %xmm0
	; AVX512-NEXT: vcvttss2si %xmm0, %eax
	; AVX512-NEXT: vmovd %eax, %xmm0
	; AVX512-NEXT: vmovd %ecx, %xmm1
	; AVX512-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; AVX512-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX512-NEXT: retq
	%cvt = fptosi <2 x half> %a to <2 x i32>
	%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	ret <4 x i32> %ext
	}
	RKSimonUnsubmitted Not Done Reply Inline Actions Why are we removing these? RKSimon: Why are we removing these?
	pengfeiAuthorUnsubmitted Done Reply Inline Actions It has been moved to "llvm/test/CodeGen/X86/vector-half-conversions.ll" The reason is it's failed with `-mtriple=i686` and `-mtriple=i686 -mattr=+sse` in this file now. This is expected because the ABI requests targets that at least have SSE2 to support the `half` type. pengfei: It has been moved to "llvm/test/CodeGen/X86/vector-half-conversions.ll" The reason is it's…

	define <4 x i32> @fptosi_2f80_to_4i32(<2 x x86_fp80> %a) nounwind {			define <4 x i32> @fptosi_2f80_to_4i32(<2 x x86_fp80> %a) nounwind {
	; SSE-LABEL: fptosi_2f80_to_4i32:			; SSE-LABEL: fptosi_2f80_to_4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: fldt {{[0-9]+}}(%rsp)			; SSE-NEXT: fldt {{[0-9]+}}(%rsp)
	; SSE-NEXT: fldt {{[0-9]+}}(%rsp)			; SSE-NEXT: fldt {{[0-9]+}}(%rsp)
	; SSE-NEXT: fnstcw -{{[0-9]+}}(%rsp)			; SSE-NEXT: fnstcw -{{[0-9]+}}(%rsp)
	; SSE-NEXT: movzwl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzwl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: orl $3072, %eax # imm = 0xC00			; SSE-NEXT: orl $3072, %eax # imm = 0xC00
	▲ Show 20 Lines • Show All 666 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-half-conversions.ll

Show First 20 Lines • Show All 655 Lines • ▼ Show 20 Lines	; ALL-NEXT: retq
%1 = fptrunc double %a0 to half		%1 = fptrunc double %a0 to half
%2 = bitcast half %1 to i16		%2 = bitcast half %1 to i16
ret i16 %2		ret i16 %2
}		}

define <2 x i16> @cvt_2f64_to_2i16(<2 x double> %a0) nounwind {		define <2 x i16> @cvt_2f64_to_2i16(<2 x double> %a0) nounwind {
; ALL-LABEL: cvt_2f64_to_2i16:		; ALL-LABEL: cvt_2f64_to_2i16:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm1		; ALL-NEXT: vcvtpd2ps %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1		; ALL-NEXT: vcvtps2ph $0, %xmm0, %xmm0
; ALL-NEXT: vmovd %xmm1, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; ALL-NEXT: vmovd %xmm0, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vmovaps -{{[0-9]+}}(%rsp), %xmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
%1 = fptrunc <2 x double> %a0 to <2 x half>		%1 = fptrunc <2 x double> %a0 to <2 x half>
%2 = bitcast <2 x half> %1 to <2 x i16>		%2 = bitcast <2 x half> %1 to <2 x i16>
ret <2 x i16> %2		ret <2 x i16> %2
}		}

define <4 x i16> @cvt_4f64_to_4i16(<4 x double> %a0) nounwind {		define <4 x i16> @cvt_4f64_to_4i16(<4 x double> %a0) nounwind {
; ALL-LABEL: cvt_4f64_to_4i16:		; ALL-LABEL: cvt_4f64_to_4i16:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1		; ALL-NEXT: vcvtpd2ps %ymm0, %xmm0
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm2		; ALL-NEXT: vcvtps2ph $0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; ALL-NEXT: vmovd %xmm2, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; ALL-NEXT: vmovd %xmm2, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; ALL-NEXT: vmovd %xmm1, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; ALL-NEXT: vmovd %xmm0, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vmovaps -{{[0-9]+}}(%rsp), %xmm0
; ALL-NEXT: vzeroupper		; ALL-NEXT: vzeroupper
; ALL-NEXT: retq		; ALL-NEXT: retq
%1 = fptrunc <4 x double> %a0 to <4 x half>		%1 = fptrunc <4 x double> %a0 to <4 x half>
%2 = bitcast <4 x half> %1 to <4 x i16>		%2 = bitcast <4 x half> %1 to <4 x i16>
ret <4 x i16> %2		ret <4 x i16> %2
}		}

define <8 x i16> @cvt_4f64_to_8i16_undef(<4 x double> %a0) nounwind {		define <8 x i16> @cvt_4f64_to_8i16_undef(<4 x double> %a0) nounwind {
; ALL-LABEL: cvt_4f64_to_8i16_undef:		; ALL-LABEL: cvt_4f64_to_8i16_undef:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1		; ALL-NEXT: vcvtpd2ps %ymm0, %xmm0
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm2		; ALL-NEXT: vcvtps2ph $0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; ALL-NEXT: vmovd %xmm2, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; ALL-NEXT: vmovd %xmm2, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; ALL-NEXT: vmovd %xmm1, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; ALL-NEXT: vmovd %xmm0, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vmovaps -{{[0-9]+}}(%rsp), %xmm0
; ALL-NEXT: vzeroupper		; ALL-NEXT: vzeroupper
; ALL-NEXT: retq		; ALL-NEXT: retq
%1 = fptrunc <4 x double> %a0 to <4 x half>		%1 = fptrunc <4 x double> %a0 to <4 x half>
%2 = bitcast <4 x half> %1 to <4 x i16>		%2 = bitcast <4 x half> %1 to <4 x i16>
%3 = shufflevector <4 x i16> %2, <4 x i16> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>		%3 = shufflevector <4 x i16> %2, <4 x i16> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
ret <8 x i16> %3		ret <8 x i16> %3
}		}

define <8 x i16> @cvt_4f64_to_8i16_zero(<4 x double> %a0) nounwind {		define <8 x i16> @cvt_4f64_to_8i16_zero(<4 x double> %a0) nounwind {
; ALL-LABEL: cvt_4f64_to_8i16_zero:		; ALL-LABEL: cvt_4f64_to_8i16_zero:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1		; ALL-NEXT: vcvtpd2ps %ymm0, %xmm0
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm2		; ALL-NEXT: vcvtps2ph $0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; ALL-NEXT: vmovd %xmm2, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; ALL-NEXT: vmovd %xmm2, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; ALL-NEXT: vmovd %xmm1, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; ALL-NEXT: vmovd %xmm0, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; ALL-NEXT: vzeroupper		; ALL-NEXT: vzeroupper
; ALL-NEXT: retq		; ALL-NEXT: retq
%1 = fptrunc <4 x double> %a0 to <4 x half>		%1 = fptrunc <4 x double> %a0 to <4 x half>
%2 = bitcast <4 x half> %1 to <4 x i16>		%2 = bitcast <4 x half> %1 to <4 x i16>
%3 = shufflevector <4 x i16> %2, <4 x i16> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>		%3 = shufflevector <4 x i16> %2, <4 x i16> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
ret <8 x i16> %3		ret <8 x i16> %3
}		}

define <8 x i16> @cvt_8f64_to_8i16(<8 x double> %a0) nounwind {		define <8 x i16> @cvt_8f64_to_8i16(<8 x double> %a0) nounwind {
; AVX1-LABEL: cvt_8f64_to_8i16:		; AVX1-LABEL: cvt_8f64_to_8i16:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]		; AVX1-NEXT: vcvtpd2ps %ymm1, %xmm1
; AVX1-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vcvtps2ph $0, %xmm1, %xmm1
; AVX1-NEXT: vcvtps2ph $4, %xmm2, %xmm2		; AVX1-NEXT: vcvtpd2ps %ymm0, %xmm0
; AVX1-NEXT: vmovd %xmm2, %eax		; AVX1-NEXT: vcvtps2ph $0, %xmm0, %xmm0
; AVX1-NEXT: shll $16, %eax		; AVX1-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX1-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
; AVX1-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; AVX1-NEXT: vmovd %xmm2, %ecx
; AVX1-NEXT: movzwl %cx, %ecx
; AVX1-NEXT: orl %eax, %ecx
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX1-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
; AVX1-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
; AVX1-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; AVX1-NEXT: vmovd %xmm2, %edx
; AVX1-NEXT: shll $16, %edx
; AVX1-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %eax
; AVX1-NEXT: movzwl %ax, %eax
; AVX1-NEXT: orl %edx, %eax
; AVX1-NEXT: shlq $32, %rax
; AVX1-NEXT: orq %rcx, %rax
; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
; AVX1-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %ecx
; AVX1-NEXT: shll $16, %ecx
; AVX1-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %edx
; AVX1-NEXT: movzwl %dx, %edx
; AVX1-NEXT: orl %ecx, %edx
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0
; AVX1-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX1-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX1-NEXT: vmovd %xmm1, %ecx
; AVX1-NEXT: shll $16, %ecx
; AVX1-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %esi
; AVX1-NEXT: movzwl %si, %esi
; AVX1-NEXT: orl %ecx, %esi
; AVX1-NEXT: shlq $32, %rsi
; AVX1-NEXT: orq %rdx, %rsi
; AVX1-NEXT: vmovq %rsi, %xmm0
; AVX1-NEXT: vmovq %rax, %xmm1
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: cvt_8f64_to_8i16:		; AVX2-LABEL: cvt_8f64_to_8i16:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]		; AVX2-NEXT: vcvtpd2ps %ymm1, %xmm1
; AVX2-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2		; AVX2-NEXT: vcvtps2ph $0, %xmm1, %xmm1
; AVX2-NEXT: vcvtps2ph $4, %xmm2, %xmm2		; AVX2-NEXT: vcvtpd2ps %ymm0, %xmm0
; AVX2-NEXT: vmovd %xmm2, %eax		; AVX2-NEXT: vcvtps2ph $0, %xmm0, %xmm0
; AVX2-NEXT: shll $16, %eax		; AVX2-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX2-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
; AVX2-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; AVX2-NEXT: vmovd %xmm2, %ecx
; AVX2-NEXT: movzwl %cx, %ecx
; AVX2-NEXT: orl %eax, %ecx
; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
; AVX2-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
; AVX2-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; AVX2-NEXT: vmovd %xmm2, %edx
; AVX2-NEXT: shll $16, %edx
; AVX2-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX2-NEXT: vmovd %xmm0, %eax
; AVX2-NEXT: movzwl %ax, %eax
; AVX2-NEXT: orl %edx, %eax
; AVX2-NEXT: shlq $32, %rax
; AVX2-NEXT: orq %rcx, %rax
; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
; AVX2-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX2-NEXT: vmovd %xmm0, %ecx
; AVX2-NEXT: shll $16, %ecx
; AVX2-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX2-NEXT: vmovd %xmm0, %edx
; AVX2-NEXT: movzwl %dx, %edx
; AVX2-NEXT: orl %ecx, %edx
; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm0
; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX2-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
; AVX2-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX2-NEXT: vmovd %xmm1, %ecx
; AVX2-NEXT: shll $16, %ecx
; AVX2-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX2-NEXT: vmovd %xmm0, %esi
; AVX2-NEXT: movzwl %si, %esi
; AVX2-NEXT: orl %ecx, %esi
; AVX2-NEXT: shlq $32, %rsi
; AVX2-NEXT: orq %rdx, %rsi
; AVX2-NEXT: vmovq %rsi, %xmm0
; AVX2-NEXT: vmovq %rax, %xmm1
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: cvt_8f64_to_8i16:		; AVX512-LABEL: cvt_8f64_to_8i16:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX512-NEXT: vcvtpd2ps %zmm0, %ymm0
; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1		; AVX512-NEXT: vcvtps2ph $4, %ymm0, %xmm0
; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX512-NEXT: vmovd %xmm1, %eax
; AVX512-NEXT: shll $16, %eax
; AVX512-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm1
; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX512-NEXT: vmovd %xmm1, %ecx
; AVX512-NEXT: movzwl %cx, %ecx
; AVX512-NEXT: orl %eax, %ecx
; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
; AVX512-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
; AVX512-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; AVX512-NEXT: vmovd %xmm2, %edx
; AVX512-NEXT: shll $16, %edx
; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX512-NEXT: vmovd %xmm1, %eax
; AVX512-NEXT: movzwl %ax, %eax
; AVX512-NEXT: orl %edx, %eax
; AVX512-NEXT: shlq $32, %rax
; AVX512-NEXT: orq %rcx, %rax
; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm0
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX512-NEXT: vmovd %xmm1, %ecx
; AVX512-NEXT: shll $16, %ecx
; AVX512-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm1
; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX512-NEXT: vmovd %xmm1, %edx
; AVX512-NEXT: movzwl %dx, %edx
; AVX512-NEXT: orl %ecx, %edx
; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX512-NEXT: vmovd %xmm1, %ecx
; AVX512-NEXT: shll $16, %ecx
; AVX512-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX512-NEXT: vmovd %xmm0, %esi
; AVX512-NEXT: movzwl %si, %esi
; AVX512-NEXT: orl %ecx, %esi
; AVX512-NEXT: shlq $32, %rsi
; AVX512-NEXT: orq %rdx, %rsi
; AVX512-NEXT: vmovq %rsi, %xmm0
; AVX512-NEXT: vmovq %rax, %xmm1
; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = fptrunc <8 x double> %a0 to <8 x half>		%1 = fptrunc <8 x double> %a0 to <8 x half>
%2 = bitcast <8 x half> %1 to <8 x i16>		%2 = bitcast <8 x half> %1 to <8 x i16>
ret <8 x i16> %2		ret <8 x i16> %2
}		}

;		;
Show All 12 Lines	; ALL-NEXT: retq
%2 = bitcast half %1 to i16		%2 = bitcast half %1 to i16
store i16 %2, ptr %a1		store i16 %2, ptr %a1
ret void		ret void
}		}

define void @store_cvt_2f64_to_2i16(<2 x double> %a0, ptr %a1) nounwind {		define void @store_cvt_2f64_to_2i16(<2 x double> %a0, ptr %a1) nounwind {
; ALL-LABEL: store_cvt_2f64_to_2i16:		; ALL-LABEL: store_cvt_2f64_to_2i16:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; ALL-NEXT: vcvtpd2ps %xmm0, %xmm0
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1		; ALL-NEXT: vcvtps2ph $0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1		; ALL-NEXT: vmovss %xmm0, (%rdi)
; ALL-NEXT: vmovd %xmm1, %eax
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; ALL-NEXT: vmovd %xmm0, %ecx
; ALL-NEXT: movw %cx, (%rdi)
; ALL-NEXT: movw %ax, 2(%rdi)
; ALL-NEXT: retq		; ALL-NEXT: retq
%1 = fptrunc <2 x double> %a0 to <2 x half>		%1 = fptrunc <2 x double> %a0 to <2 x half>
%2 = bitcast <2 x half> %1 to <2 x i16>		%2 = bitcast <2 x half> %1 to <2 x i16>
store <2 x i16> %2, ptr %a1		store <2 x i16> %2, ptr %a1
ret void		ret void
}		}

define void @store_cvt_4f64_to_4i16(<4 x double> %a0, ptr %a1) nounwind {		define void @store_cvt_4f64_to_4i16(<4 x double> %a0, ptr %a1) nounwind {
; ALL-LABEL: store_cvt_4f64_to_4i16:		; ALL-LABEL: store_cvt_4f64_to_4i16:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; ALL-NEXT: vcvtpd2ps %ymm0, %xmm0
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1		; ALL-NEXT: vcvtps2ph $0, %xmm0, (%rdi)
; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; ALL-NEXT: vmovd %xmm1, %eax
; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1
; ALL-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
; ALL-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; ALL-NEXT: vmovd %xmm2, %ecx
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; ALL-NEXT: vmovd %xmm0, %edx
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; ALL-NEXT: vmovd %xmm0, %esi
; ALL-NEXT: movw %si, 4(%rdi)
; ALL-NEXT: movw %dx, (%rdi)
; ALL-NEXT: movw %cx, 6(%rdi)
; ALL-NEXT: movw %ax, 2(%rdi)
; ALL-NEXT: vzeroupper		; ALL-NEXT: vzeroupper
; ALL-NEXT: retq		; ALL-NEXT: retq
%1 = fptrunc <4 x double> %a0 to <4 x half>		%1 = fptrunc <4 x double> %a0 to <4 x half>
%2 = bitcast <4 x half> %1 to <4 x i16>		%2 = bitcast <4 x half> %1 to <4 x i16>
store <4 x i16> %2, ptr %a1		store <4 x i16> %2, ptr %a1
ret void		ret void
}		}

define void @store_cvt_4f64_to_8i16_undef(<4 x double> %a0, ptr %a1) nounwind {		define void @store_cvt_4f64_to_8i16_undef(<4 x double> %a0, ptr %a1) nounwind {
; ALL-LABEL: store_cvt_4f64_to_8i16_undef:		; ALL-LABEL: store_cvt_4f64_to_8i16_undef:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1		; ALL-NEXT: vcvtpd2ps %ymm0, %xmm0
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm2		; ALL-NEXT: vcvtps2ph $0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; ALL-NEXT: vmovd %xmm2, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; ALL-NEXT: vmovd %xmm2, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; ALL-NEXT: vmovd %xmm1, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; ALL-NEXT: vmovd %xmm0, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vmovaps -{{[0-9]+}}(%rsp), %xmm0
; ALL-NEXT: vmovaps %xmm0, (%rdi)		; ALL-NEXT: vmovaps %xmm0, (%rdi)
; ALL-NEXT: vzeroupper		; ALL-NEXT: vzeroupper
; ALL-NEXT: retq		; ALL-NEXT: retq
%1 = fptrunc <4 x double> %a0 to <4 x half>		%1 = fptrunc <4 x double> %a0 to <4 x half>
%2 = bitcast <4 x half> %1 to <4 x i16>		%2 = bitcast <4 x half> %1 to <4 x i16>
%3 = shufflevector <4 x i16> %2, <4 x i16> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>		%3 = shufflevector <4 x i16> %2, <4 x i16> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
store <8 x i16> %3, ptr %a1		store <8 x i16> %3, ptr %a1
ret void		ret void
}		}

define void @store_cvt_4f64_to_8i16_zero(<4 x double> %a0, ptr %a1) nounwind {		define void @store_cvt_4f64_to_8i16_zero(<4 x double> %a0, ptr %a1) nounwind {
; ALL-LABEL: store_cvt_4f64_to_8i16_zero:		; ALL-LABEL: store_cvt_4f64_to_8i16_zero:
; ALL: # %bb.0:		; ALL: # %bb.0:
; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1		; ALL-NEXT: vcvtpd2ps %ymm0, %xmm0
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm2		; ALL-NEXT: vcvtps2ph $0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; ALL-NEXT: vmovd %xmm2, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; ALL-NEXT: vmovd %xmm2, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; ALL-NEXT: vmovd %xmm1, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; ALL-NEXT: vmovd %xmm0, %eax
; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; ALL-NEXT: vmovaps %xmm0, (%rdi)		; ALL-NEXT: vmovaps %xmm0, (%rdi)
; ALL-NEXT: vzeroupper		; ALL-NEXT: vzeroupper
; ALL-NEXT: retq		; ALL-NEXT: retq
%1 = fptrunc <4 x double> %a0 to <4 x half>		%1 = fptrunc <4 x double> %a0 to <4 x half>
%2 = bitcast <4 x half> %1 to <4 x i16>		%2 = bitcast <4 x half> %1 to <4 x i16>
%3 = shufflevector <4 x i16> %2, <4 x i16> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>		%3 = shufflevector <4 x i16> %2, <4 x i16> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
store <8 x i16> %3, ptr %a1		store <8 x i16> %3, ptr %a1
ret void		ret void
}		}

define void @store_cvt_8f64_to_8i16(<8 x double> %a0, ptr %a1) nounwind {		define void @store_cvt_8f64_to_8i16(<8 x double> %a0, ptr %a1) nounwind {
; AVX1-LABEL: store_cvt_8f64_to_8i16:		; AVX1-LABEL: store_cvt_8f64_to_8i16:
; AVX1: # %bb.0:		; AVX1: # %bb.0:
; AVX1-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]		; AVX1-NEXT: vcvtpd2ps %ymm1, %xmm1
; AVX1-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2		; AVX1-NEXT: vcvtps2ph $0, %xmm1, %xmm1
; AVX1-NEXT: vcvtps2ph $4, %xmm2, %xmm2		; AVX1-NEXT: vcvtpd2ps %ymm0, %xmm0
; AVX1-NEXT: vmovd %xmm2, %r8d		; AVX1-NEXT: vcvtps2ph $0, %xmm0, %xmm0
; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX1-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX1-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]		; AVX1-NEXT: vmovaps %xmm0, (%rdi)
; AVX1-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vcvtps2ph $4, %xmm3, %xmm3
; AVX1-NEXT: vmovd %xmm3, %r9d
; AVX1-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
; AVX1-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm3
; AVX1-NEXT: vcvtps2ph $4, %xmm3, %xmm3
; AVX1-NEXT: vmovd %xmm3, %r10d
; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX1-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
; AVX1-NEXT: vcvtsd2ss %xmm4, %xmm4, %xmm4
; AVX1-NEXT: vcvtps2ph $4, %xmm4, %xmm4
; AVX1-NEXT: vmovd %xmm4, %r11d
; AVX1-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %eax
; AVX1-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm0
; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %ecx
; AVX1-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %edx
; AVX1-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm0
; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX1-NEXT: vmovd %xmm0, %esi
; AVX1-NEXT: movw %si, 12(%rdi)
; AVX1-NEXT: movw %dx, 8(%rdi)
; AVX1-NEXT: movw %cx, 4(%rdi)
; AVX1-NEXT: movw %ax, (%rdi)
; AVX1-NEXT: movw %r11w, 14(%rdi)
; AVX1-NEXT: movw %r10w, 10(%rdi)
; AVX1-NEXT: movw %r9w, 6(%rdi)
; AVX1-NEXT: movw %r8w, 2(%rdi)
; AVX1-NEXT: vzeroupper		; AVX1-NEXT: vzeroupper
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: store_cvt_8f64_to_8i16:		; AVX2-LABEL: store_cvt_8f64_to_8i16:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]		; AVX2-NEXT: vcvtpd2ps %ymm1, %xmm1
; AVX2-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2		; AVX2-NEXT: vcvtps2ph $0, %xmm1, %xmm1
; AVX2-NEXT: vcvtps2ph $4, %xmm2, %xmm2		; AVX2-NEXT: vcvtpd2ps %ymm0, %xmm0
; AVX2-NEXT: vmovd %xmm2, %r8d		; AVX2-NEXT: vcvtps2ph $0, %xmm0, %xmm0
; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm2		; AVX2-NEXT: vmovlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; AVX2-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]		; AVX2-NEXT: vmovaps %xmm0, (%rdi)
; AVX2-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm3
; AVX2-NEXT: vcvtps2ph $4, %xmm3, %xmm3
; AVX2-NEXT: vmovd %xmm3, %r9d
; AVX2-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
; AVX2-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm3
; AVX2-NEXT: vcvtps2ph $4, %xmm3, %xmm3
; AVX2-NEXT: vmovd %xmm3, %r10d
; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm3
; AVX2-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
; AVX2-NEXT: vcvtsd2ss %xmm4, %xmm4, %xmm4
; AVX2-NEXT: vcvtps2ph $4, %xmm4, %xmm4
; AVX2-NEXT: vmovd %xmm4, %r11d
; AVX2-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX2-NEXT: vmovd %xmm0, %eax
; AVX2-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm0
; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX2-NEXT: vmovd %xmm0, %ecx
; AVX2-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX2-NEXT: vmovd %xmm0, %edx
; AVX2-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm0
; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX2-NEXT: vmovd %xmm0, %esi
; AVX2-NEXT: movw %si, 12(%rdi)
; AVX2-NEXT: movw %dx, 8(%rdi)
; AVX2-NEXT: movw %cx, 4(%rdi)
; AVX2-NEXT: movw %ax, (%rdi)
; AVX2-NEXT: movw %r11w, 14(%rdi)
; AVX2-NEXT: movw %r10w, 10(%rdi)
; AVX2-NEXT: movw %r9w, 6(%rdi)
; AVX2-NEXT: movw %r8w, 2(%rdi)
; AVX2-NEXT: vzeroupper		; AVX2-NEXT: vzeroupper
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: store_cvt_8f64_to_8i16:		; AVX512-LABEL: store_cvt_8f64_to_8i16:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]		; AVX512-NEXT: vcvtpd2ps %zmm0, %ymm0
; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1		; AVX512-NEXT: vcvtps2ph $4, %ymm0, (%rdi)
; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; AVX512-NEXT: vmovd %xmm1, %r8d
; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
; AVX512-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
; AVX512-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; AVX512-NEXT: vmovd %xmm2, %r9d
; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm2
; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]
; AVX512-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm3
; AVX512-NEXT: vcvtps2ph $4, %xmm3, %xmm3
; AVX512-NEXT: vmovd %xmm3, %r10d
; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm3
; AVX512-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
; AVX512-NEXT: vcvtsd2ss %xmm4, %xmm4, %xmm4
; AVX512-NEXT: vcvtps2ph $4, %xmm4, %xmm4
; AVX512-NEXT: vmovd %xmm4, %r11d
; AVX512-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX512-NEXT: vmovd %xmm0, %eax
; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX512-NEXT: vmovd %xmm0, %ecx
; AVX512-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm0
; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX512-NEXT: vmovd %xmm0, %edx
; AVX512-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm0
; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; AVX512-NEXT: vmovd %xmm0, %esi
; AVX512-NEXT: movw %si, 12(%rdi)
; AVX512-NEXT: movw %dx, 8(%rdi)
; AVX512-NEXT: movw %cx, 4(%rdi)
; AVX512-NEXT: movw %ax, (%rdi)
; AVX512-NEXT: movw %r11w, 14(%rdi)
; AVX512-NEXT: movw %r10w, 10(%rdi)
; AVX512-NEXT: movw %r9w, 6(%rdi)
; AVX512-NEXT: movw %r8w, 2(%rdi)
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = fptrunc <8 x double> %a0 to <8 x half>		%1 = fptrunc <8 x double> %a0 to <8 x half>
%2 = bitcast <8 x half> %1 to <8 x i16>		%2 = bitcast <8 x half> %1 to <8 x i16>
store <8 x i16> %2, ptr %a1		store <8 x i16> %2, ptr %a1
ret void		ret void
}		}

Show All 21 Lines
; AVX512-NEXT: vcvtps2ph $4, %zmm1, 32(%rdi)		; AVX512-NEXT: vcvtps2ph $4, %zmm1, 32(%rdi)
; AVX512-NEXT: vcvtps2ph $4, %zmm0, (%rdi)		; AVX512-NEXT: vcvtps2ph $4, %zmm0, (%rdi)
; AVX512-NEXT: vzeroupper		; AVX512-NEXT: vzeroupper
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%1 = fptrunc <32 x float> %a0 to <32 x half>		%1 = fptrunc <32 x float> %a0 to <32 x half>
store <32 x half> %1, ptr %a1		store <32 x half> %1, ptr %a1
ret void		ret void
}		}

		define <4 x i32> @fptosi_2f16_to_4i32(<2 x half> %a) nounwind {
		; ALL-LABEL: fptosi_2f16_to_4i32:
		; ALL: # %bb.0:
		; ALL-NEXT: vpsrld $16, %xmm0, %xmm1
		; ALL-NEXT: vpextrw $0, %xmm1, %eax
		; ALL-NEXT: movzwl %ax, %eax
		; ALL-NEXT: vmovd %eax, %xmm1
		; ALL-NEXT: vcvtph2ps %xmm1, %xmm1
		; ALL-NEXT: vcvttss2si %xmm1, %eax
		; ALL-NEXT: vpextrw $0, %xmm0, %ecx
		; ALL-NEXT: movzwl %cx, %ecx
		; ALL-NEXT: vmovd %ecx, %xmm0
		; ALL-NEXT: vcvtph2ps %xmm0, %xmm0
		; ALL-NEXT: vcvttss2si %xmm0, %ecx
		; ALL-NEXT: vmovd %ecx, %xmm0
		; ALL-NEXT: vmovd %eax, %xmm1
		; ALL-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
		; ALL-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
		; ALL-NEXT: retq
		%cvt = fptosi <2 x half> %a to <2 x i32>
		%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
		ret <4 x i32> %ext
		}

llvm/test/CodeGen/X86/vector-reduce-fmax-nnan.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=ALL,SSE,SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=ALL,SSE,SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=ALL,SSE,SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=ALL,SSE,SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=ALL,AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=ALL,AVX
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=ALL,AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=ALL,AVX
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512F
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512VL
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512fp16,+avx512vl \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512FP16			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512fp16,+avx512vl \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512FP16

	;			;
	; vXf32			; vXf32
	;			;

	define float @test_v1f32(<1 x float> %a0) {			define float @test_v1f32(<1 x float> %a0) {
	; ALL-LABEL: test_v1f32:			; ALL-LABEL: test_v1f32:
	▲ Show 20 Lines • Show All 349 Lines • ▼ Show 20 Lines
	}			}

	define half @test_v2f16(<2 x half> %a0) nounwind {			define half @test_v2f16(<2 x half> %a0) nounwind {
	; SSE-LABEL: test_v2f16:			; SSE-LABEL: test_v2f16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pushq %rbp			; SSE-NEXT: pushq %rbp
	; SSE-NEXT: pushq %rbx			; SSE-NEXT: pushq %rbx
	; SSE-NEXT: subq $40, %rsp			; SSE-NEXT: subq $40, %rsp
				; SSE-NEXT: movdqa %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; SSE-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE-NEXT: pextrw $0, %xmm1, %ebx			; SSE-NEXT: psrld $16, %xmm0
	; SSE-NEXT: pextrw $0, %xmm0, %ebp			; SSE-NEXT: pextrw $0, %xmm0, %ebx
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: pextrw $0, %xmm1, %ebp
	; SSE-NEXT: callq __extendhfsf2@PLT			; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill			; SSE-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; SSE-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; SSE-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; SSE-NEXT: callq __extendhfsf2@PLT			; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: ucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; SSE-NEXT: ucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
	; SSE-NEXT: cmoval %ebp, %ebx			; SSE-NEXT: cmoval %ebp, %ebx
	; SSE-NEXT: pinsrw $0, %ebx, %xmm0			; SSE-NEXT: pinsrw $0, %ebx, %xmm0
	; SSE-NEXT: addq $40, %rsp			; SSE-NEXT: addq $40, %rsp
	; SSE-NEXT: popq %rbx			; SSE-NEXT: popq %rbx
	; SSE-NEXT: popq %rbp			; SSE-NEXT: popq %rbp
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f16:			; AVX-LABEL: test_v2f16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: pushq %rbp			; AVX-NEXT: pushq %rbp
	; AVX-NEXT: pushq %rbx			; AVX-NEXT: pushq %rbx
	; AVX-NEXT: subq $40, %rsp			; AVX-NEXT: subq $40, %rsp
				; AVX-NEXT: vmovdqa %xmm0, %xmm1
	; AVX-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX-NEXT: vpextrw $0, %xmm1, %ebx			; AVX-NEXT: vpsrld $16, %xmm0, %xmm0
	; AVX-NEXT: vpextrw $0, %xmm0, %ebp			; AVX-NEXT: vpextrw $0, %xmm0, %ebx
	; AVX-NEXT: vmovdqa %xmm1, %xmm0			; AVX-NEXT: vpextrw $0, %xmm1, %ebp
	; AVX-NEXT: callq __extendhfsf2@PLT			; AVX-NEXT: callq __extendhfsf2@PLT
	; AVX-NEXT: vmovd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill			; AVX-NEXT: vmovd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; AVX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; AVX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; AVX-NEXT: callq __extendhfsf2@PLT			; AVX-NEXT: callq __extendhfsf2@PLT
	; AVX-NEXT: vucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; AVX-NEXT: vucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
	; AVX-NEXT: cmoval %ebp, %ebx			; AVX-NEXT: cmoval %ebp, %ebx
	; AVX-NEXT: vpinsrw $0, %ebx, %xmm0, %xmm0			; AVX-NEXT: vpinsrw $0, %ebx, %xmm0, %xmm0
	; AVX-NEXT: addq $40, %rsp			; AVX-NEXT: addq $40, %rsp
	; AVX-NEXT: popq %rbx			; AVX-NEXT: popq %rbx
	; AVX-NEXT: popq %rbp			; AVX-NEXT: popq %rbp
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v2f16:			; AVX512F-LABEL: test_v2f16:
	; AVX512BW: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512BW-NEXT: vpextrw $0, %xmm0, %eax			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512BW-NEXT: vpextrw $0, %xmm1, %ecx			; AVX512F-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BW-NEXT: movzwl %cx, %ecx			; AVX512F-NEXT: vpextrw $0, %xmm0, %eax
	; AVX512BW-NEXT: vmovd %ecx, %xmm0			; AVX512F-NEXT: movzwl %ax, %eax
	; AVX512BW-NEXT: vcvtph2ps %xmm0, %xmm0			; AVX512F-NEXT: vmovd %eax, %xmm2
	; AVX512BW-NEXT: movzwl %ax, %eax			; AVX512F-NEXT: vcvtph2ps %xmm2, %xmm2
	; AVX512BW-NEXT: vmovd %eax, %xmm1			; AVX512F-NEXT: vpextrw $0, %xmm1, %eax
	; AVX512BW-NEXT: vcvtph2ps %xmm1, %xmm1			; AVX512F-NEXT: movzwl %ax, %eax
	; AVX512BW-NEXT: vucomiss %xmm0, %xmm1			; AVX512F-NEXT: vmovd %eax, %xmm3
	; AVX512BW-NEXT: cmoval %eax, %ecx			; AVX512F-NEXT: vcvtph2ps %xmm3, %xmm3
	; AVX512BW-NEXT: vpinsrw $0, %ecx, %xmm0, %xmm0			; AVX512F-NEXT: xorl %eax, %eax
	; AVX512BW-NEXT: retq			; AVX512F-NEXT: vucomiss %xmm3, %xmm2
				; AVX512F-NEXT: movl $255, %ecx
				; AVX512F-NEXT: cmovbel %eax, %ecx
				; AVX512F-NEXT: kmovd %ecx, %k1
				; AVX512F-NEXT: vmovdqu16 %zmm0, %zmm1 {%k1}
				; AVX512F-NEXT: vmovdqa %xmm1, %xmm0
				; AVX512F-NEXT: vzeroupper
				; AVX512F-NEXT: retq
				;
				; AVX512VL-LABEL: test_v2f16:
				; AVX512VL: # %bb.0:
				; AVX512VL-NEXT: vpsrld $16, %xmm0, %xmm1
				; AVX512VL-NEXT: vpextrw $0, %xmm0, %eax
				; AVX512VL-NEXT: movzwl %ax, %eax
				; AVX512VL-NEXT: vmovd %eax, %xmm2
				; AVX512VL-NEXT: vcvtph2ps %xmm2, %xmm2
				; AVX512VL-NEXT: vpextrw $0, %xmm1, %eax
				; AVX512VL-NEXT: movzwl %ax, %eax
				; AVX512VL-NEXT: vmovd %eax, %xmm3
				; AVX512VL-NEXT: vcvtph2ps %xmm3, %xmm3
				; AVX512VL-NEXT: xorl %eax, %eax
				; AVX512VL-NEXT: vucomiss %xmm3, %xmm2
				; AVX512VL-NEXT: movl $255, %ecx
				; AVX512VL-NEXT: cmovbel %eax, %ecx
				; AVX512VL-NEXT: kmovd %ecx, %k1
				; AVX512VL-NEXT: vmovdqu16 %xmm0, %xmm1 {%k1}
				; AVX512VL-NEXT: vmovdqa %xmm1, %xmm0
				; AVX512VL-NEXT: retq
	;			;
	; AVX512FP16-LABEL: test_v2f16:			; AVX512FP16-LABEL: test_v2f16:
	; AVX512FP16: # %bb.0:			; AVX512FP16: # %bb.0:
	; AVX512FP16-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512FP16-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512FP16-NEXT: vcmpltph %xmm0, %xmm1, %k1			; AVX512FP16-NEXT: vcmpltph %xmm0, %xmm1, %k1
	; AVX512FP16-NEXT: vmovsh %xmm0, %xmm0, %xmm1 {%k1}			; AVX512FP16-NEXT: vmovsh %xmm0, %xmm0, %xmm1 {%k1}
	; AVX512FP16-NEXT: vmovaps %xmm1, %xmm0			; AVX512FP16-NEXT: vmovaps %xmm1, %xmm0
	; AVX512FP16-NEXT: retq			; AVX512FP16-NEXT: retq
	Show All 16 Lines

llvm/test/CodeGen/X86/vector-reduce-fmin-nnan.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=ALL,SSE,SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefixes=ALL,SSE,SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=ALL,SSE,SSE41			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.1 \| FileCheck %s --check-prefixes=ALL,SSE,SSE41
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=ALL,AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefixes=ALL,AVX
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=ALL,AVX			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefixes=ALL,AVX
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512F
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f,+avx512bw,+avx512vl \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512VL
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512fp16,+avx512vl \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512FP16			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512fp16,+avx512vl \| FileCheck %s --check-prefixes=ALL,AVX512,AVX512FP16

	;			;
	; vXf32			; vXf32
	;			;

	define float @test_v1f32(<1 x float> %a0) {			define float @test_v1f32(<1 x float> %a0) {
	; ALL-LABEL: test_v1f32:			; ALL-LABEL: test_v1f32:
	▲ Show 20 Lines • Show All 348 Lines • ▼ Show 20 Lines
	}			}

	define half @test_v2f16(<2 x half> %a0) nounwind {			define half @test_v2f16(<2 x half> %a0) nounwind {
	; SSE-LABEL: test_v2f16:			; SSE-LABEL: test_v2f16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pushq %rbp			; SSE-NEXT: pushq %rbp
	; SSE-NEXT: pushq %rbx			; SSE-NEXT: pushq %rbx
	; SSE-NEXT: subq $40, %rsp			; SSE-NEXT: subq $40, %rsp
				; SSE-NEXT: movdqa %xmm0, %xmm1
	; SSE-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; SSE-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; SSE-NEXT: pextrw $0, %xmm1, %ebx			; SSE-NEXT: psrld $16, %xmm0
	; SSE-NEXT: pextrw $0, %xmm0, %ebp			; SSE-NEXT: pextrw $0, %xmm0, %ebx
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: pextrw $0, %xmm1, %ebp
	; SSE-NEXT: callq __extendhfsf2@PLT			; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill			; SSE-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; SSE-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; SSE-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; SSE-NEXT: callq __extendhfsf2@PLT			; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: ucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; SSE-NEXT: ucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
	; SSE-NEXT: cmovbl %ebp, %ebx			; SSE-NEXT: cmovbl %ebp, %ebx
	; SSE-NEXT: pinsrw $0, %ebx, %xmm0			; SSE-NEXT: pinsrw $0, %ebx, %xmm0
	; SSE-NEXT: addq $40, %rsp			; SSE-NEXT: addq $40, %rsp
	; SSE-NEXT: popq %rbx			; SSE-NEXT: popq %rbx
	; SSE-NEXT: popq %rbp			; SSE-NEXT: popq %rbp
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f16:			; AVX-LABEL: test_v2f16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: pushq %rbp			; AVX-NEXT: pushq %rbp
	; AVX-NEXT: pushq %rbx			; AVX-NEXT: pushq %rbx
	; AVX-NEXT: subq $40, %rsp			; AVX-NEXT: subq $40, %rsp
				; AVX-NEXT: vmovdqa %xmm0, %xmm1
	; AVX-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX-NEXT: vmovdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX-NEXT: vpextrw $0, %xmm1, %ebx			; AVX-NEXT: vpsrld $16, %xmm0, %xmm0
	; AVX-NEXT: vpextrw $0, %xmm0, %ebp			; AVX-NEXT: vpextrw $0, %xmm0, %ebx
	; AVX-NEXT: vmovdqa %xmm1, %xmm0			; AVX-NEXT: vpextrw $0, %xmm1, %ebp
	; AVX-NEXT: callq __extendhfsf2@PLT			; AVX-NEXT: callq __extendhfsf2@PLT
	; AVX-NEXT: vmovd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill			; AVX-NEXT: vmovd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Folded Spill
	; AVX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; AVX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; AVX-NEXT: callq __extendhfsf2@PLT			; AVX-NEXT: callq __extendhfsf2@PLT
	; AVX-NEXT: vucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; AVX-NEXT: vucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
	; AVX-NEXT: cmovbl %ebp, %ebx			; AVX-NEXT: cmovbl %ebp, %ebx
	; AVX-NEXT: vpinsrw $0, %ebx, %xmm0, %xmm0			; AVX-NEXT: vpinsrw $0, %ebx, %xmm0, %xmm0
	; AVX-NEXT: addq $40, %rsp			; AVX-NEXT: addq $40, %rsp
	; AVX-NEXT: popq %rbx			; AVX-NEXT: popq %rbx
	; AVX-NEXT: popq %rbp			; AVX-NEXT: popq %rbp
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v2f16:			; AVX512F-LABEL: test_v2f16:
	; AVX512BW: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512BW-NEXT: vpextrw $0, %xmm0, %eax			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512BW-NEXT: vpextrw $0, %xmm1, %ecx			; AVX512F-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512BW-NEXT: movzwl %cx, %ecx			; AVX512F-NEXT: vpextrw $0, %xmm0, %eax
	; AVX512BW-NEXT: vmovd %ecx, %xmm0			; AVX512F-NEXT: movzwl %ax, %eax
	; AVX512BW-NEXT: vcvtph2ps %xmm0, %xmm0			; AVX512F-NEXT: vmovd %eax, %xmm2
	; AVX512BW-NEXT: movzwl %ax, %eax			; AVX512F-NEXT: vcvtph2ps %xmm2, %xmm2
	; AVX512BW-NEXT: vmovd %eax, %xmm1			; AVX512F-NEXT: vpextrw $0, %xmm1, %eax
	; AVX512BW-NEXT: vcvtph2ps %xmm1, %xmm1			; AVX512F-NEXT: movzwl %ax, %eax
	; AVX512BW-NEXT: vucomiss %xmm0, %xmm1			; AVX512F-NEXT: vmovd %eax, %xmm3
	; AVX512BW-NEXT: cmovbl %eax, %ecx			; AVX512F-NEXT: vcvtph2ps %xmm3, %xmm3
	; AVX512BW-NEXT: vpinsrw $0, %ecx, %xmm0, %xmm0			; AVX512F-NEXT: xorl %eax, %eax
	; AVX512BW-NEXT: retq			; AVX512F-NEXT: vucomiss %xmm3, %xmm2
				; AVX512F-NEXT: movl $255, %ecx
				; AVX512F-NEXT: cmovael %eax, %ecx
				; AVX512F-NEXT: kmovd %ecx, %k1
				; AVX512F-NEXT: vmovdqu16 %zmm0, %zmm1 {%k1}
				; AVX512F-NEXT: vmovdqa %xmm1, %xmm0
				; AVX512F-NEXT: vzeroupper
				; AVX512F-NEXT: retq
				;
				; AVX512VL-LABEL: test_v2f16:
				; AVX512VL: # %bb.0:
				; AVX512VL-NEXT: vpsrld $16, %xmm0, %xmm1
				; AVX512VL-NEXT: vpextrw $0, %xmm0, %eax
				; AVX512VL-NEXT: movzwl %ax, %eax
				; AVX512VL-NEXT: vmovd %eax, %xmm2
				; AVX512VL-NEXT: vcvtph2ps %xmm2, %xmm2
				; AVX512VL-NEXT: vpextrw $0, %xmm1, %eax
				; AVX512VL-NEXT: movzwl %ax, %eax
				; AVX512VL-NEXT: vmovd %eax, %xmm3
				; AVX512VL-NEXT: vcvtph2ps %xmm3, %xmm3
				; AVX512VL-NEXT: xorl %eax, %eax
				; AVX512VL-NEXT: vucomiss %xmm3, %xmm2
				; AVX512VL-NEXT: movl $255, %ecx
				; AVX512VL-NEXT: cmovael %eax, %ecx
				; AVX512VL-NEXT: kmovd %ecx, %k1
				; AVX512VL-NEXT: vmovdqu16 %xmm0, %xmm1 {%k1}
				; AVX512VL-NEXT: vmovdqa %xmm1, %xmm0
				; AVX512VL-NEXT: retq
	;			;
	; AVX512FP16-LABEL: test_v2f16:			; AVX512FP16-LABEL: test_v2f16:
	; AVX512FP16: # %bb.0:			; AVX512FP16: # %bb.0:
	; AVX512FP16-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512FP16-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512FP16-NEXT: vcmpltph %xmm1, %xmm0, %k1			; AVX512FP16-NEXT: vcmpltph %xmm1, %xmm0, %k1
	; AVX512FP16-NEXT: vmovsh %xmm0, %xmm0, %xmm1 {%k1}			; AVX512FP16-NEXT: vmovsh %xmm0, %xmm0, %xmm1 {%k1}
	; AVX512FP16-NEXT: vmovaps %xmm1, %xmm0			; AVX512FP16-NEXT: vmovaps %xmm1, %xmm0
	; AVX512FP16-NEXT: retq			; AVX512FP16-NEXT: retq
	Show All 17 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86][FP16] Enable vector support for FP16 emulationClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 445169

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86InstrAVX512.td

llvm/lib/Target/X86/X86InstrSSE.td

llvm/lib/Target/X86/X86TargetTransformInfo.cpp

llvm/test/Analysis/CostModel/X86/fptoi_sat.ll

llvm/test/Analysis/CostModel/X86/shuffle-load.ll

llvm/test/Analysis/CostModel/X86/shuffle-two-src-fp16.ll

llvm/test/CodeGen/X86/avx512-insert-extract.ll

llvm/test/CodeGen/X86/avx512-masked_memop-16-8.ll

llvm/test/CodeGen/X86/avx512-vec-cmp.ll

llvm/test/CodeGen/X86/avx512fp16-mov.ll

llvm/test/CodeGen/X86/avx512fp16-unsafe-fp-math.ll

llvm/test/CodeGen/X86/fpclamptosat_vec.ll

llvm/test/CodeGen/X86/fptosi-sat-vector-128.ll

llvm/test/CodeGen/X86/fptoui-sat-vector-128.ll

llvm/test/CodeGen/X86/frem.ll

llvm/test/CodeGen/X86/half.ll

llvm/test/CodeGen/X86/pr31088.ll

llvm/test/CodeGen/X86/pr47000.ll

llvm/test/CodeGen/X86/shuffle-extract-subvector.ll

llvm/test/CodeGen/X86/vec_fp_to_int.ll

llvm/test/CodeGen/X86/vector-half-conversions.ll

llvm/test/CodeGen/X86/vector-reduce-fmax-nnan.ll

llvm/test/CodeGen/X86/vector-reduce-fmin-nnan.ll

[X86][FP16] Enable vector support for FP16 emulation
ClosedPublic