This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
docs/
1/2
ReleaseNotes.rst
-
lib/Target/X86/
-
Target/
-
X86/
-
X86FastISel.cpp
14/23
X86ISelLowering.cpp
5/10
X86InstrAVX512.td
-
X86InstrCompiler.td
-
X86InstrInfo.cpp
3/6
X86InstrSSE.td
-
X86InstrVecCompiler.td
-
X86InstructionSelector.cpp
2/4
X86RegisterInfo.td
-
test/
-
Analysis/CostModel/X86/
-
CostModel/
-
X86/
1/2
fptoi_sat.ll
-
CodeGen/
-
MIR/X86/
-
X86/
1/2
inline-asm-registers.mir
-
X86/
1/2
atomic-non-integer.ll
1/2
avx512-insert-extract.ll
1/1
avx512-masked_memop-16-8.ll
1/2
callbr-asm-bb-exports.ll
-
cvt16-2.ll
-
cvt16.ll
-
fastmath-float-half-conversion.ll
1/2
fmf-flags.ll
-
fp-round.ll
-
fp-roundeven.ll
-
fp128-cast-strict.ll
2/4
fpclamptosat.ll
3/4
fpclamptosat_vec.ll
1/2
fptosi-sat-scalar.ll
-
fptosi-sat-vector-128.ll
-
fptoui-sat-scalar.ll
-
fptoui-sat-vector-128.ll
-
freeze.ll
-
half-constrained.ll
1/2
half.ll
-
pr31088.ll
-
pr38533.ll
-
pr47000.ll
-
scheduler-asm-moves.mir
-
shuffle-extract-subvector.ll
-
stack-folding-fp-avx512fp16-fma.ll
-
stack-folding-fp-avx512fp16.ll
-
statepoint-invoke-ra-enter-at-end.mir
-
vec_fp_to_int.ll
-
vector-half-conversions.ll
-
vector-reduce-fmax-nnan.ll
-
vector-reduce-fmin-nnan.ll
-
MC/X86/
-
X86/
-
x86_64-asm-match.s

Differential D107082

[X86][RFC] Enable `_Float16` type support on X86 following the psABI
ClosedPublic

Authored by pengfei on Jul 29 2021, 8:18 AM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
spatel
LuoYuanke
annita.zhang
hjl.tools
efriedma
sjarus
skan

Commits

rG2d2da259c872: [X86][RFC] Enable `_Float16` type support on X86 following the psABI

Summary

GCC and Clang/LLVM will support _Float16 on X86 in C/C++, following
the latest X86 psABI. (https://gitlab.com/x86-psABIs)

_Float16 arithmetic will be performed using native half-precision. If
native arithmetic instructions are not available, it will be performed
at a higher precision (currently always float) and then truncated down
to _Float16 immediately after each single arithmetic operation.

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	60,090 ms	x64 debian > LLVM.CodeGen/NVPTX::wmma.py
	60,040 ms	x64 debian > ThreadSanitizer-x86_64.ThreadSanitizer-x86_64::restore_stack.cpp
	60,040 ms	x64 debian > libFuzzer.libFuzzer::large.test

Event Timeline

pengfei created this revision.Jul 29 2021, 8:18 AM

Herald added a subscriber: hiraditya. · View Herald TranscriptJul 29 2021, 8:18 AM

pengfei requested review of this revision.Jul 29 2021, 8:18 AM

Herald added projects: Restricted Project, Restricted Project. · View Herald TranscriptJul 29 2021, 8:18 AM

Herald added subscribers: llvm-commits, cfe-commits. · View Herald Transcript

I sent out this patch mainly for PoC of the ABI changes, I'll fix the performance regressions in next phase.
LLVM was using a different calling conversion on x86 when passing and returning half type. It conflicts with current X86 psABI.
I have evaluated the risk internally and think the change of ABI has low risk due to Clang doesn't use such calling conversion. But I may not be thoughtful enough. Questions and comments are appreciated.

pengfei added inline comments.Jul 29 2021, 8:38 AM

llvm/include/llvm/IR/RuntimeLibcalls.def
293–294 ↗	(On Diff #362792)	GCC12 will provide functions `__extendhfsf2` and `__truncsfhf2`. I wonder if I can change it directly here or do extra customization for ARM/AArch64? Other targets?

I haven't had a chance to look at this patch in detail, but I wanted to ask if you considered doing what ARM and RISCV do for this. They pass the f16 in the lower bits on an f32 by only changing the ABI handling code in the backend. The type legalizer takes care of the rest. That seems simpler than this patch. See for example https://reviews.llvm.org/D98670

Harbormaster completed remote builds in B116985: Diff 362792.Jul 29 2021, 10:01 AM

In D107082#2913881, @craig.topper wrote:

I haven't had a chance to look at this patch in detail, but I wanted to ask if you considered doing what ARM and RISCV do for this. They pass the f16 in the lower bits on an f32 by only changing the ABI handling code in the backend. The type legalizer takes care of the rest. That seems simpler than this patch. See for example https://reviews.llvm.org/D98670

Thanks Craig for the information. I referenced implementation in AArch64. I think we have to add a legal f16 type in this way because:

We will support _Float16 type in Clang on SSE2 and above to keep the same behavior with GCC. So a legal type is a must.
Using lower 16bits of f32 may not satisfice the requirment from calling conversion of aggregation type and complex type defined by psABI.
We have some optimizations to leverage F16C or AVX512 ps2ph/ph2ps instructions. A legal type is easy to customize.

Besides, we have full arithmatic f16 support in AVX512FP16. Most of the code here are shared and served for both scenarios. We just need to promote for most FP operations and expand or customize FP_ROUND and FP_EXTEND here.

Remove unused vector f16 definitions.

Harbormaster completed remote builds in B117096: Diff 362958.Jul 29 2021, 9:10 PM

Add more conversion tests.

Harbormaster completed remote builds in B117105: Diff 362974.Jul 30 2021, 12:39 AM

Reverted several unrelated changes.
Improved conversions to/from f64/f80 etc under f16c.
Added combine to reduce intermediate move instructions.
Refactor for several trivial problems.

pengfei added a reviewer: efriedma.Aug 2 2021, 6:03 AM

After the last refactor, I think this patch is mostly ready.
This patch strips most of the ABI and _Float16 type related code from D105263, which can be leaving with only AVX512-FP16 ISA enabling code.
I think it should be more friendly for review. The defect is we make all FP16 enabling patches depend on and been blocked by this one. So I hope we could have a quick review and land it earlier.

Harbormaster completed remote builds in B117438: Diff 363461.Aug 2 2021, 7:15 AM

zahiraam mentioned this in D114099: Enable `_Float16` type support on X86 without the avx512fp16 flag.Dec 1 2021, 6:18 AM

FreddyYe added a subscriber: FreddyYe.May 11 2022, 12:52 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 11 2022, 12:52 AM

Herald added a subscriber: StephenFan. · View Herald Transcript

Rebased on the avx512fp16 implementation. Still WIP for optimizations and a fast RA issue.

Herald added a reviewer: sjarus. · View Herald TranscriptMay 17 2022, 6:21 AM

Herald added subscribers: armkevincheng, eric-k256, javed.absar. · View Herald Transcript

Harbormaster completed remote builds in B164858: Diff 430019.May 17 2022, 7:18 AM

Use 32-bit spill slot for half type. Others still on going.

Harbormaster completed remote builds in B165077: Diff 430314.May 18 2022, 4:30 AM

Replace gnu_f2h_ieee/gnu_h2f_ieee with truncsfhf2/extendhfsf2 to match with GCC.

pengfei planned changes to this revision.May 18 2022, 5:49 AM

pengfei retitled this revision from [X86][RFC] Enable `_Float16` type support on X86 following the psABI to [X86][RFC][WIP] Enable `_Float16` type support on X86 following the psABI.

Harbormaster completed remote builds in B165102: Diff 430349.May 18 2022, 6:34 AM

Adjust libcall lowering according to GCC code generation.

Harbormaster completed remote builds in B165478: Diff 430897.May 20 2022, 1:41 AM

pengfei retitled this revision from [X86][RFC][WIP] Enable `_Float16` type support on X86 following the psABI to [X86][RFC] Enable `_Float16` type support on X86 following the psABI.May 20 2022, 8:31 AM

Fix a few minor issues. I think it's mature for review now.

Harbormaster completed remote builds in B165533: Diff 430985.May 20 2022, 9:28 AM

pengfei added a reviewer: skan.May 23 2022, 1:36 AM

skan added inline comments.May 24 2022, 3:47 AM

llvm/docs/ReleaseNotes.rst
136	Just for curiosity, why is SSE2?
llvm/lib/Target/X86/X86ISelLowering.cpp
593	Promote to which type?
5714	Add comments for `hasBWI`?
5726	Why is this diffferent from `isScalarFPTypeInSSEReg` in X86FastISel.cpp? bool isScalarFPTypeInSSEReg(EVT VT) const { return ((VT == MVT::f16 \|\| VT == MVT::f64) && Subtarget->hasSSE2()) \|\| (VT == MVT::f32 && Subtarget->hasSSE1()); }
20809	Need comments
21277	Need comments
llvm/lib/Target/X86/X86InstrAVX512.td
4101	Why do we need compare the `prd` w/ `HasFP16` here? Couldn't we just use `[prd, OptForSize]`?
llvm/lib/Target/X86/X86RegisterInfo.td
540	The alignment is not same as the size?

Address Shengchen's review comments.

llvm/docs/ReleaseNotes.rst
136	We are following to GCC. The more background about why chosing SSE2 can be found here
llvm/lib/Target/X86/X86ISelLowering.cpp
593	If we didn't set the promote type, LLVM will automaticly find the next available type in the same type class as the order defined in MachineValueType.h
5714	Good question! Taking a look at the caller, this is used to combine integer logic to FP logic instructions. Since we don't have FP logic instructions on f16 type, we don't need set true for it.
5726	Good catch! Unlike `f32` and `f64`, we only use SSE register for `f16`. So no need to check the condition. I'll update the FastISel part, thanks!
llvm/lib/Target/X86/X86InstrAVX512.td
4101	No, we can't. The predicate list AND all its predicates, which means we don't have a pattern for non `OptForSize` case.
llvm/lib/Target/X86/X86RegisterInfo.td
540	No. This is spill size instead of alignment.

Harbormaster completed remote builds in B166487: Diff 432298.May 26 2022, 9:23 AM

Herald added a subscriber: jsji. · View Herald TranscriptMay 31 2022, 6:04 PM

LuoYuanke added inline comments.Jun 8 2022, 2:00 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
616	Just confused how to expand it. Will the expand fail and finally turns to libcall?
763	Why f16 emulation affect f80 type? Are we checking isTypeLegal(MVT::f80)?
22099	Not sure if it is better to wrapper it into a readable function (e.g., isSoftF16).
22447	Why we don't extent to f32 here?
22521	Why we don't extent to f32 here? Will it be promoted finally?
22764	Should MVT::v8i16 be MVT::v8f16?
22765	Is it rounding control? Can we use a macro or add comments for what is the rounding control?
22774	MVT::f16 and delete the bitcast?
44207	Not sure if it is better to wrapper it into a readable function (e.g., isSoftF16).
llvm/lib/Target/X86/X86InstrAVX512.td
1476	If target don't have avx512bw feature. There is some other pattern to lower the node or fp16 broadcast node is invalid?
4107	Previous prd only apply to "def rr"? Is it a bug for previous code?
4352	Why previous code don't have predicates?

LuoYuanke added inline comments.Jun 8 2022, 2:00 AM

llvm/lib/Target/X86/X86InstrAVX512.td
11657	Why set AddedComplexity to -10? There no such addtional complexity in previous code. Add comments for it?
llvm/lib/Target/X86/X86InstrSSE.td
3970	Why AddedComplexity = -10? Add comments for it?
3978	Miss pattern for store?
5214	Why no AddedComplexity for it?
llvm/lib/Target/X86/X86RegisterInfo.td
540	When there is avx512fp16 feature, is the spill size still 32?

Address Yuanke's comments. Thanks!

llvm/lib/Target/X86/X86ISelLowering.cpp
616	Yeah, we can use `LibCall` instead.
763	It's in the scope of `if (UseX87)`. And we need to lower `fpext half %0 to x86_fp80`.
22447	Return `SDValue()` will extent later. This can save the code.
22521	Yes.
22764	No. We use `MVT::v8i16` when we enabled F16C instructions.
22774	I don't think we have pattern to extract `f16` from `v8i16`. Besides, I think keeping the bitcast makes the flow clear.
llvm/lib/Target/X86/X86InstrAVX512.td
1476	Good catch. Added in X86InstrSSE.td
4107	No. previous code works well because no mask variants before AVX512 and no f16 before FP16. The latter is not true now.
4352	Because no legal `f16` previously.
11657	We used it before, but very little. We need to make sure select FP16 instructions first if available.
llvm/lib/Target/X86/X86InstrSSE.td
3970	This is to avoid FP16 instructions been overridden.
3978	It's in line 5214.
5214	We don't need it if no BWI.
llvm/lib/Target/X86/X86RegisterInfo.td
540	Yes, it's more efficient to use movss that insert/extrct. And we also use `FR32X` for AVX512 targets without FP16.

LuoYuanke added inline comments.Jun 8 2022, 7:33 AM

llvm/test/Analysis/CostModel/X86/fptoi_sat.ll
852	It seems the cost is reduced in general. Is it because we pass/return f16 by xmm register?
llvm/test/CodeGen/MIR/X86/inline-asm-registers.mir
31–32	Why f16 patch affect this test case? There is no fp instruction in this test case.
llvm/test/CodeGen/X86/atomic-non-integer.ll
253	I notice X86-SSE1 return by GPR. Should we also return by GPR for X64-SSE?
llvm/test/CodeGen/X86/avx512-insert-extract.ll
2307	Is code less efficient than previous code? Why previous code still works without convert half to float?
llvm/test/CodeGen/X86/avx512-masked_memop-16-8.ll
156	It seems parameter %val is useless.
llvm/test/CodeGen/X86/callbr-asm-bb-exports.ll
20	Why this test is affacted? Is it caused by calling convention change?
llvm/test/CodeGen/X86/fmf-flags.ll
115	Does __gnu_h2f_ieee retrun from xmm?

Harbormaster completed remote builds in B168564: Diff 435151.Jun 8 2022, 8:29 AM

LuoYuanke added inline comments.Jun 8 2022, 11:51 PM

llvm/test/CodeGen/X86/fpclamptosat.ll
569–570	I'm curious why there is 1 more compare in this patch.
776	Ditto.
llvm/test/CodeGen/X86/fpclamptosat_vec.ll
605	Is the vector <4 x half> split to 4 scalar and pass by xmm? What's the ABI for vector half? Is there any case that test the scenario that run out of register and pass parameter through stack?
llvm/test/CodeGen/X86/fptosi-sat-scalar.ll
2138	It seems less efficient than previous code on NAN, zero handling, but we can improve later.
llvm/test/CodeGen/X86/half.ll
946	Why the x87 instruction is generated?

Address Yuanke's comments.

llvm/test/Analysis/CostModel/X86/fptoi_sat.ll
852	No. It's because we don't have cost model for `f16`. I added some in D127386 to address this.
llvm/test/CodeGen/MIR/X86/inline-asm-registers.mir
31–32	I this it's newly added `FR16` that affects all number the other number register class. We met the problem when enabling FP16 too.
llvm/test/CodeGen/X86/atomic-non-integer.ll
253	No. The result in X86-SSE in UB. We support the emulation on SSE2 and later.
llvm/test/CodeGen/X86/avx512-insert-extract.ll
2307	Yes. The previous code using `i16` for FP16. Improved, thanks!
llvm/test/CodeGen/X86/callbr-asm-bb-exports.ll
20	No. It's caused by newly added `FR16` register class.
llvm/test/CodeGen/X86/fmf-flags.ll
115	There does not exist a `__gnu_h2f_ieee` on X86 before. It's ARM/AArch64 specific.
llvm/test/CodeGen/X86/fpclamptosat.ll
569–570	It's an optimization implemented by D111976. We don't meet the requirment that `isOperationLegalOrCustom`. It's not easy to solve because we need to check the promoted type instead. I'll leave it as is.
776	The same as above.
llvm/test/CodeGen/X86/fpclamptosat_vec.ll
605	Good question! Previously, I discussed with GCC folks we won't support vector in emulation. I expected the FE with pass whole vector through stack. So a vector in IR is illegal to ABI and can be splited. But seems GCC passes it by vector register. https://godbolt.org/z/a67rMhTW6 I'll double confirm with GCC folks.
llvm/test/CodeGen/X86/fptosi-sat-scalar.ll
2138	Yes. Added FIXMEs.
llvm/test/CodeGen/X86/half.ll
946	On 32 bit, float and double are passed by x87 register.

Harbormaster completed remote builds in B168847: Diff 435583.Jun 9 2022, 10:25 AM

pengfei added inline comments.Jun 10 2022, 9:34 AM

llvm/test/CodeGen/X86/fpclamptosat_vec.ll
605	Discussed with GCC folks today. We should support the vector ABI. But we have to adding more patterns to support load/store etc. operations for vector type. I'd like to address this as a follow up.

LGTM, thanks.

This revision is now accepted and ready to land.Jun 10 2022, 10:17 PM

vchuravy added a subscriber: vchuravy.Jun 11 2022, 4:12 AM

This revision was landed with ongoing or failed builds.Jun 11 2022, 8:40 PM

Closed by commit rG2d2da259c872: [X86][RFC] Enable `_Float16` type support on X86 following the psABI (authored by pengfei). · Explain Why

This revision was automatically updated to reflect the committed changes.

pengfei added a commit: rG2d2da259c872: [X86][RFC] Enable `_Float16` type support on X86 following the psABI.

mehdi_amini added a reverting change: rG5d8298a76841: Revert "[X86][RFC] Enable `_Float16` type support on X86 following the psABI".Jun 12 2022, 8:16 AM

This broke the bot here: https://lab.llvm.org/buildbot/#/builders/61/builds/27616

The cmake invocation includes some GPU specific options that you can omit (-DMLIR_ENABLE_CUDA_RUNNER=1 , -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc, -DMLIR_ENABLE_VULKAN_RUNNER=1, -DMLIR_RUN_CUDA_TENSOR_CORE_TESTS=ON), which should leave out:

cmake ../llvm.src/llvm -DLLVM_BUILD_EXAMPLES=ON '-DLLVM_TARGETS_TO_BUILD=host;NVPTX' -DLLVM_ENABLE_PROJECTS=mlir  -DMLIR_INCLUDE_INTEGRATION_TESTS=ON  -DBUILD_SHARED_LIBS=ON -DLLVM_CCACHE_BUILD=ON -DMLIR_ENABLE_BINDINGS_PYTHON=ON  -DCMAKE_BUILD_TYPE=Release -DLLVM_ENABLE_ASSERTIONS=ON '-DLLVM_LIT_ARGS=-v -vv' -GNinja

You can probably leave out other options too:

cmake ../llvm.src/llvm '-DLLVM_TARGETS_TO_BUILD=host' -DLLVM_ENABLE_PROJECTS=mlir  -DMLIR_INCLUDE_INTEGRATION_TESTS=ON -DCMAKE_BUILD_TYPE=Release -DLLVM_ENABLE_ASSERTIONS=ON '-DLLVM_LIT_ARGS=-v -vv' -GNinja

In D107082#3576355, @mehdi_amini wrote:
This broke the bot here: https://lab.llvm.org/buildbot/#/builders/61/builds/27616

The cmake invocation includes some GPU specific options that you can omit (-DMLIR_ENABLE_CUDA_RUNNER=1 , -DCMAKE_CUDA_COMPILER=/usr/local/cuda/bin/nvcc, -DMLIR_ENABLE_VULKAN_RUNNER=1, -DMLIR_RUN_CUDA_TENSOR_CORE_TESTS=ON), which should leave out:
cmake ../llvm.src/llvm -DLLVM_BUILD_EXAMPLES=ON '-DLLVM_TARGETS_TO_BUILD=host;NVPTX' -DLLVM_ENABLE_PROJECTS=mlir  -DMLIR_INCLUDE_INTEGRATION_TESTS=ON  -DBUILD_SHARED_LIBS=ON -DLLVM_CCACHE_BUILD=ON -DMLIR_ENABLE_BINDINGS_PYTHON=ON  -DCMAKE_BUILD_TYPE=Release -DLLVM_ENABLE_ASSERTIONS=ON '-DLLVM_LIT_ARGS=-v -vv' -GNinja
You can probably leave out other options too:
cmake ../llvm.src/llvm '-DLLVM_TARGETS_TO_BUILD=host' -DLLVM_ENABLE_PROJECTS=mlir  -DMLIR_INCLUDE_INTEGRATION_TESTS=ON -DCMAKE_BUILD_TYPE=Release -DLLVM_ENABLE_ASSERTIONS=ON '-DLLVM_LIT_ARGS=-v -vv' -GNinja

@mehdi_amini Thanks for the commands, I can reproduce it on my local now. Will look into it.

pengfei mentioned this in D127982: [X86][FP16] Enable vector support for FP16 emulation.Jun 16 2022, 9:24 AM

pengfei added inline comments.Jun 16 2022, 9:25 AM

llvm/test/CodeGen/X86/fpclamptosat_vec.ll
605	Addressed by D127982.

Please include Differential Revision: line for reland commits as well so that people know that this patch has a reland.
Please include the full description, not just what has changed from the previous commit.

https://github.com/llvm/llvm-project/issues/56204 is related to 655ba9c8a1d22075443711cc749f0b032e07adee

In addition, don't use Reland "Reland "Reland "Reland ... One Reland is sufficient.

I'll take care next time. Thanks @MaskRay !

alexfh mentioned this in D128571: [X86] Support `_Float16` on SSE2 and up.Jun 29 2022, 8:03 AM

pengfei mentioned this in D128872: [compiler-rt] Enable the new ABI of `_Float16` for Darwin on X86.Jul 1 2022, 6:07 PM

Same as in https://reviews.llvm.org/D114099
It breaks the build on ubuntu bionic, Hirsute, etc on amd64:

"/build/llvm-toolchain-snapshot-15~++20220702091600+23ee84f43201/build-llvm/./bin/clang" --target=x86_64-pc-linux-gnu -DVISIBILITY_HIDDEN  -fstack-protector-strong -Wformat -Werror=format-security -Wno-unused-command-line-argument -Wdate-time -D_FORTIFY_SOURCE=2 -O3 -DNDEBUG -m32 -DCOMPILER_RT_HAS_FLOAT16 -std=c11 -fPIC -fno-builtin -fvisibility=hidden -fomit-frame-pointer -MD -MT CMakeFiles/clang_rt.builtins-i386.dir/extendhfsf2.c.o -MF CMakeFiles/clang_rt.builtins-i386.dir/extendhfsf2.c.o.d -o CMakeFiles/clang_rt.builtins-i386.dir/extendhfsf2.c.o -c '/build/llvm-toolchain-snapshot-15~++20220702091600+23ee84f43201/compiler-rt/lib/builtins/extendhfsf2.c'
In file included from /build/llvm-toolchain-snapshot-15~++20220702091600+23ee84f43201/compiler-rt/lib/builtins/extendhfsf2.c:11:
In file included from /build/llvm-toolchain-snapshot-15~++20220702091600+23ee84f43201/compiler-rt/lib/builtins/fp_extend_impl.inc:38:
/build/llvm-toolchain-snapshot-15~++20220702091600+23ee84f43201/compiler-rt/lib/builtins/fp_extend.h:44:9: error: _Float16 is not supported on this target
typedef _Float16 src_t;
        ^
1 error generated.

In D107082#3626632, @sylvestre.ledru wrote:

Same as in https://reviews.llvm.org/D114099
It breaks the build on ubuntu bionic, Hirsute, etc on amd64:

"/build/llvm-toolchain-snapshot-15~++20220702091600+23ee84f43201/build-llvm/./bin/clang" --target=x86_64-pc-linux-gnu -DVISIBILITY_HIDDEN  -fstack-protector-strong -Wformat -Werror=format-security -Wno-unused-command-line-argument -Wdate-time -D_FORTIFY_SOURCE=2 -O3 -DNDEBUG -m32 -DCOMPILER_RT_HAS_FLOAT16 -std=c11 -fPIC -fno-builtin -fvisibility=hidden -fomit-frame-pointer -MD -MT CMakeFiles/clang_rt.builtins-i386.dir/extendhfsf2.c.o -MF CMakeFiles/clang_rt.builtins-i386.dir/extendhfsf2.c.o.d -o CMakeFiles/clang_rt.builtins-i386.dir/extendhfsf2.c.o -c '/build/llvm-toolchain-snapshot-15~++20220702091600+23ee84f43201/compiler-rt/lib/builtins/extendhfsf2.c'
In file included from /build/llvm-toolchain-snapshot-15~++20220702091600+23ee84f43201/compiler-rt/lib/builtins/extendhfsf2.c:11:
In file included from /build/llvm-toolchain-snapshot-15~++20220702091600+23ee84f43201/compiler-rt/lib/builtins/fp_extend_impl.inc:38:
/build/llvm-toolchain-snapshot-15~++20220702091600+23ee84f43201/compiler-rt/lib/builtins/fp_extend.h:44:9: error: _Float16 is not supported on this target
typedef _Float16 src_t;
        ^
1 error generated.

Hi @sylvestre.ledru , thanks for reporting this issue.

It looks to me a configuration (or option mismatch) problem in compiler-rt. We support the _Float16 type on targets that have SSE2 and/or up features. A 32-bit target doesn't enable SSE2 feature by default. This should be fine because the cmake of compiler-rt will detect the buildable of _Float16 first and set COMPILER_RT_HAS_FLOAT16 accordingly. So this issue looks to me it passed the detection of _Float16 with a SSE2 enabled option but built the compiler-rt with a different option (SSE2 disabled).

I'd suggest to add an extra -msse2 when build it if possible. Otherwise, don't let -DCOMPILER_RT_HAS_FLOAT16 been passed here.

FYI, COMPILER_RT_HAS_FLOAT16 is set according to https://github.com/llvm/llvm-project/blob/main/compiler-rt/cmake/builtin-config-ix.cmake#L25-L31 and https://github.com/llvm/llvm-project/blob/main/compiler-rt/lib/builtins/CMakeLists.txt#L699

@pengfei I am not convinced it is an issue on my side. I don't have anything particular in this area and using a stage2 build system.

Anyway, this patch fixes the issue on my side:
https://salsa.debian.org/pkg-llvm-team/llvm-toolchain/-/blob/snapshot/debian/patches/force-sse2-compiler-rt.diff

In D107082#3628120, @sylvestre.ledru wrote:

@pengfei I am not convinced it is an issue on my side. I don't have anything particular in this area and using a stage2 build system.

Anyway, this patch fixes the issue on my side:
https://salsa.debian.org/pkg-llvm-team/llvm-toolchain/-/blob/snapshot/debian/patches/force-sse2-compiler-rt.diff

I don't have much experience in compiler-rt and multi stage build. So I may be wrong. It looks to me like an existing problem just exposed by this patch. The diff is another proof.
The build command tells us it's a 32-bit build. But the change for x86_64 solves it, which confirms my previous guess: You are using one configure for CMake (probobally 64 bit) but build for 32 bit target.
Although the diff works, it doesn't look a clean solution to me. But I don't have better suggestion either.

Hi @pengfei, I am working on flang, and after this patch, we started to see some bugs in Fortran programs using REAL(2) (which is fp16 in flang). I am not an expert in LLVM codegen and the builtins, but I am wondering if there is not issue with how llvm codegen thinks __truncsfhf2 returns its value and how the runtime actually does return it.

Here is an llvm IR reproducer for a bug we saw:

define void @bug(ptr %addr, i32 %i) {
  %1 = sitofp i32 %i to half
  store half %1, ptr %addr, align 2
  ret void
}

After this patch the generated assembly on X86 is:

bug:                                    # @bug
        push    rbx
        mov     rbx, rdi
        cvtsi2ss        xmm0, esi
        call    __truncsfhf2@PLT
        pextrw  eax, xmm0, 0
        mov     word ptr [rbx], ax
        pop     rbx
        ret

When running this from a C program to test integers are casted to floats, I am only seeing the bytes of the passed address being set to zero (regardless of the input). It seems to me that there is an issue around the __truncsfhf2 interface. The pextrw eax, xmm0, 0 after the call seems to suggest LLVM codegen is looking for the result in xmm0 register, but it seems that __truncsfhf2 is only returning it in eax.

Do you have any idea what could be the issue ?

clementval added a subscriber: clementval.Jul 6 2022, 4:27 AM

Hi @jeanPerier , yes, you are right. This patch changes the calling conversion of fp16 from GPRs to XMMs. So you need to update the runtime. If you are using compiler-rt, you could simply re-build it with trunk code, or at least after rGabeeae57. If you are using your own runtime, you can solve the problem through the way in https://github.com/llvm/llvm-project/issues/56156

In D107082#3632301, @pengfei wrote:

Hi @jeanPerier , yes, you are right. This patch changes the calling conversion of fp16 from GPRs to XMMs. So you need to update the runtime. If you are using compiler-rt, you could simply re-build it with trunk code, or at least after rGabeeae57. If you are using your own runtime, you can solve the problem through the way in https://github.com/llvm/llvm-project/issues/56156

Thanks for the quick reply. I was using a compiler-rt from the trunk source but not building it with a clang compiler compiled from the trunk. I did not know the version of clang used to compiled compiler-rt mattered that much. Using clang from the trunk (or at least after the commit you mentionnned) solved my problem. Thanks !

Thanks for confirming it! I don't have much experience in compiler-rt. But I think the version of clang matters much to compiler-rt particular in ABI changing cases like this :)

@pengfei We are also hitting the following assertion with this patch. Do you have any idea why?

/llvm-project/llvm/lib/CodeGen/SelectionDAG/LegalizeDAG.cpp:4333: void {anonymous}::SelectionDAGLegalize::ConvertNodeToLibcall(llvm::SDNode*): Assertion `cast<ConstantSDNode>(Node->getOperand(IsStrict ? 2 : 1))->isZero() && "Unable to expand as libcall if it is not normal rounding"' failed.

LLVM IR triggering the assertion.

; ModuleID = 'FIRModule'
source_filename = "FIRModule"
target triple = "x86_64-unknown-linux-gnu"

@_QMhp237Ea11 = global half 0xH3D00
@_QMhp237Eb1a = global half 0xH5640
@_QMf90_kindECascii = external constant i32
@_QMf90_kindECbyte = external constant i32
@_QMf90_kindECdouble = external constant i32
@_QMiso_fortran_envECint16 = external constant i32
@_QMiso_fortran_envECint32 = external constant i32
@_QMiso_fortran_envECint64 = external constant i32
@_QMiso_fortran_envECint8 = external constant i32
@_QMf90_kindECjis = external constant i32
@_QMiso_fortran_envEClogical16 = external constant i32
@_QMiso_fortran_envEClogical32 = external constant i32
@_QMiso_fortran_envEClogical64 = external constant i32
@_QMiso_fortran_envEClogical8 = external constant i32
@_QMf90_kindECnot_available = external constant i32
@_QMf90_kindECquad = external constant i32
@_QMiso_fortran_envECreal128 = external constant i32
@_QMf90_kindECreal16 = external constant i32
@_QMiso_fortran_envECreal32 = external constant i32
@_QMiso_fortran_envECreal64 = external constant i32
@_QMf90_kindECreal64x2 = external constant i32
@_QMf90_kindECsingle = external constant i32
@_QMf90_kindECtwobyte = external constant i32
@_QMf90_kindECucs2 = external constant i32
@_QMf90_kindECucs4 = external constant i32
@_QMf90_kindECword = external constant i32
@_QQcl.2E2F627567312E66393000 = linkonce constant [11 x i8] c"./bug1.f90\00"
@_QQcl.2831362C313629 = linkonce constant [7 x i8] c"(16,16)"
@_QQcl.28346631302E3329 = linkonce constant [8 x i8] c"(4f10.3)"

declare ptr @malloc(i64)

declare void @free(ptr)

define void @_QQmain() !dbg !3 {
  %1 = alloca { ptr, i64, i32, i8, i8, i8, i8 }, align 8, !dbg !7
  %2 = alloca half, i64 1, align 2, !dbg !9
  %3 = call ptr @_FortranAioBeginExternalListOutput(i32 -1, ptr @_QQcl.2E2F627567312E66393000, i32 9), !dbg !10
  %4 = call i1 @_FortranAioOutputAscii(ptr %3, ptr @_QQcl.2831362C313629, i64 7), !dbg !11
  %5 = call i32 @_FortranAioEndIoStatement(ptr %3), !dbg !12
  %6 = call ptr @_FortranAioBeginExternalFormattedOutput(ptr @_QQcl.28346631302E3329, i64 8, i32 -1, ptr @_QQcl.2E2F627567312E66393000, i32 10), !dbg !13
  %7 = load half, ptr @_QMhp237Ea11, align 2, !dbg !14
  %8 = load half, ptr @_QMhp237Eb1a, align 2, !dbg !15
  %9 = fpext half %7 to float, !dbg !16
  %10 = fpext half %8 to float, !dbg !17
  %11 = call float @llvm.copysign.f32(float %9, float %10), !dbg !18
  %12 = fptrunc float %11 to half, !dbg !19
  store half %12, ptr %2, align 2, !dbg !20
  %13 = insertvalue { ptr, i64, i32, i8, i8, i8, i8 } { ptr undef, i64 2, i32 20180515, i8 0, i8 25, i8 0, i8 0 }, ptr %2, 0, !dbg !7
  store { ptr, i64, i32, i8, i8, i8, i8 } %13, ptr %1, align 8, !dbg !7
  %14 = call i1 @_FortranAioOutputDescriptor(ptr %6, ptr %1), !dbg !21
  %15 = call i32 @_FortranAioEndIoStatement(ptr %6), !dbg !22
  ret void, !dbg !23
}

declare ptr @_FortranAioBeginExternalListOutput(i32, ptr, i32)

declare i1 @_FortranAioOutputAscii(ptr, ptr, i64)

declare i32 @_FortranAioEndIoStatement(ptr)

declare ptr @_FortranAioBeginExternalFormattedOutput(ptr, i64, i32, ptr, i32)

declare i1 @_FortranAioOutputDescriptor(ptr, ptr)

; Function Attrs: nocallback nofree nosync nounwind readnone speculatable willreturn
declare float @llvm.copysign.f32(float, float) #0

attributes #0 = { nocallback nofree nosync nounwind readnone speculatable willreturn }

!llvm.dbg.cu = !{!0}
!llvm.module.flags = !{!2}

!0 = distinct !DICompileUnit(language: DW_LANG_C, file: !1, producer: "mlir", isOptimized: true, runtimeVersion: 0, emissionKind: FullDebug)
!1 = !DIFile(filename: "FIRModule", directory: "/")
!2 = !{i32 2, !"Debug Info Version", i32 3}
!3 = distinct !DISubprogram(name: "_QQmain", linkageName: "_QQmain", scope: null, file: !4, line: 9, type: !5, scopeLine: 9, spFlags: DISPFlagDefinition | DISPFlagOptimized, unit: !0, retainedNodes: !6)
!4 = !DIFile(filename: "<stdin>", directory: "/local/home/vclement/llvm-project/build")
!5 = !DISubroutineType(types: !6)
!6 = !{}
!7 = !DILocation(line: 39, column: 9, scope: !8)
!8 = !DILexicalBlockFile(scope: !3, file: !4, discriminator: 0)
!9 = !DILocation(line: 10, column: 8, scope: !8)
!10 = !DILocation(line: 17, column: 8, scope: !8)
!11 = !DILocation(line: 22, column: 8, scope: !8)
!12 = !DILocation(line: 23, column: 9, scope: !8)
!13 = !DILocation(line: 31, column: 9, scope: !8)
!14 = !DILocation(line: 32, column: 9, scope: !8)
!15 = !DILocation(line: 33, column: 9, scope: !8)
!16 = !DILocation(line: 34, column: 9, scope: !8)
!17 = !DILocation(line: 35, column: 9, scope: !8)
!18 = !DILocation(line: 36, column: 9, scope: !8)
!19 = !DILocation(line: 37, column: 9, scope: !8)
!20 = !DILocation(line: 38, column: 3, scope: !8)
!21 = !DILocation(line: 41, column: 9, scope: !8)
!22 = !DILocation(line: 42, column: 9, scope: !8)
!23 = !DILocation(line: 43, column: 3, scope: !8)

pengfei mentioned this in D129294: [X86][FP16] Fix crash when lowering copysign for f16.Jul 7 2022, 8:15 AM

Thanks @clementval for reporting it and the reproducer. Put a patch D129294 to address it.

pengfei mentioned this in rG6c535f9f1bf8: [X86][FP16] Fix crash when lowering copysign for f16.Jul 7 2022, 7:17 PM

rscottmanley added a subscriber: rscottmanley.Jul 9 2022, 5:50 PM

pengfei mentioned this in rGf18794816270: [X86][FP16] Enable vector support for FP16 emulation.Jul 15 2022, 6:55 PM

pengfei mentioned this in D130832: [X86][BF16] Make backend type bf16 to follow the psABI.Aug 4 2022, 7:45 PM

pengfei mentioned this in D148534: [X86] Fix checks for illegal physreg COPY instructions.Apr 18 2023, 12:32 AM

foad mentioned this in rG5158097274b7: [X86] Fix checks for illegal physreg COPY instructions.Apr 18 2023, 4:03 AM

Revision Contents

Path

Size

llvm/

docs/

ReleaseNotes.rst

2 lines

lib/

Target/

X86/

19 lines

204 lines

128 lines

6 lines

32 lines

21 lines

X86InstrVecCompiler.td

6 lines

X86InstructionSelector.cpp

2 lines

X86RegisterInfo.td

4 lines

test/

Analysis/

CostModel/

X86/

fptoi_sat.ll

520 lines

CodeGen/

MIR/

X86/

inline-asm-registers.mir

8 lines

X86/

atomic-non-integer.ll

101 lines

avx512-insert-extract.ll

56 lines

avx512-masked_memop-16-8.ll

282 lines

callbr-asm-bb-exports.ll

2 lines

cvt16-2.ll

48 lines

cvt16.ll

44 lines

fastmath-float-half-conversion.ll

80 lines

8 lines

14 lines

14 lines

10 lines

120 lines

1096 lines

259 lines

fptosi-sat-vector-128.ll

846 lines

fptoui-sat-scalar.ll

236 lines

fptoui-sat-vector-128.ll

746 lines

10 lines

85 lines

897 lines

273 lines

68 lines

217 lines

scheduler-asm-moves.mir

4 lines

shuffle-extract-subvector.ll

44 lines

stack-folding-fp-avx512fp16-fma.ll

48 lines

stack-folding-fp-avx512fp16.ll

24 lines

statepoint-invoke-ra-enter-at-end.mir

4 lines

vec_fp_to_int.ll

56 lines

vector-half-conversions.ll

1039 lines

vector-reduce-fmax-nnan.ll

95 lines

vector-reduce-fmin-nnan.ll

95 lines

MC/

X86/

x86_64-asm-match.s

10 lines

Diff 430897

llvm/docs/ReleaseNotes.rst

	Show First 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	Changes to the WebAssembly Backend			Changes to the WebAssembly Backend
	----------------------------------			----------------------------------

	* ...			* ...

	Changes to the X86 Backend			Changes to the X86 Backend
	--------------------------			--------------------------

	* ...			* Support ``half`` type on SSE2 and above targets.
				skanUnsubmitted Not Done Reply Inline Actions Just for curiosity, why is SSE2? skan: Just for curiosity, why is SSE2?
				pengfeiAuthorUnsubmitted Done Reply Inline Actions We are following to GCC. The more background about why chosing SSE2 can be found here pengfei: We are following to GCC. The more background about why chosing SSE2 can be found [[ https://www.

	Changes to the OCaml bindings			Changes to the OCaml bindings
	-----------------------------			-----------------------------


	Changes to the C API			Changes to the C API
	--------------------			--------------------

	▲ Show 20 Lines • Show All 56 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86FastISel.cpp

Show First 20 Lines • Show All 141 Lines • ▼ Show 20 Lines	private:

unsigned fastMaterializeAlloca(const AllocaInst *C) override;		unsigned fastMaterializeAlloca(const AllocaInst *C) override;

unsigned fastMaterializeFloatZero(const ConstantFP *CF) override;		unsigned fastMaterializeFloatZero(const ConstantFP *CF) override;

/// isScalarFPTypeInSSEReg - Return true if the specified scalar FP type is		/// isScalarFPTypeInSSEReg - Return true if the specified scalar FP type is
/// computed in an SSE register, not on the X87 floating point stack.		/// computed in an SSE register, not on the X87 floating point stack.
bool isScalarFPTypeInSSEReg(EVT VT) const {		bool isScalarFPTypeInSSEReg(EVT VT) const {
return (VT == MVT::f64 && Subtarget->hasSSE2()) \|\|		return ((VT == MVT::f16 \|\| VT == MVT::f64) && Subtarget->hasSSE2()) \|\|
(VT == MVT::f32 && Subtarget->hasSSE1()) \|\|		(VT == MVT::f32 && Subtarget->hasSSE1());
(VT == MVT::f16 && Subtarget->hasFP16());
}		}

bool isTypeLegal(Type *Ty, MVT &VT, bool AllowI1 = false);		bool isTypeLegal(Type *Ty, MVT &VT, bool AllowI1 = false);

bool IsMemcpySmall(uint64_t Len);		bool IsMemcpySmall(uint64_t Len);

bool TryEmitSmallMemcpy(X86AddressMode DestAM,		bool TryEmitSmallMemcpy(X86AddressMode DestAM,
X86AddressMode SrcAM, uint64_t Len);		X86AddressMode SrcAM, uint64_t Len);
▲ Show 20 Lines • Show All 2,115 Lines • ▼ Show 20 Lines
bool X86FastISel::X86FastEmitPseudoSelect(MVT RetVT, const Instruction *I) {		bool X86FastISel::X86FastEmitPseudoSelect(MVT RetVT, const Instruction *I) {
// These are pseudo CMOV instructions and will be later expanded into control-		// These are pseudo CMOV instructions and will be later expanded into control-
// flow.		// flow.
unsigned Opc;		unsigned Opc;
switch (RetVT.SimpleTy) {		switch (RetVT.SimpleTy) {
default: return false;		default: return false;
case MVT::i8: Opc = X86::CMOV_GR8; break;		case MVT::i8: Opc = X86::CMOV_GR8; break;
case MVT::i16: Opc = X86::CMOV_GR16; break;		case MVT::i16: Opc = X86::CMOV_GR16; break;
case MVT::f16: Opc = X86::CMOV_FR16X; break;
case MVT::i32: Opc = X86::CMOV_GR32; break;		case MVT::i32: Opc = X86::CMOV_GR32; break;
case MVT::f32: Opc = Subtarget->hasAVX512() ? X86::CMOV_FR32X		case MVT::f16:
: X86::CMOV_FR32; break;		Opc = Subtarget->hasAVX512() ? X86::CMOV_FR16X : X86::CMOV_FR16; break;
case MVT::f64: Opc = Subtarget->hasAVX512() ? X86::CMOV_FR64X		case MVT::f32:
: X86::CMOV_FR64; break;		Opc = Subtarget->hasAVX512() ? X86::CMOV_FR32X : X86::CMOV_FR32; break;
		case MVT::f64:
		Opc = Subtarget->hasAVX512() ? X86::CMOV_FR64X : X86::CMOV_FR64; break;
}		}

const Value *Cond = I->getOperand(0);		const Value *Cond = I->getOperand(0);
X86::CondCode CC = X86::COND_NE;		X86::CondCode CC = X86::COND_NE;

// Optimize conditions coming from a compare if both instructions are in the		// Optimize conditions coming from a compare if both instructions are in the
// same basic block (values defined in other basic blocks may not have		// same basic block (values defined in other basic blocks may not have
// initialized registers).		// initialized registers).
▲ Show 20 Lines • Show All 1,600 Lines • ▼ Show 20 Lines	unsigned X86FastISel::fastMaterializeFloatZero(const ConstantFP *CF) {

// Get opcode and regclass for the given zero.		// Get opcode and regclass for the given zero.
bool HasSSE1 = Subtarget->hasSSE1();		bool HasSSE1 = Subtarget->hasSSE1();
bool HasSSE2 = Subtarget->hasSSE2();		bool HasSSE2 = Subtarget->hasSSE2();
bool HasAVX512 = Subtarget->hasAVX512();		bool HasAVX512 = Subtarget->hasAVX512();
unsigned Opc = 0;		unsigned Opc = 0;
switch (VT.SimpleTy) {		switch (VT.SimpleTy) {
default: return 0;		default: return 0;
		case MVT::f16:
		Opc = HasAVX512 ? X86::AVX512_FsFLD0SH : X86::FsFLD0SH;
		break;
case MVT::f32:		case MVT::f32:
Opc = HasAVX512 ? X86::AVX512_FsFLD0SS		Opc = HasAVX512 ? X86::AVX512_FsFLD0SS
: HasSSE1 ? X86::FsFLD0SS		: HasSSE1 ? X86::FsFLD0SS
: X86::LD_Fp032;		: X86::LD_Fp032;
break;		break;
case MVT::f64:		case MVT::f64:
Opc = HasAVX512 ? X86::AVX512_FsFLD0SD		Opc = HasAVX512 ? X86::AVX512_FsFLD0SD
: HasSSE2 ? X86::FsFLD0SD		: HasSSE2 ? X86::FsFLD0SD
▲ Show 20 Lines • Show All 96 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 546 Lines • ▼ Show 20 Lines	X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM,
setOperationAction(ISD::STACKRESTORE, MVT::Other, Expand);		setOperationAction(ISD::STACKRESTORE, MVT::Other, Expand);

setOperationAction(ISD::DYNAMIC_STACKALLOC, PtrVT, Custom);		setOperationAction(ISD::DYNAMIC_STACKALLOC, PtrVT, Custom);

// GC_TRANSITION_START and GC_TRANSITION_END need custom lowering.		// GC_TRANSITION_START and GC_TRANSITION_END need custom lowering.
setOperationAction(ISD::GC_TRANSITION_START, MVT::Other, Custom);		setOperationAction(ISD::GC_TRANSITION_START, MVT::Other, Custom);
setOperationAction(ISD::GC_TRANSITION_END, MVT::Other, Custom);		setOperationAction(ISD::GC_TRANSITION_END, MVT::Other, Custom);

		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f64, Legal);

if (!Subtarget.useSoftFloat() && Subtarget.hasSSE2()) {		if (!Subtarget.useSoftFloat() && Subtarget.hasSSE2()) {
// f32 and f64 use SSE.		// f16, f32 and f64 use SSE.
// Set up the FP register classes.		// Set up the FP register classes.
		addRegisterClass(MVT::f16, Subtarget.hasAVX512() ? &X86::FR16XRegClass
		: &X86::FR16RegClass);
addRegisterClass(MVT::f32, Subtarget.hasAVX512() ? &X86::FR32XRegClass		addRegisterClass(MVT::f32, Subtarget.hasAVX512() ? &X86::FR32XRegClass
: &X86::FR32RegClass);		: &X86::FR32RegClass);
addRegisterClass(MVT::f64, Subtarget.hasAVX512() ? &X86::FR64XRegClass		addRegisterClass(MVT::f64, Subtarget.hasAVX512() ? &X86::FR64XRegClass
: &X86::FR64RegClass);		: &X86::FR64RegClass);

// Disable f32->f64 extload as we can only generate this in one instruction		// Disable f32->f64 extload as we can only generate this in one instruction
// under optsize. So its easier to pattern match (fpext (load)) for that		// under optsize. So its easier to pattern match (fpext (load)) for that
// case instead of needing to emit 2 instructions for extload in the		// case instead of needing to emit 2 instructions for extload in the
Show All 15 Lines	for (auto VT : { MVT::f32, MVT::f64 }) {
setOperationAction(ISD::FSUB, VT, Custom);		setOperationAction(ISD::FSUB, VT, Custom);

// We don't support sin/cos/fmod		// We don't support sin/cos/fmod
setOperationAction(ISD::FSIN , VT, Expand);		setOperationAction(ISD::FSIN , VT, Expand);
setOperationAction(ISD::FCOS , VT, Expand);		setOperationAction(ISD::FCOS , VT, Expand);
setOperationAction(ISD::FSINCOS, VT, Expand);		setOperationAction(ISD::FSINCOS, VT, Expand);
}		}

		// Half type will be promoted by default.
		skanUnsubmitted Not Done Reply Inline Actions Promote to which type? skan: Promote to which type?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions If we didn't set the promote type, LLVM will automaticly find the next available type in the same type class as the order defined in MachineValueType.h pengfei: If we didn't set the promote type, LLVM will automaticly find the next available type in the…
		setOperationAction(ISD::FABS, MVT::f16, Promote);
		setOperationAction(ISD::FNEG, MVT::f16, Promote);
		setOperationAction(ISD::FCOPYSIGN, MVT::f16, Promote);
		setOperationAction(ISD::FADD, MVT::f16, Promote);
		setOperationAction(ISD::FSUB, MVT::f16, Promote);
		setOperationAction(ISD::FMUL, MVT::f16, Promote);
		setOperationAction(ISD::FDIV, MVT::f16, Promote);
		setOperationAction(ISD::FREM, MVT::f16, Promote);
		setOperationAction(ISD::FMA, MVT::f16, Promote);
		setOperationAction(ISD::FMINNUM, MVT::f16, Promote);
		setOperationAction(ISD::FMAXNUM, MVT::f16, Promote);
		setOperationAction(ISD::FMINIMUM, MVT::f16, Promote);
		setOperationAction(ISD::FMAXIMUM, MVT::f16, Promote);
		setOperationAction(ISD::FSIN, MVT::f16, Promote);
		setOperationAction(ISD::FCOS, MVT::f16, Promote);
		setOperationAction(ISD::FSINCOS, MVT::f16, Promote);
		setOperationAction(ISD::BR_CC, MVT::f16, Promote);
		setOperationAction(ISD::SETCC, MVT::f16, Promote);
		setOperationAction(ISD::SELECT, MVT::f16, Promote);
		setOperationAction(ISD::SELECT_CC, MVT::f16, Promote);
		setOperationAction(ISD::FROUND, MVT::f16, Promote);
		setOperationAction(ISD::FROUNDEVEN, MVT::f16, Promote);
		setOperationAction(ISD::FP_ROUND, MVT::f16, Expand);
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Just confused how to expand it. Will the expand fail and finally turns to libcall? LuoYuanke: Just confused how to expand it. Will the expand fail and finally turns to libcall?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Yeah, we can use `LibCall` instead. pengfei: Yeah, we can use `LibCall` instead.
		setOperationAction(ISD::FP_EXTEND, MVT::f32, Expand);
		setOperationAction(ISD::FP_EXTEND, MVT::f64, Custom);
		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f64, Custom);

		setLibcallName(RTLIB::FPROUND_F32_F16, "__truncsfhf2");
		setLibcallName(RTLIB::FPEXT_F16_F32, "__extendhfsf2");

// Lower this to MOVMSK plus an AND.		// Lower this to MOVMSK plus an AND.
setOperationAction(ISD::FGETSIGN, MVT::i64, Custom);		setOperationAction(ISD::FGETSIGN, MVT::i64, Custom);
setOperationAction(ISD::FGETSIGN, MVT::i32, Custom);		setOperationAction(ISD::FGETSIGN, MVT::i32, Custom);

} else if (!Subtarget.useSoftFloat() && Subtarget.hasSSE1() &&		} else if (!Subtarget.useSoftFloat() && Subtarget.hasSSE1() &&
(UseX87 \|\| Is64Bit)) {		(UseX87 \|\| Is64Bit)) {
// Use SSE for f32, x87 for f64.		// Use SSE for f32, x87 for f64.
// Set up the FP register classes.		// Set up the FP register classes.
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	if (isTypeLegal(MVT::f64)) {
if (UseX87 && getRegClassFor(MVT::f64) == &X86::RFP64RegClass) {		if (UseX87 && getRegClassFor(MVT::f64) == &X86::RFP64RegClass) {
addLegalFPImmediate(APFloat(+0.0)); // FLD0		addLegalFPImmediate(APFloat(+0.0)); // FLD0
addLegalFPImmediate(APFloat(+1.0)); // FLD1		addLegalFPImmediate(APFloat(+1.0)); // FLD1
addLegalFPImmediate(APFloat(-0.0)); // FLD0/FCHS		addLegalFPImmediate(APFloat(-0.0)); // FLD0/FCHS
addLegalFPImmediate(APFloat(-1.0)); // FLD1/FCHS		addLegalFPImmediate(APFloat(-1.0)); // FLD1/FCHS
} else // SSE immediates.		} else // SSE immediates.
addLegalFPImmediate(APFloat(+0.0)); // xorpd		addLegalFPImmediate(APFloat(+0.0)); // xorpd
}		}
		// Support fp16 0 immediate.
		if (isTypeLegal(MVT::f16))
		addLegalFPImmediate(APFloat::getZero(APFloat::IEEEhalf()));

// Handle constrained floating-point operations of scalar.		// Handle constrained floating-point operations of scalar.
setOperationAction(ISD::STRICT_FADD, MVT::f32, Legal);		setOperationAction(ISD::STRICT_FADD, MVT::f32, Legal);
setOperationAction(ISD::STRICT_FADD, MVT::f64, Legal);		setOperationAction(ISD::STRICT_FADD, MVT::f64, Legal);
setOperationAction(ISD::STRICT_FSUB, MVT::f32, Legal);		setOperationAction(ISD::STRICT_FSUB, MVT::f32, Legal);
setOperationAction(ISD::STRICT_FSUB, MVT::f64, Legal);		setOperationAction(ISD::STRICT_FSUB, MVT::f64, Legal);
setOperationAction(ISD::STRICT_FMUL, MVT::f32, Legal);		setOperationAction(ISD::STRICT_FMUL, MVT::f32, Legal);
setOperationAction(ISD::STRICT_FMUL, MVT::f64, Legal);		setOperationAction(ISD::STRICT_FMUL, MVT::f64, Legal);
setOperationAction(ISD::STRICT_FDIV, MVT::f32, Legal);		setOperationAction(ISD::STRICT_FDIV, MVT::f32, Legal);
setOperationAction(ISD::STRICT_FDIV, MVT::f64, Legal);		setOperationAction(ISD::STRICT_FDIV, MVT::f64, Legal);
setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f64, Legal);
setOperationAction(ISD::STRICT_FP_ROUND, MVT::f32, Legal);		setOperationAction(ISD::STRICT_FP_ROUND, MVT::f32, Legal);
setOperationAction(ISD::STRICT_FP_ROUND, MVT::f64, Legal);		setOperationAction(ISD::STRICT_FP_ROUND, MVT::f64, Legal);
setOperationAction(ISD::STRICT_FSQRT, MVT::f32, Legal);		setOperationAction(ISD::STRICT_FSQRT, MVT::f32, Legal);
setOperationAction(ISD::STRICT_FSQRT, MVT::f64, Legal);		setOperationAction(ISD::STRICT_FSQRT, MVT::f64, Legal);

// We don't support FMA.		// We don't support FMA.
setOperationAction(ISD::FMA, MVT::f64, Expand);		setOperationAction(ISD::FMA, MVT::f64, Expand);
setOperationAction(ISD::FMA, MVT::f32, Expand);		setOperationAction(ISD::FMA, MVT::f32, Expand);
Show All 35 Lines	if (UseX87) {
setOperationAction(ISD::LLRINT, MVT::f80, Custom);		setOperationAction(ISD::LLRINT, MVT::f80, Custom);

// Handle constrained floating-point operations of scalar.		// Handle constrained floating-point operations of scalar.
setOperationAction(ISD::STRICT_FADD , MVT::f80, Legal);		setOperationAction(ISD::STRICT_FADD , MVT::f80, Legal);
setOperationAction(ISD::STRICT_FSUB , MVT::f80, Legal);		setOperationAction(ISD::STRICT_FSUB , MVT::f80, Legal);
setOperationAction(ISD::STRICT_FMUL , MVT::f80, Legal);		setOperationAction(ISD::STRICT_FMUL , MVT::f80, Legal);
setOperationAction(ISD::STRICT_FDIV , MVT::f80, Legal);		setOperationAction(ISD::STRICT_FDIV , MVT::f80, Legal);
setOperationAction(ISD::STRICT_FSQRT , MVT::f80, Legal);		setOperationAction(ISD::STRICT_FSQRT , MVT::f80, Legal);
		if (isTypeLegal(MVT::f16)) {
		setOperationAction(ISD::FP_EXTEND, MVT::f80, Custom);
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Why f16 emulation affect f80 type? Are we checking isTypeLegal(MVT::f80)? LuoYuanke: Why f16 emulation affect f80 type? Are we checking isTypeLegal(MVT::f80)?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions It's in the scope of `if (UseX87)`. And we need to lower `fpext half %0 to x86_fp80`. pengfei: It's in the scope of `if (UseX87)`. And we need to lower `fpext half %0 to x86_fp80`.
		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f80, Custom);
		} else {
setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f80, Legal);		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f80, Legal);
		}
// FIXME: When the target is 64-bit, STRICT_FP_ROUND will be overwritten		// FIXME: When the target is 64-bit, STRICT_FP_ROUND will be overwritten
// as Custom.		// as Custom.
setOperationAction(ISD::STRICT_FP_ROUND, MVT::f80, Legal);		setOperationAction(ISD::STRICT_FP_ROUND, MVT::f80, Legal);
}		}

// f128 uses xmm registers, but most operations require libcalls.		// f128 uses xmm registers, but most operations require libcalls.
if (!Subtarget.useSoftFloat() && Subtarget.is64Bit() && Subtarget.hasSSE1()) {		if (!Subtarget.useSoftFloat() && Subtarget.is64Bit() && Subtarget.hasSSE1()) {
addRegisterClass(MVT::f128, Subtarget.hasVLX() ? &X86::VR128XRegClass		addRegisterClass(MVT::f128, Subtarget.hasVLX() ? &X86::VR128XRegClass
▲ Show 20 Lines • Show All 705 Lines • ▼ Show 20 Lines	if (HasInt256) {
setOperationAction(ISD::MGATHER, MVT::v2i32, Custom);		setOperationAction(ISD::MGATHER, MVT::v2i32, Custom);

for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64,		for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64,
MVT::v4f32, MVT::v8f32, MVT::v2f64, MVT::v4f64 })		MVT::v4f32, MVT::v8f32, MVT::v2f64, MVT::v4f64 })
setOperationAction(ISD::MGATHER, VT, Custom);		setOperationAction(ISD::MGATHER, VT, Custom);
}		}
}		}

		if (!Subtarget.useSoftFloat() && Subtarget.hasF16C()) {
		setOperationAction(ISD::FP_ROUND, MVT::f16, Custom);
		setOperationAction(ISD::STRICT_FP_ROUND, MVT::f16, Custom);
		setOperationAction(ISD::FP_EXTEND, MVT::f32, Custom);
		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f32, Custom);
		}

// This block controls legalization of the mask vector sizes that are		// This block controls legalization of the mask vector sizes that are
// available with AVX512. 512-bit vectors are in a separate block controlled		// available with AVX512. 512-bit vectors are in a separate block controlled
// by useAVX512Regs.		// by useAVX512Regs.
if (!Subtarget.useSoftFloat() && Subtarget.hasAVX512()) {		if (!Subtarget.useSoftFloat() && Subtarget.hasAVX512()) {
addRegisterClass(MVT::v1i1, &X86::VK1RegClass);		addRegisterClass(MVT::v1i1, &X86::VK1RegClass);
addRegisterClass(MVT::v2i1, &X86::VK2RegClass);		addRegisterClass(MVT::v2i1, &X86::VK2RegClass);
addRegisterClass(MVT::v4i1, &X86::VK4RegClass);		addRegisterClass(MVT::v4i1, &X86::VK4RegClass);
addRegisterClass(MVT::v8i1, &X86::VK8RegClass);		addRegisterClass(MVT::v8i1, &X86::VK8RegClass);
▲ Show 20 Lines • Show All 512 Lines • ▼ Show 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasFP16()) {
setOperationAction(ISD::STRICT_FSETCCS, MVT::f16, Custom);		setOperationAction(ISD::STRICT_FSETCCS, MVT::f16, Custom);
setOperationAction(ISD::FROUND, MVT::f16, Custom);		setOperationAction(ISD::FROUND, MVT::f16, Custom);
setOperationAction(ISD::STRICT_FROUND, MVT::f16, Promote);		setOperationAction(ISD::STRICT_FROUND, MVT::f16, Promote);
setOperationAction(ISD::FROUNDEVEN, MVT::f16, Legal);		setOperationAction(ISD::FROUNDEVEN, MVT::f16, Legal);
setOperationAction(ISD::STRICT_FROUNDEVEN, MVT::f16, Legal);		setOperationAction(ISD::STRICT_FROUNDEVEN, MVT::f16, Legal);
setOperationAction(ISD::FP_ROUND, MVT::f16, Custom);		setOperationAction(ISD::FP_ROUND, MVT::f16, Custom);
setOperationAction(ISD::STRICT_FP_ROUND, MVT::f16, Custom);		setOperationAction(ISD::STRICT_FP_ROUND, MVT::f16, Custom);
setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f32, Legal);		setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f32, Legal);
if (isTypeLegal(MVT::f80)) {
setOperationAction(ISD::FP_EXTEND, MVT::f80, Custom);
setOperationAction(ISD::STRICT_FP_EXTEND, MVT::f80, Custom);
}

setCondCodeAction(ISD::SETOEQ, MVT::f16, Expand);		setCondCodeAction(ISD::SETOEQ, MVT::f16, Expand);
setCondCodeAction(ISD::SETUNE, MVT::f16, Expand);		setCondCodeAction(ISD::SETUNE, MVT::f16, Expand);

if (Subtarget.useAVX512Regs()) {		if (Subtarget.useAVX512Regs()) {
setGroup(MVT::v32f16);		setGroup(MVT::v32f16);
addRegisterClass(MVT::v32f16, &X86::VR512RegClass);		addRegisterClass(MVT::v32f16, &X86::VR512RegClass);
setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v32f16, Custom);		setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v32f16, Custom);
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	if (Subtarget.hasVLX()) {
setLoadExtAction(ISD::EXTLOAD, MVT::v2f64, MVT::v2f16, Legal);		setLoadExtAction(ISD::EXTLOAD, MVT::v2f64, MVT::v2f16, Legal);
setLoadExtAction(ISD::EXTLOAD, MVT::v8f32, MVT::v8f16, Legal);		setLoadExtAction(ISD::EXTLOAD, MVT::v8f32, MVT::v8f16, Legal);
setLoadExtAction(ISD::EXTLOAD, MVT::v4f32, MVT::v4f16, Legal);		setLoadExtAction(ISD::EXTLOAD, MVT::v4f32, MVT::v4f16, Legal);

// Need to custom widen these to prevent scalarization.		// Need to custom widen these to prevent scalarization.
setOperationAction(ISD::LOAD, MVT::v4f16, Custom);		setOperationAction(ISD::LOAD, MVT::v4f16, Custom);
setOperationAction(ISD::STORE, MVT::v4f16, Custom);		setOperationAction(ISD::STORE, MVT::v4f16, Custom);
}		}

// Support fp16 0 immediate
addLegalFPImmediate(APFloat::getZero(APFloat::IEEEhalf()));
}		}

if (!Subtarget.useSoftFloat() && Subtarget.hasVLX()) {		if (!Subtarget.useSoftFloat() && Subtarget.hasVLX()) {
setTruncStoreAction(MVT::v4i64, MVT::v4i8, Legal);		setTruncStoreAction(MVT::v4i64, MVT::v4i8, Legal);
setTruncStoreAction(MVT::v4i64, MVT::v4i16, Legal);		setTruncStoreAction(MVT::v4i64, MVT::v4i16, Legal);
setTruncStoreAction(MVT::v4i64, MVT::v4i32, Legal);		setTruncStoreAction(MVT::v4i64, MVT::v4i32, Legal);
setTruncStoreAction(MVT::v8i32, MVT::v8i8, Legal);		setTruncStoreAction(MVT::v8i32, MVT::v8i8, Legal);
setTruncStoreAction(MVT::v8i32, MVT::v8i16, Legal);		setTruncStoreAction(MVT::v8i32, MVT::v8i16, Legal);
▲ Show 20 Lines • Show All 1,833 Lines • ▼ Show 20 Lines	if (VA.isRegLoc()) {
RC = &X86::GR8RegClass;		RC = &X86::GR8RegClass;
else if (RegVT == MVT::i16)		else if (RegVT == MVT::i16)
RC = &X86::GR16RegClass;		RC = &X86::GR16RegClass;
else if (RegVT == MVT::i32)		else if (RegVT == MVT::i32)
RC = &X86::GR32RegClass;		RC = &X86::GR32RegClass;
else if (Is64Bit && RegVT == MVT::i64)		else if (Is64Bit && RegVT == MVT::i64)
RC = &X86::GR64RegClass;		RC = &X86::GR64RegClass;
else if (RegVT == MVT::f16)		else if (RegVT == MVT::f16)
RC = &X86::FR16XRegClass;		RC = Subtarget.hasAVX512() ? &X86::FR16XRegClass : &X86::FR16RegClass;
else if (RegVT == MVT::f32)		else if (RegVT == MVT::f32)
RC = Subtarget.hasAVX512() ? &X86::FR32XRegClass : &X86::FR32RegClass;		RC = Subtarget.hasAVX512() ? &X86::FR32XRegClass : &X86::FR32RegClass;
else if (RegVT == MVT::f64)		else if (RegVT == MVT::f64)
RC = Subtarget.hasAVX512() ? &X86::FR64XRegClass : &X86::FR64RegClass;		RC = Subtarget.hasAVX512() ? &X86::FR64XRegClass : &X86::FR64RegClass;
else if (RegVT == MVT::f80)		else if (RegVT == MVT::f80)
RC = &X86::RFP80RegClass;		RC = &X86::RFP80RegClass;
else if (RegVT == MVT::f128)		else if (RegVT == MVT::f128)
RC = &X86::VR128RegClass;		RC = &X86::VR128RegClass;
▲ Show 20 Lines • Show All 1,739 Lines • ▼ Show 20 Lines

bool X86TargetLowering::isCheapToSpeculateCtlz() const {		bool X86TargetLowering::isCheapToSpeculateCtlz() const {
// Speculate ctlz only if we can directly use LZCNT.		// Speculate ctlz only if we can directly use LZCNT.
return Subtarget.hasLZCNT();		return Subtarget.hasLZCNT();
}		}

bool X86TargetLowering::hasBitPreservingFPLogic(EVT VT) const {		bool X86TargetLowering::hasBitPreservingFPLogic(EVT VT) const {
return VT == MVT::f32 \|\| VT == MVT::f64 \|\| VT.isVector() \|\|		return VT == MVT::f32 \|\| VT == MVT::f64 \|\| VT.isVector() \|\|
(VT == MVT::f16 && Subtarget.hasFP16());		(VT == MVT::f16 && Subtarget.hasBWI());
		skanUnsubmitted Not Done Reply Inline Actions Add comments for `hasBWI`? skan: Add comments for `hasBWI`?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Good question! Taking a look at the caller, this is used to combine integer logic to FP logic instructions. Since we don't have FP logic instructions on f16 type, we don't need set true for it. pengfei: Good question! Taking a look at the caller, this is used to combine integer logic to FP logic…
}		}

bool X86TargetLowering::ShouldShrinkFPConstant(EVT VT) const {		bool X86TargetLowering::ShouldShrinkFPConstant(EVT VT) const {
// Don't shrink FP constpool if SSE2 is available since cvtss2sd is more		// Don't shrink FP constpool if SSE2 is available since cvtss2sd is more
// expensive than a straight movsd. On the other hand, it's important to		// expensive than a straight movsd. On the other hand, it's important to
// shrink long double fp constant since fldt is very slow.		// shrink long double fp constant since fldt is very slow.
return !Subtarget.hasSSE2() \|\| VT == MVT::f80;		return !Subtarget.hasSSE2() \|\| VT == MVT::f80;
}		}

bool X86TargetLowering::isScalarFPTypeInSSEReg(EVT VT) const {		bool X86TargetLowering::isScalarFPTypeInSSEReg(EVT VT) const {
return (VT == MVT::f64 && Subtarget.hasSSE2()) \|\|		return (VT == MVT::f64 && Subtarget.hasSSE2()) \|\|
(VT == MVT::f32 && Subtarget.hasSSE1()) \|\|		(VT == MVT::f32 && Subtarget.hasSSE1()) \|\| VT == MVT::f16;
		skanUnsubmitted Not Done Reply Inline Actions Why is this diffferent from `isScalarFPTypeInSSEReg` in X86FastISel.cpp? bool isScalarFPTypeInSSEReg(EVT VT) const { return ((VT == MVT::f16 \|\| VT == MVT::f64) && Subtarget->hasSSE2()) \|\| (VT == MVT::f32 && Subtarget->hasSSE1()); } skan: Why is this diffferent from `isScalarFPTypeInSSEReg` in X86FastISel.cpp? ``` bool…
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Good catch! Unlike `f32` and `f64`, we only use SSE register for `f16`. So no need to check the condition. I'll update the FastISel part, thanks! pengfei: Good catch! Unlike `f32` and `f64`, we only use SSE register for `f16`. So no need to check the…
(VT == MVT::f16 && Subtarget.hasFP16());
}		}

bool X86TargetLowering::isLoadBitCastBeneficial(EVT LoadVT, EVT BitcastVT,		bool X86TargetLowering::isLoadBitCastBeneficial(EVT LoadVT, EVT BitcastVT,
const SelectionDAG &DAG,		const SelectionDAG &DAG,
const MachineMemOperand &MMO) const {		const MachineMemOperand &MMO) const {
if (!Subtarget.hasAVX512() && !LoadVT.isVector() && BitcastVT.isVector() &&		if (!Subtarget.hasAVX512() && !LoadVT.isVector() && BitcastVT.isVector() &&
BitcastVT.getVectorElementType() == MVT::i1)		BitcastVT.getVectorElementType() == MVT::i1)
return false;		return false;
▲ Show 20 Lines • Show All 15,066 Lines • ▼ Show 20 Lines	if (SrcVT == MVT::v2i64 \|\| SrcVT == MVT::v4i64)
return lowerINT_TO_FP_vXi64(Op, DAG, Subtarget);		return lowerINT_TO_FP_vXi64(Op, DAG, Subtarget);

return SDValue();		return SDValue();
}		}

assert(SrcVT <= MVT::i64 && SrcVT >= MVT::i16 &&		assert(SrcVT <= MVT::i64 && SrcVT >= MVT::i16 &&
"Unknown SINT_TO_FP to lower!");		"Unknown SINT_TO_FP to lower!");

		if (VT == MVT::f16 && !Subtarget.hasFP16())
		skanUnsubmitted Done Reply Inline Actions Need comments skan: Need comments
		return SDValue();

bool UseSSEReg = isScalarFPTypeInSSEReg(VT);		bool UseSSEReg = isScalarFPTypeInSSEReg(VT);

// These are really Legal; return the operand so the caller accepts it as		// These are really Legal; return the operand so the caller accepts it as
// Legal.		// Legal.
if (SrcVT == MVT::i32 && UseSSEReg)		if (SrcVT == MVT::i32 && UseSSEReg)
return Op;		return Op;
if (SrcVT == MVT::i64 && UseSSEReg && Subtarget.is64Bit())		if (SrcVT == MVT::i64 && UseSSEReg && Subtarget.is64Bit())
return Op;		return Op;
▲ Show 20 Lines • Show All 449 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerUINT_TO_FP(SDValue Op,
unsigned OpNo = IsStrict ? 1 : 0;		unsigned OpNo = IsStrict ? 1 : 0;
SDValue Src = Op.getOperand(OpNo);		SDValue Src = Op.getOperand(OpNo);
SDLoc dl(Op);		SDLoc dl(Op);
auto PtrVT = getPointerTy(DAG.getDataLayout());		auto PtrVT = getPointerTy(DAG.getDataLayout());
MVT SrcVT = Src.getSimpleValueType();		MVT SrcVT = Src.getSimpleValueType();
MVT DstVT = Op->getSimpleValueType(0);		MVT DstVT = Op->getSimpleValueType(0);
SDValue Chain = IsStrict ? Op.getOperand(0) : DAG.getEntryNode();		SDValue Chain = IsStrict ? Op.getOperand(0) : DAG.getEntryNode();

if (DstVT == MVT::f128)		if (DstVT == MVT::f128 \|\| (DstVT == MVT::f16 && !Subtarget.hasFP16()))
		skanUnsubmitted Done Reply Inline Actions Need comments skan: Need comments
return SDValue();		return SDValue();

if (DstVT.isVector())		if (DstVT.isVector())
return lowerUINT_TO_FP_vec(Op, DAG, Subtarget);		return lowerUINT_TO_FP_vec(Op, DAG, Subtarget);

if (Subtarget.isTargetWin64() && SrcVT == MVT::i128)		if (Subtarget.isTargetWin64() && SrcVT == MVT::i128)
return LowerWin64_INT128_TO_FP(Op, DAG);		return LowerWin64_INT128_TO_FP(Op, DAG);

▲ Show 20 Lines • Show All 805 Lines • ▼ Show 20 Lines	bool IsSigned = Op.getOpcode() == ISD::FP_TO_SINT \|\|
Op.getOpcode() == ISD::STRICT_FP_TO_SINT;		Op.getOpcode() == ISD::STRICT_FP_TO_SINT;
MVT VT = Op->getSimpleValueType(0);		MVT VT = Op->getSimpleValueType(0);
SDValue Src = Op.getOperand(IsStrict ? 1 : 0);		SDValue Src = Op.getOperand(IsStrict ? 1 : 0);
SDValue Chain = IsStrict ? Op->getOperand(0) : SDValue();		SDValue Chain = IsStrict ? Op->getOperand(0) : SDValue();
MVT SrcVT = Src.getSimpleValueType();		MVT SrcVT = Src.getSimpleValueType();
SDLoc dl(Op);		SDLoc dl(Op);

SDValue Res;		SDValue Res;
		if (SrcVT == MVT::f16 && !Subtarget.hasFP16()) {
		LuoYuankeUnsubmitted Done Reply Inline Actions Not sure if it is better to wrapper it into a readable function (e.g., isSoftF16). LuoYuanke: Not sure if it is better to wrapper it into a readable function (e.g., isSoftF16).
		if (IsStrict)
		return DAG.getNode(
		Op.getOpcode(), dl, {VT, MVT::Other},
		{Chain, DAG.getNode(ISD::STRICT_FP_EXTEND, dl, {MVT::f32, MVT::Other},
		{Chain, Src})});
		return DAG.getNode(Op.getOpcode(), dl, VT,
		DAG.getNode(ISD::FP_EXTEND, dl, MVT::f32, Src));
		}

if (VT.isVector()) {		if (VT.isVector()) {
if (VT == MVT::v2i1 && SrcVT == MVT::v2f64) {		if (VT == MVT::v2i1 && SrcVT == MVT::v2f64) {
MVT ResVT = MVT::v4i32;		MVT ResVT = MVT::v4i32;
MVT TruncVT = MVT::v4i1;		MVT TruncVT = MVT::v4i1;
unsigned Opc;		unsigned Opc;
if (IsStrict)		if (IsStrict)
Opc = IsSigned ? X86ISD::STRICT_CVTTP2SI : X86ISD::STRICT_CVTTP2UI;		Opc = IsSigned ? X86ISD::STRICT_CVTTP2SI : X86ISD::STRICT_CVTTP2UI;
else		else
▲ Show 20 Lines • Show All 321 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerFP_TO_INT(SDValue Op, SelectionDAG &DAG) const {
llvm_unreachable("Expected FP_TO_INTHelper to handle all remaining cases.");		llvm_unreachable("Expected FP_TO_INTHelper to handle all remaining cases.");
}		}

SDValue X86TargetLowering::LowerLRINT_LLRINT(SDValue Op,		SDValue X86TargetLowering::LowerLRINT_LLRINT(SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
SDValue Src = Op.getOperand(0);		SDValue Src = Op.getOperand(0);
MVT SrcVT = Src.getSimpleValueType();		MVT SrcVT = Src.getSimpleValueType();

		if (SrcVT == MVT::f16)
		return SDValue();
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Why we don't extent to f32 here? LuoYuanke: Why we don't extent to f32 here?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Return `SDValue()` will extent later. This can save the code. pengfei: Return `SDValue()` will extent later. This can save the code.

// If the source is in an SSE register, the node is Legal.		// If the source is in an SSE register, the node is Legal.
if (isScalarFPTypeInSSEReg(SrcVT))		if (isScalarFPTypeInSSEReg(SrcVT))
return Op;		return Op;

return LRINT_LLRINTHelper(Op.getNode(), DAG);		return LRINT_LLRINTHelper(Op.getNode(), DAG);
}		}

SDValue X86TargetLowering::LRINT_LLRINTHelper(SDNode *N,		SDValue X86TargetLowering::LRINT_LLRINTHelper(SDNode *N,
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines	X86TargetLowering::LowerFP_TO_INT_SAT(SDValue Op, SelectionDAG &DAG) const {
// intermediate FP_TO_*INT operation we'll use (which may be a promotion of		// intermediate FP_TO_*INT operation we'll use (which may be a promotion of
// DstVT).		// DstVT).
EVT SrcVT = Src.getValueType();		EVT SrcVT = Src.getValueType();
EVT DstVT = Node->getValueType(0);		EVT DstVT = Node->getValueType(0);
EVT TmpVT = DstVT;		EVT TmpVT = DstVT;

// This code is only for floats and doubles. Fall back to generic code for		// This code is only for floats and doubles. Fall back to generic code for
// anything else.		// anything else.
if (!isScalarFPTypeInSSEReg(SrcVT))		if (!isScalarFPTypeInSSEReg(SrcVT) \|\|
		(SrcVT == MVT::f16 && !Subtarget.hasFP16()))
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Why we don't extent to f32 here? Will it be promoted finally? LuoYuanke: Why we don't extent to f32 here? Will it be promoted finally?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Yes. pengfei: Yes.
return SDValue();		return SDValue();

EVT SatVT = cast<VTSDNode>(Node->getOperand(1))->getVT();		EVT SatVT = cast<VTSDNode>(Node->getOperand(1))->getVT();
unsigned SatWidth = SatVT.getScalarSizeInBits();		unsigned SatWidth = SatVT.getScalarSizeInBits();
unsigned DstWidth = DstVT.getScalarSizeInBits();		unsigned DstWidth = DstVT.getScalarSizeInBits();
unsigned TmpWidth = TmpVT.getScalarSizeInBits();		unsigned TmpWidth = TmpVT.getScalarSizeInBits();
assert(SatWidth <= DstWidth && SatWidth <= TmpWidth &&		assert(SatWidth <= DstWidth && SatWidth <= TmpWidth &&
"Expected saturation width smaller than result width");		"Expected saturation width smaller than result width");
▲ Show 20 Lines • Show All 118 Lines • ▼ Show 20 Lines	return DAG.getSelectCC(
dl, Src, Src, ZeroInt, Select, ISD::CondCode::SETUO);		dl, Src, Src, ZeroInt, Select, ISD::CondCode::SETUO);
}		}

SDValue X86TargetLowering::LowerFP_EXTEND(SDValue Op, SelectionDAG &DAG) const {		SDValue X86TargetLowering::LowerFP_EXTEND(SDValue Op, SelectionDAG &DAG) const {
bool IsStrict = Op->isStrictFPOpcode();		bool IsStrict = Op->isStrictFPOpcode();

SDLoc DL(Op);		SDLoc DL(Op);
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
		SDValue Chain = IsStrict ? Op.getOperand(0) : SDValue();
SDValue In = Op.getOperand(IsStrict ? 1 : 0);		SDValue In = Op.getOperand(IsStrict ? 1 : 0);
MVT SVT = In.getSimpleValueType();		MVT SVT = In.getSimpleValueType();

if (VT == MVT::f128)		if (VT == MVT::f128 \|\| (SVT == MVT::f16 && VT == MVT::f80))
return SDValue();		return SDValue();

if (VT == MVT::f80) {
if (SVT == MVT::f16) {		if (SVT == MVT::f16) {
assert(Subtarget.hasFP16() && "Unexpected features!");		if (Subtarget.hasFP16())
RTLIB::Libcall LC = RTLIB::getFPEXT(SVT, VT);		return Op;
MakeLibCallOptions CallOptions;		if (!Subtarget.hasF16C())
std::pair<SDValue, SDValue> Tmp =		return SDValue();
makeLibCall(DAG, LC, VT, In, CallOptions, DL,
IsStrict ? Op.getOperand(0) : SDValue());		if (VT != MVT::f32) {
if (IsStrict)		if (IsStrict)
return DAG.getMergeValues({Tmp.first, Tmp.second}, DL);		return DAG.getNode(
else		ISD::STRICT_FP_EXTEND, DL, {VT, MVT::Other},
return Tmp.first;		{Chain, DAG.getNode(ISD::STRICT_FP_EXTEND, DL,
		{MVT::f32, MVT::Other}, {Chain, In})});

		return DAG.getNode(ISD::FP_EXTEND, DL, VT,
		DAG.getNode(ISD::FP_EXTEND, DL, MVT::f32, In));
}		}
return Op;
		In = DAG.getBitcast(MVT::i16, In);
		In = DAG.getNode(ISD::INSERT_VECTOR_ELT, DL, MVT::v8i16,
		getZeroVector(MVT::v8i16, Subtarget, DAG, DL), In,
		DAG.getIntPtrConstant(0, DL));
		SDValue Res;
		if (IsStrict) {
		Res = DAG.getNode(X86ISD::STRICT_CVTPH2PS, DL, {MVT::v4f32, MVT::Other},
		{Chain, In});
		Chain = Res.getValue(1);
		} else {
		Res = DAG.getNode(X86ISD::CVTPH2PS, DL, MVT::v4f32, In,
		DAG.getTargetConstant(4, DL, MVT::i32));
}		}
		Res = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::f32, Res,
		DAG.getIntPtrConstant(0, DL));
		if (IsStrict)
		return DAG.getMergeValues({Res, Chain}, DL);
		return Res;
		}

		if (!SVT.isVector())
		return Op;

if (SVT.getVectorElementType() == MVT::f16) {		if (SVT.getVectorElementType() == MVT::f16) {
assert(Subtarget.hasFP16() && Subtarget.hasVLX() && "Unexpected features!");		assert(Subtarget.hasFP16() && Subtarget.hasVLX() && "Unexpected features!");
if (SVT == MVT::v2f16)		if (SVT == MVT::v2f16)
In = DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v4f16, In,		In = DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v4f16, In,
DAG.getUNDEF(MVT::v2f16));		DAG.getUNDEF(MVT::v2f16));
SDValue Res = DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v8f16, In,		SDValue Res = DAG.getNode(ISD::CONCAT_VECTORS, DL, MVT::v8f16, In,
DAG.getUNDEF(MVT::v4f16));		DAG.getUNDEF(MVT::v4f16));
Show All 10 Lines	SDValue X86TargetLowering::LowerFP_EXTEND(SDValue Op, SelectionDAG &DAG) const {
if (IsStrict)		if (IsStrict)
return DAG.getNode(X86ISD::STRICT_VFPEXT, DL, {VT, MVT::Other},		return DAG.getNode(X86ISD::STRICT_VFPEXT, DL, {VT, MVT::Other},
{Op->getOperand(0), Res});		{Op->getOperand(0), Res});
return DAG.getNode(X86ISD::VFPEXT, DL, VT, Res);		return DAG.getNode(X86ISD::VFPEXT, DL, VT, Res);
}		}

SDValue X86TargetLowering::LowerFP_ROUND(SDValue Op, SelectionDAG &DAG) const {		SDValue X86TargetLowering::LowerFP_ROUND(SDValue Op, SelectionDAG &DAG) const {
bool IsStrict = Op->isStrictFPOpcode();		bool IsStrict = Op->isStrictFPOpcode();

		SDLoc DL(Op);
		SDValue Chain = IsStrict ? Op.getOperand(0) : SDValue();
SDValue In = Op.getOperand(IsStrict ? 1 : 0);		SDValue In = Op.getOperand(IsStrict ? 1 : 0);
		SDValue Op2 = Op.getOperand(IsStrict ? 2 : 1);
MVT VT = Op.getSimpleValueType();		MVT VT = Op.getSimpleValueType();
MVT SVT = In.getSimpleValueType();		MVT SVT = In.getSimpleValueType();

// It's legal except when f128 is involved or we're converting f80->f16.		if (SVT == MVT::f128 \|\| VT == MVT::f16 && SVT == MVT::f80)
if (SVT != MVT::f128 && !(VT == MVT::f16 && SVT == MVT::f80))		return SDValue();
return Op;

		if (VT == MVT::f16) {
		if (Subtarget.hasFP16())
		return Op;
		if (!Subtarget.hasF16C())
return SDValue();		return SDValue();

		if (SVT != MVT::f32) {
		if (IsStrict)
		return DAG.getNode(
		ISD::STRICT_FP_ROUND, DL, {VT, MVT::Other},
		{Chain,
		DAG.getNode(ISD::STRICT_FP_ROUND, DL, {MVT::f32, MVT::Other},
		{Chain, In, Op2}),
		Op2});

		return DAG.getNode(ISD::FP_ROUND, DL, VT,
		DAG.getNode(ISD::FP_ROUND, DL, MVT::f32, In, Op2),
		Op2);
		}

		SDValue Res;
		if (IsStrict) {
		Res = DAG.getNode(ISD::INSERT_VECTOR_ELT, DL, MVT::v4f32,
		DAG.getConstantFP(0, DL, MVT::v4f32), In,
		DAG.getIntPtrConstant(0, DL));
		Res = DAG.getNode(X86ISD::STRICT_CVTPS2PH, DL, {MVT::v8i16, MVT::Other},
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Should MVT::v8i16 be MVT::v8f16? LuoYuanke: Should MVT::v8i16 be MVT::v8f16?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions No. We use `MVT::v8i16` when we enabled F16C instructions. pengfei: No. We use `MVT::v8i16` when we enabled F16C instructions.
		{Chain, Res, DAG.getTargetConstant(4, DL, MVT::i32)});
		LuoYuankeUnsubmitted Done Reply Inline Actions Is it rounding control? Can we use a macro or add comments for what is the rounding control? LuoYuanke: Is it rounding control? Can we use a macro or add comments for what is the rounding control?
		Chain = Res.getValue(1);
		} else {
		// FIXME: Should we use zeros for upper elements for non-strict?
		Res = DAG.getNode(ISD::SCALAR_TO_VECTOR, DL, MVT::v4f32, In);
		Res = DAG.getNode(X86ISD::CVTPS2PH, DL, MVT::v8i16, Res,
		DAG.getTargetConstant(4, DL, MVT::i32));
		}

		Res = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, DL, MVT::i16, Res,
		LuoYuankeUnsubmitted Not Done Reply Inline Actions MVT::f16 and delete the bitcast? LuoYuanke: MVT::f16 and delete the bitcast?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions I don't think we have pattern to extract `f16` from `v8i16`. Besides, I think keeping the bitcast makes the flow clear. pengfei: I don't think we have pattern to extract `f16` from `v8i16`. Besides, I think keeping the…
		DAG.getIntPtrConstant(0, DL));
		Res = DAG.getBitcast(MVT::f16, Res);

		if (IsStrict)
		return DAG.getMergeValues({Res, Chain}, DL);

		return Res;
		}

		return Op;
}		}

static SDValue LowerFP16_TO_FP(SDValue Op, SelectionDAG &DAG) {		static SDValue LowerFP16_TO_FP(SDValue Op, SelectionDAG &DAG) {
bool IsStrict = Op->isStrictFPOpcode();		bool IsStrict = Op->isStrictFPOpcode();
SDValue Src = Op.getOperand(IsStrict ? 1 : 0);		SDValue Src = Op.getOperand(IsStrict ? 1 : 0);
assert(Src.getValueType() == MVT::i16 && Op.getValueType() == MVT::f32 &&		assert(Src.getValueType() == MVT::i16 && Op.getValueType() == MVT::f32 &&
"Unexpected VT!");		"Unexpected VT!");

▲ Show 20 Lines • Show All 2,008 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerSELECT(SDValue Op, SelectionDAG &DAG) const {
bool AddTest = true;		bool AddTest = true;
SDValue Cond = Op.getOperand(0);		SDValue Cond = Op.getOperand(0);
SDValue Op1 = Op.getOperand(1);		SDValue Op1 = Op.getOperand(1);
SDValue Op2 = Op.getOperand(2);		SDValue Op2 = Op.getOperand(2);
SDLoc DL(Op);		SDLoc DL(Op);
MVT VT = Op1.getSimpleValueType();		MVT VT = Op1.getSimpleValueType();
SDValue CC;		SDValue CC;

		if (VT == MVT::f16 && !Subtarget.hasFP16())
		return SDValue();

// Lower FP selects into a CMP/AND/ANDN/OR sequence when the necessary SSE ops		// Lower FP selects into a CMP/AND/ANDN/OR sequence when the necessary SSE ops
// are available or VBLENDV if AVX is available.		// are available or VBLENDV if AVX is available.
// Otherwise FP cmovs get lowered into a less efficient branch sequence later.		// Otherwise FP cmovs get lowered into a less efficient branch sequence later.
if (Cond.getOpcode() == ISD::SETCC && isScalarFPTypeInSSEReg(VT) &&		if (Cond.getOpcode() == ISD::SETCC && isScalarFPTypeInSSEReg(VT) &&
VT == Cond.getOperand(0).getSimpleValueType() && Cond->hasOneUse()) {		VT == Cond.getOperand(0).getSimpleValueType() && Cond->hasOneUse()) {
SDValue CondOp0 = Cond.getOperand(0), CondOp1 = Cond.getOperand(1);		SDValue CondOp0 = Cond.getOperand(0), CondOp1 = Cond.getOperand(1);
bool IsAlwaysSignaling;		bool IsAlwaysSignaling;
unsigned SSECC =		unsigned SSECC =
▲ Show 20 Lines • Show All 11,115 Lines • ▼ Show 20 Lines	X86TargetLowering::EmitInstrWithCustomInserter(MachineInstr &MI,
case X86::SEG_ALLOCA_64:		case X86::SEG_ALLOCA_64:
return EmitLoweredSegAlloca(MI, BB);		return EmitLoweredSegAlloca(MI, BB);
case X86::PROBED_ALLOCA_32:		case X86::PROBED_ALLOCA_32:
case X86::PROBED_ALLOCA_64:		case X86::PROBED_ALLOCA_64:
return EmitLoweredProbedAlloca(MI, BB);		return EmitLoweredProbedAlloca(MI, BB);
case X86::TLSCall_32:		case X86::TLSCall_32:
case X86::TLSCall_64:		case X86::TLSCall_64:
return EmitLoweredTLSCall(MI, BB);		return EmitLoweredTLSCall(MI, BB);
		case X86::CMOV_FR16:
		case X86::CMOV_FR16X:
case X86::CMOV_FR32:		case X86::CMOV_FR32:
case X86::CMOV_FR32X:		case X86::CMOV_FR32X:
case X86::CMOV_FR64:		case X86::CMOV_FR64:
case X86::CMOV_FR64X:		case X86::CMOV_FR64X:
case X86::CMOV_GR8:		case X86::CMOV_GR8:
case X86::CMOV_GR16:		case X86::CMOV_GR16:
case X86::CMOV_GR32:		case X86::CMOV_GR32:
case X86::CMOV_RFP32:		case X86::CMOV_RFP32:
▲ Show 20 Lines • Show All 8,246 Lines • ▼ Show 20 Lines	static SDValue combineSelect(SDNode *N, SelectionDAG &DAG,

// If we have SSE[12] support, try to form min/max nodes. SSE min/max		// If we have SSE[12] support, try to form min/max nodes. SSE min/max
// instructions match the semantics of the common C idiom x<y?x:y but not		// instructions match the semantics of the common C idiom x<y?x:y but not
// x<=y?x:y, because of how they handle negative zero (which can be		// x<=y?x:y, because of how they handle negative zero (which can be
// ignored in unsafe-math mode).		// ignored in unsafe-math mode).
// We also try to create v2f32 min/max nodes, which we later widen to v4f32.		// We also try to create v2f32 min/max nodes, which we later widen to v4f32.
if (Cond.getOpcode() == ISD::SETCC && VT.isFloatingPoint() &&		if (Cond.getOpcode() == ISD::SETCC && VT.isFloatingPoint() &&
VT != MVT::f80 && VT != MVT::f128 &&		VT != MVT::f80 && VT != MVT::f128 &&
		!(VT.getScalarType() == MVT::f16 && !Subtarget.hasFP16()) &&
		LuoYuankeUnsubmitted Done Reply Inline Actions Not sure if it is better to wrapper it into a readable function (e.g., isSoftF16). LuoYuanke: Not sure if it is better to wrapper it into a readable function (e.g., isSoftF16).
(TLI.isTypeLegal(VT) \|\| VT == MVT::v2f32) &&		(TLI.isTypeLegal(VT) \|\| VT == MVT::v2f32) &&
(Subtarget.hasSSE2() \|\|		(Subtarget.hasSSE2() \|\|
(Subtarget.hasSSE1() && VT.getScalarType() == MVT::f32))) {		(Subtarget.hasSSE1() && VT.getScalarType() == MVT::f32))) {
ISD::CondCode CC = cast<CondCodeSDNode>(Cond.getOperand(2))->get();		ISD::CondCode CC = cast<CondCodeSDNode>(Cond.getOperand(2))->get();

unsigned Opcode = 0;		unsigned Opcode = 0;
// Check for x CC y ? x : y.		// Check for x CC y ? x : y.
if (DAG.isEqualTo(LHS, Cond.getOperand(0)) &&		if (DAG.isEqualTo(LHS, Cond.getOperand(0)) &&
▲ Show 20 Lines • Show All 11,802 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 470 Lines • ▼ Show 20 Lines
def AVX512_512_SETALLONES : I<0, Pseudo, (outs VR512:$dst), (ins), "",		def AVX512_512_SETALLONES : I<0, Pseudo, (outs VR512:$dst), (ins), "",
[(set VR512:$dst, (v16i32 immAllOnesV))]>;		[(set VR512:$dst, (v16i32 immAllOnesV))]>;
}		}

let Predicates = [HasAVX512] in {		let Predicates = [HasAVX512] in {
def : Pat<(v64i8 immAllZerosV), (AVX512_512_SET0)>;		def : Pat<(v64i8 immAllZerosV), (AVX512_512_SET0)>;
def : Pat<(v32i16 immAllZerosV), (AVX512_512_SET0)>;		def : Pat<(v32i16 immAllZerosV), (AVX512_512_SET0)>;
def : Pat<(v8i64 immAllZerosV), (AVX512_512_SET0)>;		def : Pat<(v8i64 immAllZerosV), (AVX512_512_SET0)>;
		def : Pat<(v32f16 immAllZerosV), (AVX512_512_SET0)>;
def : Pat<(v16f32 immAllZerosV), (AVX512_512_SET0)>;		def : Pat<(v16f32 immAllZerosV), (AVX512_512_SET0)>;
def : Pat<(v8f64 immAllZerosV), (AVX512_512_SET0)>;		def : Pat<(v8f64 immAllZerosV), (AVX512_512_SET0)>;
}		}

// Alias instructions that allow VPTERNLOG to be used with a mask to create		// Alias instructions that allow VPTERNLOG to be used with a mask to create
// a mix of all ones and all zeros elements. This is done this way to force		// a mix of all ones and all zeros elements. This is done this way to force
// the same register to be used as input for all three sources.		// the same register to be used as input for all three sources.
let isPseudo = 1, Predicates = [HasAVX512], SchedRW = [WriteVecALU] in {		let isPseudo = 1, Predicates = [HasAVX512], SchedRW = [WriteVecALU] in {
Show All 16 Lines
def AVX512_256_SET0 : I<0, Pseudo, (outs VR256X:$dst), (ins), "",		def AVX512_256_SET0 : I<0, Pseudo, (outs VR256X:$dst), (ins), "",
[(set VR256X:$dst, (v8i32 immAllZerosV))]>;		[(set VR256X:$dst, (v8i32 immAllZerosV))]>;
}		}

let Predicates = [HasAVX512] in {		let Predicates = [HasAVX512] in {
def : Pat<(v8i16 immAllZerosV), (AVX512_128_SET0)>;		def : Pat<(v8i16 immAllZerosV), (AVX512_128_SET0)>;
def : Pat<(v16i8 immAllZerosV), (AVX512_128_SET0)>;		def : Pat<(v16i8 immAllZerosV), (AVX512_128_SET0)>;
def : Pat<(v2i64 immAllZerosV), (AVX512_128_SET0)>;		def : Pat<(v2i64 immAllZerosV), (AVX512_128_SET0)>;
		def : Pat<(v8f16 immAllZerosV), (AVX512_128_SET0)>;
def : Pat<(v4f32 immAllZerosV), (AVX512_128_SET0)>;		def : Pat<(v4f32 immAllZerosV), (AVX512_128_SET0)>;
def : Pat<(v2f64 immAllZerosV), (AVX512_128_SET0)>;		def : Pat<(v2f64 immAllZerosV), (AVX512_128_SET0)>;
def : Pat<(v32i8 immAllZerosV), (AVX512_256_SET0)>;		def : Pat<(v32i8 immAllZerosV), (AVX512_256_SET0)>;
def : Pat<(v16i16 immAllZerosV), (AVX512_256_SET0)>;		def : Pat<(v16i16 immAllZerosV), (AVX512_256_SET0)>;
def : Pat<(v4i64 immAllZerosV), (AVX512_256_SET0)>;		def : Pat<(v4i64 immAllZerosV), (AVX512_256_SET0)>;
		def : Pat<(v16f16 immAllZerosV), (AVX512_256_SET0)>;
def : Pat<(v8f32 immAllZerosV), (AVX512_256_SET0)>;		def : Pat<(v8f32 immAllZerosV), (AVX512_256_SET0)>;
def : Pat<(v4f64 immAllZerosV), (AVX512_256_SET0)>;		def : Pat<(v4f64 immAllZerosV), (AVX512_256_SET0)>;
}		}

let Predicates = [HasFP16] in {
def : Pat<(v8f16 immAllZerosV), (AVX512_128_SET0)>;
def : Pat<(v16f16 immAllZerosV), (AVX512_256_SET0)>;
def : Pat<(v32f16 immAllZerosV), (AVX512_512_SET0)>;
}

// Alias instructions that map fld0 to xorps for sse or vxorps for avx.		// Alias instructions that map fld0 to xorps for sse or vxorps for avx.
// This is expanded by ExpandPostRAPseudos.		// This is expanded by ExpandPostRAPseudos.
let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1,		let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1,
isPseudo = 1, SchedRW = [WriteZero], Predicates = [HasAVX512] in {		isPseudo = 1, SchedRW = [WriteZero], Predicates = [HasAVX512] in {
		def AVX512_FsFLD0SH : I<0, Pseudo, (outs FR16X:$dst), (ins), "",
		[(set FR16X:$dst, fp16imm0)]>;
def AVX512_FsFLD0SS : I<0, Pseudo, (outs FR32X:$dst), (ins), "",		def AVX512_FsFLD0SS : I<0, Pseudo, (outs FR32X:$dst), (ins), "",
[(set FR32X:$dst, fp32imm0)]>;		[(set FR32X:$dst, fp32imm0)]>;
def AVX512_FsFLD0SD : I<0, Pseudo, (outs FR64X:$dst), (ins), "",		def AVX512_FsFLD0SD : I<0, Pseudo, (outs FR64X:$dst), (ins), "",
[(set FR64X:$dst, fp64imm0)]>;		[(set FR64X:$dst, fp64imm0)]>;
def AVX512_FsFLD0F128 : I<0, Pseudo, (outs VR128X:$dst), (ins), "",		def AVX512_FsFLD0F128 : I<0, Pseudo, (outs VR128X:$dst), (ins), "",
[(set VR128X:$dst, fp128imm0)]>;		[(set VR128X:$dst, fp128imm0)]>;
}		}

let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1,
isPseudo = 1, SchedRW = [WriteZero], Predicates = [HasFP16] in {
def AVX512_FsFLD0SH : I<0, Pseudo, (outs FR16X:$dst), (ins), "",
[(set FR16X:$dst, fp16imm0)]>;
}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// AVX-512 - VECTOR INSERT		// AVX-512 - VECTOR INSERT
//		//

// Supports two different pattern operators for mask and unmasked ops. Allows		// Supports two different pattern operators for mask and unmasked ops. Allows
// null_frag to be passed for one.		// null_frag to be passed for one.
multiclass vinsert_for_size_split<int Opcode, X86VectorVTInfo From,		multiclass vinsert_for_size_split<int Opcode, X86VectorVTInfo From,
X86VectorVTInfo To,		X86VectorVTInfo To,
▲ Show 20 Lines • Show All 121 Lines • ▼ Show 20 Lines	defm : vinsert_for_size_lowering<"VINSERTI64x4Z", v8i32x_info, v16i32_info,
vinsert256_insert, INSERT_get_vinsert256_imm, [HasAVX512]>;		vinsert256_insert, INSERT_get_vinsert256_imm, [HasAVX512]>;

// Codegen pattern with the alternative types insert VEC128 into VEC256		// Codegen pattern with the alternative types insert VEC128 into VEC256
defm : vinsert_for_size_lowering<"VINSERTI32x4Z256", v8i16x_info, v16i16x_info,		defm : vinsert_for_size_lowering<"VINSERTI32x4Z256", v8i16x_info, v16i16x_info,
vinsert128_insert, INSERT_get_vinsert128_imm, [HasVLX]>;		vinsert128_insert, INSERT_get_vinsert128_imm, [HasVLX]>;
defm : vinsert_for_size_lowering<"VINSERTI32x4Z256", v16i8x_info, v32i8x_info,		defm : vinsert_for_size_lowering<"VINSERTI32x4Z256", v16i8x_info, v32i8x_info,
vinsert128_insert, INSERT_get_vinsert128_imm, [HasVLX]>;		vinsert128_insert, INSERT_get_vinsert128_imm, [HasVLX]>;
defm : vinsert_for_size_lowering<"VINSERTF32x4Z256", v8f16x_info, v16f16x_info,		defm : vinsert_for_size_lowering<"VINSERTF32x4Z256", v8f16x_info, v16f16x_info,
vinsert128_insert, INSERT_get_vinsert128_imm, [HasFP16, HasVLX]>;		vinsert128_insert, INSERT_get_vinsert128_imm, [HasVLX]>;
// Codegen pattern with the alternative types insert VEC128 into VEC512		// Codegen pattern with the alternative types insert VEC128 into VEC512
defm : vinsert_for_size_lowering<"VINSERTI32x4Z", v8i16x_info, v32i16_info,		defm : vinsert_for_size_lowering<"VINSERTI32x4Z", v8i16x_info, v32i16_info,
vinsert128_insert, INSERT_get_vinsert128_imm, [HasAVX512]>;		vinsert128_insert, INSERT_get_vinsert128_imm, [HasAVX512]>;
defm : vinsert_for_size_lowering<"VINSERTI32x4Z", v16i8x_info, v64i8_info,		defm : vinsert_for_size_lowering<"VINSERTI32x4Z", v16i8x_info, v64i8_info,
vinsert128_insert, INSERT_get_vinsert128_imm, [HasAVX512]>;		vinsert128_insert, INSERT_get_vinsert128_imm, [HasAVX512]>;
defm : vinsert_for_size_lowering<"VINSERTF32x4Z", v8f16x_info, v32f16_info,		defm : vinsert_for_size_lowering<"VINSERTF32x4Z", v8f16x_info, v32f16_info,
vinsert128_insert, INSERT_get_vinsert128_imm, [HasFP16]>;		vinsert128_insert, INSERT_get_vinsert128_imm, [HasAVX512]>;
// Codegen pattern with the alternative types insert VEC256 into VEC512		// Codegen pattern with the alternative types insert VEC256 into VEC512
defm : vinsert_for_size_lowering<"VINSERTI64x4Z", v16i16x_info, v32i16_info,		defm : vinsert_for_size_lowering<"VINSERTI64x4Z", v16i16x_info, v32i16_info,
vinsert256_insert, INSERT_get_vinsert256_imm, [HasAVX512]>;		vinsert256_insert, INSERT_get_vinsert256_imm, [HasAVX512]>;
defm : vinsert_for_size_lowering<"VINSERTI64x4Z", v32i8x_info, v64i8_info,		defm : vinsert_for_size_lowering<"VINSERTI64x4Z", v32i8x_info, v64i8_info,
vinsert256_insert, INSERT_get_vinsert256_imm, [HasAVX512]>;		vinsert256_insert, INSERT_get_vinsert256_imm, [HasAVX512]>;
defm : vinsert_for_size_lowering<"VINSERTF64x4Z", v16f16x_info, v32f16_info,		defm : vinsert_for_size_lowering<"VINSERTF64x4Z", v16f16x_info, v32f16_info,
vinsert256_insert, INSERT_get_vinsert256_imm, [HasFP16]>;		vinsert256_insert, INSERT_get_vinsert256_imm, [HasAVX512]>;


multiclass vinsert_for_mask_cast<string InstrStr, X86VectorVTInfo From,		multiclass vinsert_for_mask_cast<string InstrStr, X86VectorVTInfo From,
X86VectorVTInfo To, X86VectorVTInfo Cast,		X86VectorVTInfo To, X86VectorVTInfo Cast,
PatFrag vinsert_insert,		PatFrag vinsert_insert,
SDNodeXForm INSERT_get_vinsert_imm,		SDNodeXForm INSERT_get_vinsert_imm,
list<Predicate> p> {		list<Predicate> p> {
let Predicates = p in {		let Predicates = p in {
▲ Show 20 Lines • Show All 270 Lines • ▼ Show 20 Lines	defm : vextract_for_size_lowering<"VEXTRACTI32x4Z256", v4i64x_info, v2i64x_info,
vextract128_extract, EXTRACT_get_vextract128_imm, [HasVLX]>;		vextract128_extract, EXTRACT_get_vextract128_imm, [HasVLX]>;

// Codegen pattern with the alternative types extract VEC128 from VEC256		// Codegen pattern with the alternative types extract VEC128 from VEC256
defm : vextract_for_size_lowering<"VEXTRACTI32x4Z256", v16i16x_info, v8i16x_info,		defm : vextract_for_size_lowering<"VEXTRACTI32x4Z256", v16i16x_info, v8i16x_info,
vextract128_extract, EXTRACT_get_vextract128_imm, [HasVLX]>;		vextract128_extract, EXTRACT_get_vextract128_imm, [HasVLX]>;
defm : vextract_for_size_lowering<"VEXTRACTI32x4Z256", v32i8x_info, v16i8x_info,		defm : vextract_for_size_lowering<"VEXTRACTI32x4Z256", v32i8x_info, v16i8x_info,
vextract128_extract, EXTRACT_get_vextract128_imm, [HasVLX]>;		vextract128_extract, EXTRACT_get_vextract128_imm, [HasVLX]>;
defm : vextract_for_size_lowering<"VEXTRACTF32x4Z256", v16f16x_info, v8f16x_info,		defm : vextract_for_size_lowering<"VEXTRACTF32x4Z256", v16f16x_info, v8f16x_info,
vextract128_extract, EXTRACT_get_vextract128_imm, [HasFP16, HasVLX]>;		vextract128_extract, EXTRACT_get_vextract128_imm, [HasVLX]>;

// Codegen pattern with the alternative types extract VEC128 from VEC512		// Codegen pattern with the alternative types extract VEC128 from VEC512
defm : vextract_for_size_lowering<"VEXTRACTI32x4Z", v32i16_info, v8i16x_info,		defm : vextract_for_size_lowering<"VEXTRACTI32x4Z", v32i16_info, v8i16x_info,
vextract128_extract, EXTRACT_get_vextract128_imm, [HasAVX512]>;		vextract128_extract, EXTRACT_get_vextract128_imm, [HasAVX512]>;
defm : vextract_for_size_lowering<"VEXTRACTI32x4Z", v64i8_info, v16i8x_info,		defm : vextract_for_size_lowering<"VEXTRACTI32x4Z", v64i8_info, v16i8x_info,
vextract128_extract, EXTRACT_get_vextract128_imm, [HasAVX512]>;		vextract128_extract, EXTRACT_get_vextract128_imm, [HasAVX512]>;
defm : vextract_for_size_lowering<"VEXTRACTF32x4Z", v32f16_info, v8f16x_info,		defm : vextract_for_size_lowering<"VEXTRACTF32x4Z", v32f16_info, v8f16x_info,
vextract128_extract, EXTRACT_get_vextract128_imm, [HasFP16]>;		vextract128_extract, EXTRACT_get_vextract128_imm, [HasAVX512]>;
// Codegen pattern with the alternative types extract VEC256 from VEC512		// Codegen pattern with the alternative types extract VEC256 from VEC512
defm : vextract_for_size_lowering<"VEXTRACTI64x4Z", v32i16_info, v16i16x_info,		defm : vextract_for_size_lowering<"VEXTRACTI64x4Z", v32i16_info, v16i16x_info,
vextract256_extract, EXTRACT_get_vextract256_imm, [HasAVX512]>;		vextract256_extract, EXTRACT_get_vextract256_imm, [HasAVX512]>;
defm : vextract_for_size_lowering<"VEXTRACTI64x4Z", v64i8_info, v32i8x_info,		defm : vextract_for_size_lowering<"VEXTRACTI64x4Z", v64i8_info, v32i8x_info,
vextract256_extract, EXTRACT_get_vextract256_imm, [HasAVX512]>;		vextract256_extract, EXTRACT_get_vextract256_imm, [HasAVX512]>;
defm : vextract_for_size_lowering<"VEXTRACTF64x4Z", v32f16_info, v16f16x_info,		defm : vextract_for_size_lowering<"VEXTRACTF64x4Z", v32f16_info, v16f16x_info,
vextract256_extract, EXTRACT_get_vextract256_imm, [HasFP16]>;		vextract256_extract, EXTRACT_get_vextract256_imm, [HasAVX512]>;


// A 128-bit extract from bits [255:128] of a 512-bit vector should use a		// A 128-bit extract from bits [255:128] of a 512-bit vector should use a
// smaller extract to enable EVEX->VEX.		// smaller extract to enable EVEX->VEX.
let Predicates = [NoVLX] in {		let Predicates = [NoVLX] in {
def : Pat<(v2i64 (extract_subvector (v8i64 VR512:$src), (iPTR 2))),		def : Pat<(v2i64 (extract_subvector (v8i64 VR512:$src), (iPTR 2))),
(v2i64 (VEXTRACTI128rr		(v2i64 (VEXTRACTI128rr
(v4i64 (EXTRACT_SUBREG (v8i64 VR512:$src), sub_ymm)),		(v4i64 (EXTRACT_SUBREG (v8i64 VR512:$src), sub_ymm)),
Show All 9 Lines
def : Pat<(v4f32 (extract_subvector (v16f32 VR512:$src), (iPTR 4))),		def : Pat<(v4f32 (extract_subvector (v16f32 VR512:$src), (iPTR 4))),
(v4f32 (VEXTRACTF128rr		(v4f32 (VEXTRACTF128rr
(v8f32 (EXTRACT_SUBREG (v16f32 VR512:$src), sub_ymm)),		(v8f32 (EXTRACT_SUBREG (v16f32 VR512:$src), sub_ymm)),
(iPTR 1)))>;		(iPTR 1)))>;
def : Pat<(v8i16 (extract_subvector (v32i16 VR512:$src), (iPTR 8))),		def : Pat<(v8i16 (extract_subvector (v32i16 VR512:$src), (iPTR 8))),
(v8i16 (VEXTRACTI128rr		(v8i16 (VEXTRACTI128rr
(v16i16 (EXTRACT_SUBREG (v32i16 VR512:$src), sub_ymm)),		(v16i16 (EXTRACT_SUBREG (v32i16 VR512:$src), sub_ymm)),
(iPTR 1)))>;		(iPTR 1)))>;
		def : Pat<(v8f16 (extract_subvector (v32f16 VR512:$src), (iPTR 8))),
		(v8f16 (VEXTRACTF128rr
		(v16f16 (EXTRACT_SUBREG (v32f16 VR512:$src), sub_ymm)),
		(iPTR 1)))>;
def : Pat<(v16i8 (extract_subvector (v64i8 VR512:$src), (iPTR 16))),		def : Pat<(v16i8 (extract_subvector (v64i8 VR512:$src), (iPTR 16))),
(v16i8 (VEXTRACTI128rr		(v16i8 (VEXTRACTI128rr
(v32i8 (EXTRACT_SUBREG (v64i8 VR512:$src), sub_ymm)),		(v32i8 (EXTRACT_SUBREG (v64i8 VR512:$src), sub_ymm)),
(iPTR 1)))>;		(iPTR 1)))>;
}		}

// A 128-bit extract from bits [255:128] of a 512-bit vector should use a		// A 128-bit extract from bits [255:128] of a 512-bit vector should use a
// smaller extract to enable EVEX->VEX.		// smaller extract to enable EVEX->VEX.
Show All 13 Lines
def : Pat<(v4f32 (extract_subvector (v16f32 VR512:$src), (iPTR 4))),		def : Pat<(v4f32 (extract_subvector (v16f32 VR512:$src), (iPTR 4))),
(v4f32 (VEXTRACTF32x4Z256rr		(v4f32 (VEXTRACTF32x4Z256rr
(v8f32 (EXTRACT_SUBREG (v16f32 VR512:$src), sub_ymm)),		(v8f32 (EXTRACT_SUBREG (v16f32 VR512:$src), sub_ymm)),
(iPTR 1)))>;		(iPTR 1)))>;
def : Pat<(v8i16 (extract_subvector (v32i16 VR512:$src), (iPTR 8))),		def : Pat<(v8i16 (extract_subvector (v32i16 VR512:$src), (iPTR 8))),
(v8i16 (VEXTRACTI32x4Z256rr		(v8i16 (VEXTRACTI32x4Z256rr
(v16i16 (EXTRACT_SUBREG (v32i16 VR512:$src), sub_ymm)),		(v16i16 (EXTRACT_SUBREG (v32i16 VR512:$src), sub_ymm)),
(iPTR 1)))>;		(iPTR 1)))>;
		def : Pat<(v8f16 (extract_subvector (v32f16 VR512:$src), (iPTR 8))),
		(v8f16 (VEXTRACTF32x4Z256rr
		(v16f16 (EXTRACT_SUBREG (v32f16 VR512:$src), sub_ymm)),
		(iPTR 1)))>;
def : Pat<(v16i8 (extract_subvector (v64i8 VR512:$src), (iPTR 16))),		def : Pat<(v16i8 (extract_subvector (v64i8 VR512:$src), (iPTR 16))),
(v16i8 (VEXTRACTI32x4Z256rr		(v16i8 (VEXTRACTI32x4Z256rr
(v32i8 (EXTRACT_SUBREG (v64i8 VR512:$src), sub_ymm)),		(v32i8 (EXTRACT_SUBREG (v64i8 VR512:$src), sub_ymm)),
(iPTR 1)))>;		(iPTR 1)))>;
}		}

let Predicates = [HasFP16, HasVLX] in
def : Pat<(v8f16 (extract_subvector (v32f16 VR512:$src), (iPTR 8))),
(v8f16 (VEXTRACTF32x4Z256rr
(v16f16 (EXTRACT_SUBREG (v32f16 VR512:$src), sub_ymm)),
(iPTR 1)))>;


// Additional patterns for handling a bitcast between the vselect and the		// Additional patterns for handling a bitcast between the vselect and the
// extract_subvector.		// extract_subvector.
multiclass vextract_for_mask_cast<string InstrStr, X86VectorVTInfo From,		multiclass vextract_for_mask_cast<string InstrStr, X86VectorVTInfo From,
X86VectorVTInfo To, X86VectorVTInfo Cast,		X86VectorVTInfo To, X86VectorVTInfo Cast,
PatFrag vextract_extract,		PatFrag vextract_extract,
SDNodeXForm EXTRACT_get_vextract_imm,		SDNodeXForm EXTRACT_get_vextract_imm,
list<Predicate> p> {		list<Predicate> p> {
▲ Show 20 Lines • Show All 401 Lines • ▼ Show 20 Lines	multiclass avx512_subvec_broadcast_rm_dq<bits<8> opc, string OpcodeStr,
let hasSideEffects = 0, mayLoad = 1 in		let hasSideEffects = 0, mayLoad = 1 in
defm rm : AVX512_maskable_split<opc, MRMSrcMem, _Dst, (outs _Dst.RC:$dst),		defm rm : AVX512_maskable_split<opc, MRMSrcMem, _Dst, (outs _Dst.RC:$dst),
(ins _Src.MemOp:$src), OpcodeStr, "$src", "$src",		(ins _Src.MemOp:$src), OpcodeStr, "$src", "$src",
(null_frag),		(null_frag),
(_Dst.VT (OpNode addr:$src))>,		(_Dst.VT (OpNode addr:$src))>,
Sched<[SchedWriteShuffle.YMM.Folded]>,		Sched<[SchedWriteShuffle.YMM.Folded]>,
AVX5128IBase, EVEX;		AVX5128IBase, EVEX;
}		}
let Predicates = [HasFP16] in {		let Predicates = [HasBWI], AddedComplexity = -10 in {
		LuoYuankeUnsubmitted Not Done Reply Inline Actions If target don't have avx512bw feature. There is some other pattern to lower the node or fp16 broadcast node is invalid? LuoYuanke: If target don't have avx512bw feature. There is some other pattern to lower the node or fp16…
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Good catch. Added in X86InstrSSE.td pengfei: Good catch. Added in X86InstrSSE.td
def : Pat<(v32f16 (X86VBroadcastld16 addr:$src)),		def : Pat<(v32f16 (X86VBroadcastld16 addr:$src)),
(VPBROADCASTWZrm addr:$src)>;		(VPBROADCASTWZrm addr:$src)>;

def : Pat<(v32f16 (X86VBroadcast (v8f16 VR128X:$src))),		def : Pat<(v32f16 (X86VBroadcast (v8f16 VR128X:$src))),
(VPBROADCASTWZrr VR128X:$src)>;		(VPBROADCASTWZrr VR128X:$src)>;
def : Pat<(v32f16 (X86VBroadcast (f16 FR16X:$src))),		def : Pat<(v32f16 (X86VBroadcast (f16 FR16X:$src))),
(VPBROADCASTWZrr (COPY_TO_REGCLASS FR16X:$src, VR128X))>;		(VPBROADCASTWZrr (COPY_TO_REGCLASS FR16X:$src, VR128X))>;
}		}
let Predicates = [HasVLX, HasFP16] in {		let Predicates = [HasVLX, HasBWI], AddedComplexity = -10 in {
def : Pat<(v8f16 (X86VBroadcastld16 addr:$src)),		def : Pat<(v8f16 (X86VBroadcastld16 addr:$src)),
(VPBROADCASTWZ128rm addr:$src)>;		(VPBROADCASTWZ128rm addr:$src)>;
def : Pat<(v16f16 (X86VBroadcastld16 addr:$src)),		def : Pat<(v16f16 (X86VBroadcastld16 addr:$src)),
(VPBROADCASTWZ256rm addr:$src)>;		(VPBROADCASTWZ256rm addr:$src)>;

def : Pat<(v8f16 (X86VBroadcast (v8f16 VR128X:$src))),		def : Pat<(v8f16 (X86VBroadcast (v8f16 VR128X:$src))),
(VPBROADCASTWZ128rr VR128X:$src)>;		(VPBROADCASTWZ128rr VR128X:$src)>;
def : Pat<(v16f16 (X86VBroadcast (v8f16 VR128X:$src))),		def : Pat<(v16f16 (X86VBroadcast (v8f16 VR128X:$src))),
▲ Show 20 Lines • Show All 2,259 Lines • ▼ Show 20 Lines
}		}

let Predicates = [HasBWI, NoVLX] in {		let Predicates = [HasBWI, NoVLX] in {
defm : mask_move_lowering<"VMOVDQU8Z", v16i8x_info, v64i8_info>;		defm : mask_move_lowering<"VMOVDQU8Z", v16i8x_info, v64i8_info>;
defm : mask_move_lowering<"VMOVDQU8Z", v32i8x_info, v64i8_info>;		defm : mask_move_lowering<"VMOVDQU8Z", v32i8x_info, v64i8_info>;

defm : mask_move_lowering<"VMOVDQU16Z", v8i16x_info, v32i16_info>;		defm : mask_move_lowering<"VMOVDQU16Z", v8i16x_info, v32i16_info>;
defm : mask_move_lowering<"VMOVDQU16Z", v16i16x_info, v32i16_info>;		defm : mask_move_lowering<"VMOVDQU16Z", v16i16x_info, v32i16_info>;

		defm : mask_move_lowering<"VMOVDQU16Z", v8f16x_info, v32f16_info>;
		defm : mask_move_lowering<"VMOVDQU16Z", v16f16x_info, v32f16_info>;
}		}

let Predicates = [HasAVX512] in {		let Predicates = [HasAVX512] in {
// 512-bit load.		// 512-bit load.
def : Pat<(alignedloadv16i32 addr:$src),		def : Pat<(alignedloadv16i32 addr:$src),
(VMOVDQA64Zrm addr:$src)>;		(VMOVDQA64Zrm addr:$src)>;
def : Pat<(alignedloadv32i16 addr:$src),		def : Pat<(alignedloadv32i16 addr:$src),
(VMOVDQA64Zrm addr:$src)>;		(VMOVDQA64Zrm addr:$src)>;
▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines	def : Pat<(alignedstore (v32i8 VR256X:$src), addr:$dst),
(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;		(VMOVDQA64Z256mr addr:$dst, VR256X:$src)>;
def : Pat<(store (v8i32 VR256X:$src), addr:$dst),		def : Pat<(store (v8i32 VR256X:$src), addr:$dst),
(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;		(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;
def : Pat<(store (v16i16 VR256X:$src), addr:$dst),		def : Pat<(store (v16i16 VR256X:$src), addr:$dst),
(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;		(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;
def : Pat<(store (v32i8 VR256X:$src), addr:$dst),		def : Pat<(store (v32i8 VR256X:$src), addr:$dst),
(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;		(VMOVDQU64Z256mr addr:$dst, VR256X:$src)>;
}		}
let Predicates = [HasFP16] in {		let Predicates = [HasBWI] in {
def : Pat<(v32f16 (vselect VK32WM:$mask, (v32f16 VR512:$src1), (v32f16 VR512:$src0))),		def : Pat<(v32f16 (vselect VK32WM:$mask, (v32f16 VR512:$src1), (v32f16 VR512:$src0))),
(VMOVDQU16Zrrk VR512:$src0, VK32WM:$mask, VR512:$src1)>;		(VMOVDQU16Zrrk VR512:$src0, VK32WM:$mask, VR512:$src1)>;
def : Pat<(v32f16 (vselect VK32WM:$mask, (v32f16 VR512:$src1), v32f16_info.ImmAllZerosV)),		def : Pat<(v32f16 (vselect VK32WM:$mask, (v32f16 VR512:$src1), v32f16_info.ImmAllZerosV)),
(VMOVDQU16Zrrkz VK32WM:$mask, VR512:$src1)>;		(VMOVDQU16Zrrkz VK32WM:$mask, VR512:$src1)>;
def : Pat<(v32f16 (alignedloadv32f16 addr:$src)),		def : Pat<(v32f16 (alignedloadv32f16 addr:$src)),
(VMOVAPSZrm addr:$src)>;		(VMOVAPSZrm addr:$src)>;
def : Pat<(v32f16 (vselect VK32WM:$mask,		def : Pat<(v32f16 (vselect VK32WM:$mask,
(v32f16 (alignedloadv32f16 addr:$src)), (v32f16 VR512:$src0))),		(v32f16 (alignedloadv32f16 addr:$src)), (v32f16 VR512:$src0))),
Show All 18 Lines	let Predicates = [HasBWI] in {

def : Pat<(alignedstore (v32f16 VR512:$src), addr:$dst),		def : Pat<(alignedstore (v32f16 VR512:$src), addr:$dst),
(VMOVAPSZmr addr:$dst, VR512:$src)>;		(VMOVAPSZmr addr:$dst, VR512:$src)>;
def : Pat<(store (v32f16 VR512:$src), addr:$dst),		def : Pat<(store (v32f16 VR512:$src), addr:$dst),
(VMOVUPSZmr addr:$dst, VR512:$src)>;		(VMOVUPSZmr addr:$dst, VR512:$src)>;
def : Pat<(masked_store (v32f16 VR512:$src), addr:$dst, VK32WM:$mask),		def : Pat<(masked_store (v32f16 VR512:$src), addr:$dst, VK32WM:$mask),
(VMOVDQU16Zmrk addr:$dst, VK32WM:$mask, VR512:$src)>;		(VMOVDQU16Zmrk addr:$dst, VK32WM:$mask, VR512:$src)>;
}		}
let Predicates = [HasFP16, HasVLX] in {		let Predicates = [HasBWI, HasVLX] in {
def : Pat<(v16f16 (vselect VK16WM:$mask, (v16f16 VR256X:$src1), (v16f16 VR256X:$src0))),		def : Pat<(v16f16 (vselect VK16WM:$mask, (v16f16 VR256X:$src1), (v16f16 VR256X:$src0))),
(VMOVDQU16Z256rrk VR256X:$src0, VK16WM:$mask, VR256X:$src1)>;		(VMOVDQU16Z256rrk VR256X:$src0, VK16WM:$mask, VR256X:$src1)>;
def : Pat<(v16f16 (vselect VK16WM:$mask, (v16f16 VR256X:$src1), v16f16x_info.ImmAllZerosV)),		def : Pat<(v16f16 (vselect VK16WM:$mask, (v16f16 VR256X:$src1), v16f16x_info.ImmAllZerosV)),
(VMOVDQU16Z256rrkz VK16WM:$mask, VR256X:$src1)>;		(VMOVDQU16Z256rrkz VK16WM:$mask, VR256X:$src1)>;
def : Pat<(v16f16 (alignedloadv16f16 addr:$src)),		def : Pat<(v16f16 (alignedloadv16f16 addr:$src)),
(VMOVAPSZ256rm addr:$src)>;		(VMOVAPSZ256rm addr:$src)>;
def : Pat<(v16f16 (vselect VK16WM:$mask,		def : Pat<(v16f16 (vselect VK16WM:$mask,
(v16f16 (alignedloadv16f16 addr:$src)), (v16f16 VR256X:$src0))),		(v16f16 (alignedloadv16f16 addr:$src)), (v16f16 VR256X:$src0))),
▲ Show 20 Lines • Show All 195 Lines • ▼ Show 20 Lines
def : Pat<(f64 (bitconvert VK64:$src)),		def : Pat<(f64 (bitconvert VK64:$src)),
(VMOV64toSDZrr (KMOVQrk VK64:$src))>;		(VMOV64toSDZrr (KMOVQrk VK64:$src))>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// AVX-512 MOVSH, MOVSS, MOVSD		// AVX-512 MOVSH, MOVSS, MOVSD
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

multiclass avx512_move_scalar<string asm, SDNode OpNode, PatFrag vzload_frag,		multiclass avx512_move_scalar<string asm, SDNode OpNode, PatFrag vzload_frag,
X86VectorVTInfo _,		X86VectorVTInfo _, Predicate prd = HasAVX512> {
list<Predicate> prd = [HasAVX512, OptForSize]> {		let Predicates = !if (!eq (prd, HasFP16), [HasFP16], [prd, OptForSize]) in
		skanUnsubmitted Not Done Reply Inline Actions Why do we need compare the `prd` w/ `HasFP16` here? Couldn't we just use `[prd, OptForSize]`? skan: Why do we need compare the `prd` w/ `HasFP16` here? Couldn't we just use `[prd, OptForSize]`?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions No, we can't. The predicate list AND all its predicates, which means we don't have a pattern for non `OptForSize` case. pengfei: No, we can't. The predicate list AND all its predicates, which means we don't have a pattern…
let Predicates = prd in
def rr : AVX512PI<0x10, MRMSrcReg, (outs _.RC:$dst),		def rr : AVX512PI<0x10, MRMSrcReg, (outs _.RC:$dst),
(ins _.RC:$src1, _.RC:$src2),		(ins _.RC:$src1, _.RC:$src2),
!strconcat(asm, "\t{$src2, $src1, $dst\|$dst, $src1, $src2}"),		!strconcat(asm, "\t{$src2, $src1, $dst\|$dst, $src1, $src2}"),
[(set _.RC:$dst, (_.VT (OpNode _.RC:$src1, _.RC:$src2)))],		[(set _.RC:$dst, (_.VT (OpNode _.RC:$src1, _.RC:$src2)))],
_.ExeDomain>, EVEX_4V, Sched<[SchedWriteFShuffle.XMM]>;		_.ExeDomain>, EVEX_4V, Sched<[SchedWriteFShuffle.XMM]>;
		let Predicates = [prd] in {
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Previous prd only apply to "def rr"? Is it a bug for previous code? LuoYuanke: Previous prd only apply to "def rr"? Is it a bug for previous code?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions No. previous code works well because no mask variants before AVX512 and no f16 before FP16. The latter is not true now. pengfei: No. previous code works well because no mask variants before AVX512 and no f16 before FP16. The…
def rrkz : AVX512PI<0x10, MRMSrcReg, (outs _.RC:$dst),		def rrkz : AVX512PI<0x10, MRMSrcReg, (outs _.RC:$dst),
(ins _.KRCWM:$mask, _.RC:$src1, _.RC:$src2),		(ins _.KRCWM:$mask, _.RC:$src1, _.RC:$src2),
!strconcat(asm, "\t{$src2, $src1, $dst {${mask}} {z}\|",		!strconcat(asm, "\t{$src2, $src1, $dst {${mask}} {z}\|",
"$dst {${mask}} {z}, $src1, $src2}"),		"$dst {${mask}} {z}, $src1, $src2}"),
[(set _.RC:$dst, (_.VT (X86selects _.KRCWM:$mask,		[(set _.RC:$dst, (_.VT (X86selects _.KRCWM:$mask,
(_.VT (OpNode _.RC:$src1, _.RC:$src2)),		(_.VT (OpNode _.RC:$src1, _.RC:$src2)),
_.ImmAllZerosV)))],		_.ImmAllZerosV)))],
_.ExeDomain>, EVEX_4V, EVEX_KZ, Sched<[SchedWriteFShuffle.XMM]>;		_.ExeDomain>, EVEX_4V, EVEX_KZ, Sched<[SchedWriteFShuffle.XMM]>;
Show All 36 Lines	def mr: AVX512PI<0x11, MRMDestMem, (outs), (ins _.ScalarMemOp:$dst, _.FRC:$src),
[(store _.FRC:$src, addr:$dst)], _.ExeDomain>,		[(store _.FRC:$src, addr:$dst)], _.ExeDomain>,
EVEX, Sched<[WriteFStore]>;		EVEX, Sched<[WriteFStore]>;
let mayStore = 1, hasSideEffects = 0 in		let mayStore = 1, hasSideEffects = 0 in
def mrk: AVX512PI<0x11, MRMDestMem, (outs),		def mrk: AVX512PI<0x11, MRMDestMem, (outs),
(ins _.ScalarMemOp:$dst, VK1WM:$mask, _.RC:$src),		(ins _.ScalarMemOp:$dst, VK1WM:$mask, _.RC:$src),
!strconcat(asm, "\t{$src, $dst {${mask}}\|$dst {${mask}}, $src}"),		!strconcat(asm, "\t{$src, $dst {${mask}}\|$dst {${mask}}, $src}"),
[], _.ExeDomain>, EVEX, EVEX_K, Sched<[WriteFStore]>,		[], _.ExeDomain>, EVEX, EVEX_K, Sched<[WriteFStore]>,
NotMemoryFoldable;		NotMemoryFoldable;
}		}
		}

defm VMOVSSZ : avx512_move_scalar<"vmovss", X86Movss, X86vzload32, f32x_info>,		defm VMOVSSZ : avx512_move_scalar<"vmovss", X86Movss, X86vzload32, f32x_info>,
VEX_LIG, XS, EVEX_CD8<32, CD8VT1>;		VEX_LIG, XS, EVEX_CD8<32, CD8VT1>;

defm VMOVSDZ : avx512_move_scalar<"vmovsd", X86Movsd, X86vzload64, f64x_info>,		defm VMOVSDZ : avx512_move_scalar<"vmovsd", X86Movsd, X86vzload64, f64x_info>,
VEX_LIG, XD, VEX_W, EVEX_CD8<64, CD8VT1>;		VEX_LIG, XD, VEX_W, EVEX_CD8<64, CD8VT1>;

defm VMOVSHZ : avx512_move_scalar<"vmovsh", X86Movsh, X86vzload16, f16x_info,		defm VMOVSHZ : avx512_move_scalar<"vmovsh", X86Movsh, X86vzload16, f16x_info,
[HasFP16]>,		HasFP16>,
VEX_LIG, T_MAP5XS, EVEX_CD8<16, CD8VT1>;		VEX_LIG, T_MAP5XS, EVEX_CD8<16, CD8VT1>;

multiclass avx512_move_scalar_lowering<string InstrStr, SDNode OpNode,		multiclass avx512_move_scalar_lowering<string InstrStr, SDNode OpNode,
PatLeaf ZeroFP, X86VectorVTInfo _> {		PatLeaf ZeroFP, X86VectorVTInfo _> {

def : Pat<(_.VT (OpNode _.RC:$src0,		def : Pat<(_.VT (OpNode _.RC:$src0,
(_.VT (scalar_to_vector		(_.VT (scalar_to_vector
(_.EltVT (X86selects VK1WM:$mask,		(_.EltVT (X86selects VK1WM:$mask,
▲ Show 20 Lines • Show All 153 Lines • ▼ Show 20 Lines

def : Pat<(_.info128.VT (masked_load addr:$srcAddr, Mask128,		def : Pat<(_.info128.VT (masked_load addr:$srcAddr, Mask128,
(_.info128.VT (X86vzmovl _.info128.RC:$src)))),		(_.info128.VT (X86vzmovl _.info128.RC:$src)))),
(!cast<Instruction>(InstrStr#rmk) _.info128.RC:$src,		(!cast<Instruction>(InstrStr#rmk) _.info128.RC:$src,
(COPY_TO_REGCLASS (i32 (INSERT_SUBREG (IMPLICIT_DEF), MaskRC:$mask, subreg)), VK1WM),		(COPY_TO_REGCLASS (i32 (INSERT_SUBREG (IMPLICIT_DEF), MaskRC:$mask, subreg)), VK1WM),
addr:$srcAddr)>;		addr:$srcAddr)>;
}		}

defm : avx512_move_scalar_lowering<"VMOVSHZ", X86Movsh, fp16imm0, v8f16x_info>;
defm : avx512_move_scalar_lowering<"VMOVSSZ", X86Movss, fp32imm0, v4f32x_info>;		defm : avx512_move_scalar_lowering<"VMOVSSZ", X86Movss, fp32imm0, v4f32x_info>;
defm : avx512_move_scalar_lowering<"VMOVSDZ", X86Movsd, fp64imm0, v2f64x_info>;		defm : avx512_move_scalar_lowering<"VMOVSDZ", X86Movsd, fp64imm0, v2f64x_info>;

defm : avx512_store_scalar_lowering<"VMOVSHZ", avx512vl_f16_info,
(v32i1 (bitconvert (and GR32:$mask, (i32 1)))), GR32>;
defm : avx512_store_scalar_lowering_subreg<"VMOVSHZ", avx512vl_f16_info,
(v32i1 (bitconvert (and GR32:$mask, (i32 1)))), GR32, sub_32bit>;
defm : avx512_store_scalar_lowering<"VMOVSSZ", avx512vl_f32_info,		defm : avx512_store_scalar_lowering<"VMOVSSZ", avx512vl_f32_info,
(v16i1 (bitconvert (i16 (trunc (and GR32:$mask, (i32 1)))))), GR32>;		(v16i1 (bitconvert (i16 (trunc (and GR32:$mask, (i32 1)))))), GR32>;
defm : avx512_store_scalar_lowering_subreg<"VMOVSSZ", avx512vl_f32_info,		defm : avx512_store_scalar_lowering_subreg<"VMOVSSZ", avx512vl_f32_info,
(v16i1 (bitconvert (i16 (and GR16:$mask, (i16 1))))), GR16, sub_16bit>;		(v16i1 (bitconvert (i16 (and GR16:$mask, (i16 1))))), GR16, sub_16bit>;
defm : avx512_store_scalar_lowering_subreg<"VMOVSDZ", avx512vl_f64_info,		defm : avx512_store_scalar_lowering_subreg<"VMOVSDZ", avx512vl_f64_info,
(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))), GR8, sub_8bit>;		(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))), GR8, sub_8bit>;

		let Predicates = [HasFP16] in {
		defm : avx512_move_scalar_lowering<"VMOVSHZ", X86Movsh, fp16imm0, v8f16x_info>;
		defm : avx512_store_scalar_lowering<"VMOVSHZ", avx512vl_f16_info,
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Why previous code don't have predicates? LuoYuanke: Why previous code don't have predicates?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Because no legal `f16` previously. pengfei: Because no legal `f16` previously.
		(v32i1 (bitconvert (and GR32:$mask, (i32 1)))), GR32>;
		defm : avx512_store_scalar_lowering_subreg<"VMOVSHZ", avx512vl_f16_info,
		(v32i1 (bitconvert (and GR32:$mask, (i32 1)))), GR32, sub_32bit>;
defm : avx512_store_scalar_lowering_subreg2<"VMOVSHZ", avx512vl_f16_info,		defm : avx512_store_scalar_lowering_subreg2<"VMOVSHZ", avx512vl_f16_info,
(v32i1 (insert_subvector		(v32i1 (insert_subvector
(v32i1 immAllZerosV),		(v32i1 immAllZerosV),
(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),		(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),
(iPTR 0))),		(iPTR 0))),
(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),		(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),
GR8, sub_8bit>;		GR8, sub_8bit>;

		defm : avx512_load_scalar_lowering<"VMOVSHZ", avx512vl_f16_info,
		(v32i1 (bitconvert (and GR32:$mask, (i32 1)))), GR32>;
		defm : avx512_load_scalar_lowering_subreg<"VMOVSHZ", avx512vl_f16_info,
		(v32i1 (bitconvert (and GR32:$mask, (i32 1)))), GR32, sub_32bit>;
		defm : avx512_load_scalar_lowering_subreg2<"VMOVSHZ", avx512vl_f16_info,
		(v32i1 (insert_subvector
		(v32i1 immAllZerosV),
		(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),
		(iPTR 0))),
		(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),
		GR8, sub_8bit>;

		def : Pat<(f16 (X86selects VK1WM:$mask, (f16 FR16X:$src1), (f16 FR16X:$src2))),
		(COPY_TO_REGCLASS (v8f16 (VMOVSHZrrk
		(v8f16 (COPY_TO_REGCLASS FR16X:$src2, VR128X)),
		VK1WM:$mask, (v8f16 (IMPLICIT_DEF)),
		(v8f16 (COPY_TO_REGCLASS FR16X:$src1, VR128X)))), FR16X)>;

		def : Pat<(f16 (X86selects VK1WM:$mask, (f16 FR16X:$src1), fp16imm0)),
		(COPY_TO_REGCLASS (v8f16 (VMOVSHZrrkz VK1WM:$mask, (v8f16 (IMPLICIT_DEF)),
		(v8f16 (COPY_TO_REGCLASS FR16X:$src1, VR128X)))), FR16X)>;
		}

defm : avx512_store_scalar_lowering_subreg2<"VMOVSSZ", avx512vl_f32_info,		defm : avx512_store_scalar_lowering_subreg2<"VMOVSSZ", avx512vl_f32_info,
(v16i1 (insert_subvector		(v16i1 (insert_subvector
(v16i1 immAllZerosV),		(v16i1 immAllZerosV),
(v4i1 (extract_subvector		(v4i1 (extract_subvector
(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),		(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),
(iPTR 0))),		(iPTR 0))),
(iPTR 0))),		(iPTR 0))),
(v4i1 (extract_subvector		(v4i1 (extract_subvector
Show All 9 Lines	defm : avx512_store_scalar_lowering_subreg2<"VMOVSDZ", avx512vl_f64_info,
(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))),		(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))),
(iPTR 0))),		(iPTR 0))),
(iPTR 0))),		(iPTR 0))),
(iPTR 0))),		(iPTR 0))),
(v2i1 (extract_subvector		(v2i1 (extract_subvector
(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))),		(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))),
(iPTR 0))), GR8, sub_8bit>;		(iPTR 0))), GR8, sub_8bit>;

defm : avx512_load_scalar_lowering<"VMOVSHZ", avx512vl_f16_info,
(v32i1 (bitconvert (and GR32:$mask, (i32 1)))), GR32>;
defm : avx512_load_scalar_lowering_subreg<"VMOVSHZ", avx512vl_f16_info,
(v32i1 (bitconvert (and GR32:$mask, (i32 1)))), GR32, sub_32bit>;
defm : avx512_load_scalar_lowering<"VMOVSSZ", avx512vl_f32_info,		defm : avx512_load_scalar_lowering<"VMOVSSZ", avx512vl_f32_info,
(v16i1 (bitconvert (i16 (trunc (and GR32:$mask, (i32 1)))))), GR32>;		(v16i1 (bitconvert (i16 (trunc (and GR32:$mask, (i32 1)))))), GR32>;
defm : avx512_load_scalar_lowering_subreg<"VMOVSSZ", avx512vl_f32_info,		defm : avx512_load_scalar_lowering_subreg<"VMOVSSZ", avx512vl_f32_info,
(v16i1 (bitconvert (i16 (and GR16:$mask, (i16 1))))), GR16, sub_16bit>;		(v16i1 (bitconvert (i16 (and GR16:$mask, (i16 1))))), GR16, sub_16bit>;
defm : avx512_load_scalar_lowering_subreg<"VMOVSDZ", avx512vl_f64_info,		defm : avx512_load_scalar_lowering_subreg<"VMOVSDZ", avx512vl_f64_info,
(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))), GR8, sub_8bit>;		(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))), GR8, sub_8bit>;

defm : avx512_load_scalar_lowering_subreg2<"VMOVSHZ", avx512vl_f16_info,
(v32i1 (insert_subvector
(v32i1 immAllZerosV),
(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),
(iPTR 0))),
(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),
GR8, sub_8bit>;
defm : avx512_load_scalar_lowering_subreg2<"VMOVSSZ", avx512vl_f32_info,		defm : avx512_load_scalar_lowering_subreg2<"VMOVSSZ", avx512vl_f32_info,
(v16i1 (insert_subvector		(v16i1 (insert_subvector
(v16i1 immAllZerosV),		(v16i1 immAllZerosV),
(v4i1 (extract_subvector		(v4i1 (extract_subvector
(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),		(v8i1 (bitconvert (and GR8:$mask, (i8 1)))),
(iPTR 0))),		(iPTR 0))),
(iPTR 0))),		(iPTR 0))),
(v4i1 (extract_subvector		(v4i1 (extract_subvector
Show All 9 Lines	defm : avx512_load_scalar_lowering_subreg2<"VMOVSDZ", avx512vl_f64_info,
(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))),		(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))),
(iPTR 0))),		(iPTR 0))),
(iPTR 0))),		(iPTR 0))),
(iPTR 0))),		(iPTR 0))),
(v2i1 (extract_subvector		(v2i1 (extract_subvector
(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))),		(v8i1 (bitconvert (i8 (and GR8:$mask, (i8 1))))),
(iPTR 0))), GR8, sub_8bit>;		(iPTR 0))), GR8, sub_8bit>;

def : Pat<(f16 (X86selects VK1WM:$mask, (f16 FR16X:$src1), (f16 FR16X:$src2))),
(COPY_TO_REGCLASS (v8f16 (VMOVSHZrrk
(v8f16 (COPY_TO_REGCLASS FR16X:$src2, VR128X)),
VK1WM:$mask, (v8f16 (IMPLICIT_DEF)),
(v8f16 (COPY_TO_REGCLASS FR16X:$src1, VR128X)))), FR16X)>;

def : Pat<(f16 (X86selects VK1WM:$mask, (f16 FR16X:$src1), fp16imm0)),
(COPY_TO_REGCLASS (v8f16 (VMOVSHZrrkz VK1WM:$mask, (v8f16 (IMPLICIT_DEF)),
(v8f16 (COPY_TO_REGCLASS FR16X:$src1, VR128X)))), FR16X)>;

def : Pat<(f32 (X86selects VK1WM:$mask, (f32 FR32X:$src1), (f32 FR32X:$src2))),		def : Pat<(f32 (X86selects VK1WM:$mask, (f32 FR32X:$src1), (f32 FR32X:$src2))),
(COPY_TO_REGCLASS (v4f32 (VMOVSSZrrk		(COPY_TO_REGCLASS (v4f32 (VMOVSSZrrk
(v4f32 (COPY_TO_REGCLASS FR32X:$src2, VR128X)),		(v4f32 (COPY_TO_REGCLASS FR32X:$src2, VR128X)),
VK1WM:$mask, (v4f32 (IMPLICIT_DEF)),		VK1WM:$mask, (v4f32 (IMPLICIT_DEF)),
(v4f32 (COPY_TO_REGCLASS FR32X:$src1, VR128X)))), FR32X)>;		(v4f32 (COPY_TO_REGCLASS FR32X:$src1, VR128X)))), FR32X)>;

def : Pat<(f32 (X86selects VK1WM:$mask, (f32 FR32X:$src1), fp32imm0)),		def : Pat<(f32 (X86selects VK1WM:$mask, (f32 FR32X:$src1), fp32imm0)),
(COPY_TO_REGCLASS (v4f32 (VMOVSSZrrkz VK1WM:$mask, (v4f32 (IMPLICIT_DEF)),		(COPY_TO_REGCLASS (v4f32 (VMOVSSZrrkz VK1WM:$mask, (v4f32 (IMPLICIT_DEF)),
▲ Show 20 Lines • Show All 7,197 Lines • ▼ Show 20 Lines

defm VPINSRBZ : avx512_insert_elt_bw<0x20, "vpinsrb", X86pinsrb, v16i8x_info,		defm VPINSRBZ : avx512_insert_elt_bw<0x20, "vpinsrb", X86pinsrb, v16i8x_info,
extloadi8>, TAPD, VEX_WIG;		extloadi8>, TAPD, VEX_WIG;
defm VPINSRWZ : avx512_insert_elt_bw<0xC4, "vpinsrw", X86pinsrw, v8i16x_info,		defm VPINSRWZ : avx512_insert_elt_bw<0xC4, "vpinsrw", X86pinsrw, v8i16x_info,
extloadi16>, PD, VEX_WIG;		extloadi16>, PD, VEX_WIG;
defm VPINSRDZ : avx512_insert_elt_dq<0x22, "vpinsrd", v4i32x_info, GR32>;		defm VPINSRDZ : avx512_insert_elt_dq<0x22, "vpinsrd", v4i32x_info, GR32>;
defm VPINSRQZ : avx512_insert_elt_dq<0x22, "vpinsrq", v2i64x_info, GR64>, VEX_W;		defm VPINSRQZ : avx512_insert_elt_dq<0x22, "vpinsrq", v2i64x_info, GR64>, VEX_W;

		let Predicates = [HasBWI], AddedComplexity = -10 in {
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Why set AddedComplexity to -10? There no such addtional complexity in previous code. Add comments for it? LuoYuanke: Why set AddedComplexity to -10? There no such addtional complexity in previous code. Add…
		pengfeiAuthorUnsubmitted Done Reply Inline Actions We used it before, but very little. We need to make sure select FP16 instructions first if available. pengfei: We used it before, but very little. We need to make sure select FP16 instructions first if…
		def : Pat<(f16 (load addr:$src)), (COPY_TO_REGCLASS (VPINSRWZrm (v8i16 (IMPLICIT_DEF)), addr:$src, 0), FR16X)>;
		def : Pat<(store f16:$src, addr:$dst), (VPEXTRWZmr addr:$dst, (v8i16 (COPY_TO_REGCLASS FR16:$src, VR128)), 0)>;
		def : Pat<(i16 (bitconvert f16:$src)), (EXTRACT_SUBREG (VPEXTRWZrr (v8i16 (COPY_TO_REGCLASS FR16X:$src, VR128X)), 0), sub_16bit)>;
		def : Pat<(f16 (bitconvert i16:$src)), (COPY_TO_REGCLASS (VPINSRWZrr (v8i16 (IMPLICIT_DEF)), (INSERT_SUBREG (IMPLICIT_DEF), GR16:$src, sub_16bit), 0), FR16X)>;
		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// VSHUFPS - VSHUFPD Operations		// VSHUFPS - VSHUFPD Operations
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

multiclass avx512_shufp<string OpcodeStr, AVX512VLVectorVTInfo VTInfo_FP>{		multiclass avx512_shufp<string OpcodeStr, AVX512VLVectorVTInfo VTInfo_FP>{
defm NAME: avx512_common_3Op_imm8<OpcodeStr, VTInfo_FP, 0xC6, X86Shufp,		defm NAME: avx512_common_3Op_imm8<OpcodeStr, VTInfo_FP, 0xC6, X86Shufp,
SchedWriteFShuffle>,		SchedWriteFShuffle>,
EVEX_CD8<VTInfo_FP.info512.EltSize, CD8VF>,		EVEX_CD8<VTInfo_FP.info512.EltSize, CD8VF>,
▲ Show 20 Lines • Show All 1,321 Lines • ▼ Show 20 Lines	def VMOVWmr : AVX512<0x7E, MRMDestMem, (outs),
T_MAP5PD, EVEX, EVEX_CD8<16, CD8VT1>, Sched<[WriteFStore]>;		T_MAP5PD, EVEX, EVEX_CD8<16, CD8VT1>, Sched<[WriteFStore]>;

def : Pat<(i16 (bitconvert FR16X:$src)),		def : Pat<(i16 (bitconvert FR16X:$src)),
(i16 (EXTRACT_SUBREG		(i16 (EXTRACT_SUBREG
(VMOVSH2Wrr (COPY_TO_REGCLASS FR16X:$src, VR128X)),		(VMOVSH2Wrr (COPY_TO_REGCLASS FR16X:$src, VR128X)),
sub_16bit))>;		sub_16bit))>;
def : Pat<(i16 (extractelt (v8i16 VR128X:$src), (iPTR 0))),		def : Pat<(i16 (extractelt (v8i16 VR128X:$src), (iPTR 0))),
(i16 (EXTRACT_SUBREG (VMOVSH2Wrr VR128X:$src), sub_16bit))>;		(i16 (EXTRACT_SUBREG (VMOVSH2Wrr VR128X:$src), sub_16bit))>;
}

// Allow "vmovw" to use GR64		// Allow "vmovw" to use GR64
let hasSideEffects = 0 in {		let hasSideEffects = 0 in {
def VMOVW64toSHrr : AVX512<0x6E, MRMSrcReg, (outs VR128X:$dst), (ins GR64:$src),		def VMOVW64toSHrr : AVX512<0x6E, MRMSrcReg, (outs VR128X:$dst), (ins GR64:$src),
"vmovw\t{$src, $dst\|$dst, $src}", []>, T_MAP5PD, EVEX, VEX_W, Sched<[WriteVecMoveFromGpr]>;		"vmovw\t{$src, $dst\|$dst, $src}", []>, T_MAP5PD, EVEX, VEX_W, Sched<[WriteVecMoveFromGpr]>;
def VMOVSHtoW64rr : AVX512<0x7E, MRMDestReg, (outs GR64:$dst), (ins VR128X:$src),		def VMOVSHtoW64rr : AVX512<0x7E, MRMDestReg, (outs GR64:$dst), (ins VR128X:$src),
"vmovw\t{$src, $dst\|$dst, $src}", []>, T_MAP5PD, EVEX, VEX_W, Sched<[WriteVecMoveToGpr]>;		"vmovw\t{$src, $dst\|$dst, $src}", []>, T_MAP5PD, EVEX, VEX_W, Sched<[WriteVecMoveToGpr]>;
}		}
		}

// Convert 16-bit float to i16/u16		// Convert 16-bit float to i16/u16
multiclass avx512_cvtph2w<bits<8> opc, string OpcodeStr, SDPatternOperator OpNode,		multiclass avx512_cvtph2w<bits<8> opc, string OpcodeStr, SDPatternOperator OpNode,
SDPatternOperator MaskOpNode, SDNode OpNodeRnd,		SDPatternOperator MaskOpNode, SDNode OpNodeRnd,
AVX512VLVectorVTInfo _Dst,		AVX512VLVectorVTInfo _Dst,
AVX512VLVectorVTInfo _Src,		AVX512VLVectorVTInfo _Src,
X86SchedWriteWidths sched> {		X86SchedWriteWidths sched> {
let Predicates = [HasFP16] in {		let Predicates = [HasFP16] in {
▲ Show 20 Lines • Show All 628 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrCompiler.td

Show First 20 Lines • Show All 556 Lines • ▼ Show 20 Lines	let usesCustomInserter = 1, hasNoSchedulingInfo = 1, Uses = [EFLAGS] in {
let Predicates = [FPStackf64] in		let Predicates = [FPStackf64] in
defm _RFP64 : CMOVrr_PSEUDO<RFP64, f64>;		defm _RFP64 : CMOVrr_PSEUDO<RFP64, f64>;

defm _RFP80 : CMOVrr_PSEUDO<RFP80, f80>;		defm _RFP80 : CMOVrr_PSEUDO<RFP80, f80>;

let Predicates = [HasMMX] in		let Predicates = [HasMMX] in
defm _VR64 : CMOVrr_PSEUDO<VR64, x86mmx>;		defm _VR64 : CMOVrr_PSEUDO<VR64, x86mmx>;

defm _FR16X : CMOVrr_PSEUDO<FR16X, f16>;
let Predicates = [HasSSE1,NoAVX512] in		let Predicates = [HasSSE1,NoAVX512] in
defm _FR32 : CMOVrr_PSEUDO<FR32, f32>;		defm _FR32 : CMOVrr_PSEUDO<FR32, f32>;
let Predicates = [HasSSE2,NoAVX512] in		let Predicates = [HasSSE2,NoAVX512] in {
		defm _FR16 : CMOVrr_PSEUDO<FR16, f16>;
defm _FR64 : CMOVrr_PSEUDO<FR64, f64>;		defm _FR64 : CMOVrr_PSEUDO<FR64, f64>;
		}
let Predicates = [HasAVX512] in {		let Predicates = [HasAVX512] in {
		defm _FR16X : CMOVrr_PSEUDO<FR16X, f16>;
defm _FR32X : CMOVrr_PSEUDO<FR32X, f32>;		defm _FR32X : CMOVrr_PSEUDO<FR32X, f32>;
defm _FR64X : CMOVrr_PSEUDO<FR64X, f64>;		defm _FR64X : CMOVrr_PSEUDO<FR64X, f64>;
}		}
let Predicates = [NoVLX] in {		let Predicates = [NoVLX] in {
defm _VR128 : CMOVrr_PSEUDO<VR128, v2i64>;		defm _VR128 : CMOVrr_PSEUDO<VR128, v2i64>;
defm _VR256 : CMOVrr_PSEUDO<VR256, v4i64>;		defm _VR256 : CMOVrr_PSEUDO<VR256, v4i64>;
}		}
let Predicates = [HasVLX] in {		let Predicates = [HasVLX] in {
▲ Show 20 Lines • Show All 1,689 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrInfo.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 756 Lines • ▼ Show 20 Lines	bool X86InstrInfo::isReallyTriviallyReMaterializable(const MachineInstr &MI,
case X86::AVX512_512_SETALLONES:		case X86::AVX512_512_SETALLONES:
case X86::AVX512_FsFLD0SD:		case X86::AVX512_FsFLD0SD:
case X86::AVX512_FsFLD0SH:		case X86::AVX512_FsFLD0SH:
case X86::AVX512_FsFLD0SS:		case X86::AVX512_FsFLD0SS:
case X86::AVX512_FsFLD0F128:		case X86::AVX512_FsFLD0F128:
case X86::AVX_SET0:		case X86::AVX_SET0:
case X86::FsFLD0SD:		case X86::FsFLD0SD:
case X86::FsFLD0SS:		case X86::FsFLD0SS:
		case X86::FsFLD0SH:
case X86::FsFLD0F128:		case X86::FsFLD0F128:
case X86::KSET0D:		case X86::KSET0D:
case X86::KSET0Q:		case X86::KSET0Q:
case X86::KSET0W:		case X86::KSET0W:
case X86::KSET1D:		case X86::KSET1D:
case X86::KSET1Q:		case X86::KSET1Q:
case X86::KSET1W:		case X86::KSET1W:
case X86::MMX_SET0:		case X86::MMX_SET0:
▲ Show 20 Lines • Show All 2,704 Lines • ▼ Show 20 Lines	if (STI.is64Bit())
// Copying to or from a physical H register on x86-64 requires a NOREX		// Copying to or from a physical H register on x86-64 requires a NOREX
// move. Otherwise use a normal move.		// move. Otherwise use a normal move.
if (isHReg(Reg) \|\| X86::GR8_ABCD_HRegClass.hasSubClassEq(RC))		if (isHReg(Reg) \|\| X86::GR8_ABCD_HRegClass.hasSubClassEq(RC))
return load ? X86::MOV8rm_NOREX : X86::MOV8mr_NOREX;		return load ? X86::MOV8rm_NOREX : X86::MOV8mr_NOREX;
return load ? X86::MOV8rm : X86::MOV8mr;		return load ? X86::MOV8rm : X86::MOV8mr;
case 2:		case 2:
if (X86::VK16RegClass.hasSubClassEq(RC))		if (X86::VK16RegClass.hasSubClassEq(RC))
return load ? X86::KMOVWkm : X86::KMOVWmk;		return load ? X86::KMOVWkm : X86::KMOVWmk;
if (X86::FR16XRegClass.hasSubClassEq(RC)) {
assert(STI.hasFP16());
return load ? X86::VMOVSHZrm_alt : X86::VMOVSHZmr;
}
assert(X86::GR16RegClass.hasSubClassEq(RC) && "Unknown 2-byte regclass");		assert(X86::GR16RegClass.hasSubClassEq(RC) && "Unknown 2-byte regclass");
return load ? X86::MOV16rm : X86::MOV16mr;		return load ? X86::MOV16rm : X86::MOV16mr;
case 4:		case 4:
if (X86::GR32RegClass.hasSubClassEq(RC))		if (X86::GR32RegClass.hasSubClassEq(RC))
return load ? X86::MOV32rm : X86::MOV32mr;		return load ? X86::MOV32rm : X86::MOV32mr;
if (X86::FR32XRegClass.hasSubClassEq(RC))		if (X86::FR32XRegClass.hasSubClassEq(RC))
return load ?		return load ?
(HasAVX512 ? X86::VMOVSSZrm_alt :		(HasAVX512 ? X86::VMOVSSZrm_alt :
Show All 11 Lines	case 4:
// All of these mask pair classes have the same spill size, the same kind		// All of these mask pair classes have the same spill size, the same kind
// of kmov instructions can be used with all of them.		// of kmov instructions can be used with all of them.
if (X86::VK1PAIRRegClass.hasSubClassEq(RC) \|\|		if (X86::VK1PAIRRegClass.hasSubClassEq(RC) \|\|
X86::VK2PAIRRegClass.hasSubClassEq(RC) \|\|		X86::VK2PAIRRegClass.hasSubClassEq(RC) \|\|
X86::VK4PAIRRegClass.hasSubClassEq(RC) \|\|		X86::VK4PAIRRegClass.hasSubClassEq(RC) \|\|
X86::VK8PAIRRegClass.hasSubClassEq(RC) \|\|		X86::VK8PAIRRegClass.hasSubClassEq(RC) \|\|
X86::VK16PAIRRegClass.hasSubClassEq(RC))		X86::VK16PAIRRegClass.hasSubClassEq(RC))
return load ? X86::MASKPAIR16LOAD : X86::MASKPAIR16STORE;		return load ? X86::MASKPAIR16LOAD : X86::MASKPAIR16STORE;
		if ((X86::FR16RegClass.hasSubClassEq(RC) \|\|
		X86::FR16XRegClass.hasSubClassEq(RC)) &&
		STI.hasFP16())
		return load ? X86::VMOVSHZrm_alt : X86::VMOVSHZmr;
llvm_unreachable("Unknown 4-byte regclass");		llvm_unreachable("Unknown 4-byte regclass");
case 8:		case 8:
if (X86::GR64RegClass.hasSubClassEq(RC))		if (X86::GR64RegClass.hasSubClassEq(RC))
return load ? X86::MOV64rm : X86::MOV64mr;		return load ? X86::MOV64rm : X86::MOV64mr;
if (X86::FR64XRegClass.hasSubClassEq(RC))		if (X86::FR64XRegClass.hasSubClassEq(RC))
return load ?		return load ?
(HasAVX512 ? X86::VMOVSDZrm_alt :		(HasAVX512 ? X86::VMOVSDZrm_alt :
HasAVX ? X86::VMOVSDrm_alt :		HasAVX ? X86::VMOVSDrm_alt :
▲ Show 20 Lines • Show All 223 Lines • ▼ Show 20 Lines

void X86InstrInfo::storeRegToStackSlot(MachineBasicBlock &MBB,		void X86InstrInfo::storeRegToStackSlot(MachineBasicBlock &MBB,
MachineBasicBlock::iterator MI,		MachineBasicBlock::iterator MI,
Register SrcReg, bool isKill, int FrameIdx,		Register SrcReg, bool isKill, int FrameIdx,
const TargetRegisterClass *RC,		const TargetRegisterClass *RC,
const TargetRegisterInfo *TRI) const {		const TargetRegisterInfo *TRI) const {
const MachineFunction &MF = *MBB.getParent();		const MachineFunction &MF = *MBB.getParent();
const MachineFrameInfo &MFI = MF.getFrameInfo();		const MachineFrameInfo &MFI = MF.getFrameInfo();
		MachineRegisterInfo &RegInfo = MBB.getParent()->getRegInfo();
assert(MFI.getObjectSize(FrameIdx) >= TRI->getSpillSize(*RC) &&		assert(MFI.getObjectSize(FrameIdx) >= TRI->getSpillSize(*RC) &&
"Stack slot too small for store");		"Stack slot too small for store");
if (RC->getID() == X86::TILERegClassID) {		if (RC->getID() == X86::TILERegClassID) {
unsigned Opc = X86::TILESTORED;		unsigned Opc = X86::TILESTORED;
// tilestored %tmm, (%sp, %idx)		// tilestored %tmm, (%sp, %idx)
MachineRegisterInfo &RegInfo = MBB.getParent()->getRegInfo();
Register VirtReg = RegInfo.createVirtualRegister(&X86::GR64_NOSPRegClass);		Register VirtReg = RegInfo.createVirtualRegister(&X86::GR64_NOSPRegClass);
BuildMI(MBB, MI, DebugLoc(), get(X86::MOV64ri), VirtReg).addImm(64);		BuildMI(MBB, MI, DebugLoc(), get(X86::MOV64ri), VirtReg).addImm(64);
MachineInstr *NewMI =		MachineInstr *NewMI =
addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc)), FrameIdx)		addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc)), FrameIdx)
.addReg(SrcReg, getKillRegState(isKill));		.addReg(SrcReg, getKillRegState(isKill));
MachineOperand &MO = NewMI->getOperand(2);		MachineOperand &MO = NewMI->getOperand(2);
MO.setReg(VirtReg);		MO.setReg(VirtReg);
MO.setIsKill(true);		MO.setIsKill(true);
		} else if ((RC->getID() == X86::FR16RegClassID \|\|
		RC->getID() == X86::FR16XRegClassID) &&
		!Subtarget.hasFP16()) {
		unsigned Opc = Subtarget.hasAVX512() ? X86::VMOVSSZmr
		: Subtarget.hasAVX() ? X86::VMOVSSmr
		: X86::MOVSSmr;
		addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc)), FrameIdx)
		.addReg(SrcReg, getKillRegState(isKill));
} else {		} else {
unsigned Alignment = std::max<uint32_t>(TRI->getSpillSize(*RC), 16);		unsigned Alignment = std::max<uint32_t>(TRI->getSpillSize(*RC), 16);
bool isAligned =		bool isAligned =
(Subtarget.getFrameLowering()->getStackAlign() >= Alignment) \|\|		(Subtarget.getFrameLowering()->getStackAlign() >= Alignment) \|\|
(RI.canRealignStack(MF) && !MFI.isFixedObjectIndex(FrameIdx));		(RI.canRealignStack(MF) && !MFI.isFixedObjectIndex(FrameIdx));
unsigned Opc = getStoreRegOpcode(SrcReg, RC, isAligned, Subtarget);		unsigned Opc = getStoreRegOpcode(SrcReg, RC, isAligned, Subtarget);
addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc)), FrameIdx)		addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc)), FrameIdx)
.addReg(SrcReg, getKillRegState(isKill));		.addReg(SrcReg, getKillRegState(isKill));
Show All 12 Lines	if (RC->getID() == X86::TILERegClassID) {
Register VirtReg = RegInfo.createVirtualRegister(&X86::GR64_NOSPRegClass);		Register VirtReg = RegInfo.createVirtualRegister(&X86::GR64_NOSPRegClass);
MachineInstr *NewMI =		MachineInstr *NewMI =
BuildMI(MBB, MI, DebugLoc(), get(X86::MOV64ri), VirtReg).addImm(64);		BuildMI(MBB, MI, DebugLoc(), get(X86::MOV64ri), VirtReg).addImm(64);
NewMI = addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc), DestReg),		NewMI = addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc), DestReg),
FrameIdx);		FrameIdx);
MachineOperand &MO = NewMI->getOperand(3);		MachineOperand &MO = NewMI->getOperand(3);
MO.setReg(VirtReg);		MO.setReg(VirtReg);
MO.setIsKill(true);		MO.setIsKill(true);
		} else if ((RC->getID() == X86::FR16RegClassID \|\|
		RC->getID() == X86::FR16XRegClassID) &&
		!Subtarget.hasFP16()) {
		unsigned Opc = Subtarget.hasAVX512() ? X86::VMOVSSZrm
		: Subtarget.hasAVX() ? X86::VMOVSSrm
		: X86::MOVSSrm;
		addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc), DestReg),
		FrameIdx);
} else {		} else {
const MachineFunction &MF = *MBB.getParent();		const MachineFunction &MF = *MBB.getParent();
const MachineFrameInfo &MFI = MF.getFrameInfo();		const MachineFrameInfo &MFI = MF.getFrameInfo();
unsigned Alignment = std::max<uint32_t>(TRI->getSpillSize(*RC), 16);		unsigned Alignment = std::max<uint32_t>(TRI->getSpillSize(*RC), 16);
bool isAligned =		bool isAligned =
(Subtarget.getFrameLowering()->getStackAlign() >= Alignment) \|\|		(Subtarget.getFrameLowering()->getStackAlign() >= Alignment) \|\|
(RI.canRealignStack(MF) && !MFI.isFixedObjectIndex(FrameIdx));		(RI.canRealignStack(MF) && !MFI.isFixedObjectIndex(FrameIdx));
unsigned Opc = getLoadRegOpcode(DestReg, RC, isAligned, Subtarget);		unsigned Opc = getLoadRegOpcode(DestReg, RC, isAligned, Subtarget);
▲ Show 20 Lines • Show All 942 Lines • ▼ Show 20 Lines	case X86::SETB_C32r:
return Expand2AddrUndef(MIB, get(X86::SBB32rr));		return Expand2AddrUndef(MIB, get(X86::SBB32rr));
case X86::SETB_C64r:		case X86::SETB_C64r:
return Expand2AddrUndef(MIB, get(X86::SBB64rr));		return Expand2AddrUndef(MIB, get(X86::SBB64rr));
case X86::MMX_SET0:		case X86::MMX_SET0:
return Expand2AddrUndef(MIB, get(X86::MMX_PXORrr));		return Expand2AddrUndef(MIB, get(X86::MMX_PXORrr));
case X86::V_SET0:		case X86::V_SET0:
case X86::FsFLD0SS:		case X86::FsFLD0SS:
case X86::FsFLD0SD:		case X86::FsFLD0SD:
		case X86::FsFLD0SH:
case X86::FsFLD0F128:		case X86::FsFLD0F128:
return Expand2AddrUndef(MIB, get(HasAVX ? X86::VXORPSrr : X86::XORPSrr));		return Expand2AddrUndef(MIB, get(HasAVX ? X86::VXORPSrr : X86::XORPSrr));
case X86::AVX_SET0: {		case X86::AVX_SET0: {
assert(HasAVX && "AVX not supported");		assert(HasAVX && "AVX not supported");
const TargetRegisterInfo *TRI = &getRegisterInfo();		const TargetRegisterInfo *TRI = &getRegisterInfo();
Register SrcReg = MIB.getReg(0);		Register SrcReg = MIB.getReg(0);
Register XReg = TRI->getSubReg(SrcReg, X86::sub_xmm);		Register XReg = TRI->getSubReg(SrcReg, X86::sub_xmm);
MIB->getOperand(0).setReg(XReg);		MIB->getOperand(0).setReg(XReg);
▲ Show 20 Lines • Show All 1,719 Lines • ▼ Show 20 Lines	else
case X86::FsFLD0SD:		case X86::FsFLD0SD:
case X86::AVX512_FsFLD0SD:		case X86::AVX512_FsFLD0SD:
Alignment = Align(8);		Alignment = Align(8);
break;		break;
case X86::FsFLD0SS:		case X86::FsFLD0SS:
case X86::AVX512_FsFLD0SS:		case X86::AVX512_FsFLD0SS:
Alignment = Align(4);		Alignment = Align(4);
break;		break;
		case X86::FsFLD0SH:
case X86::AVX512_FsFLD0SH:		case X86::AVX512_FsFLD0SH:
Alignment = Align(2);		Alignment = Align(2);
break;		break;
default:		default:
return nullptr;		return nullptr;
}		}
if (Ops.size() == 2 && Ops[0] == 0 && Ops[1] == 1) {		if (Ops.size() == 2 && Ops[0] == 0 && Ops[1] == 1) {
unsigned NewOpc = 0;		unsigned NewOpc = 0;
Show All 22 Lines	MachineInstr *X86InstrInfo::foldMemoryOperandImpl(
case X86::V_SETALLONES:		case X86::V_SETALLONES:
case X86::AVX2_SETALLONES:		case X86::AVX2_SETALLONES:
case X86::AVX1_SETALLONES:		case X86::AVX1_SETALLONES:
case X86::AVX_SET0:		case X86::AVX_SET0:
case X86::AVX512_128_SET0:		case X86::AVX512_128_SET0:
case X86::AVX512_256_SET0:		case X86::AVX512_256_SET0:
case X86::AVX512_512_SET0:		case X86::AVX512_512_SET0:
case X86::AVX512_512_SETALLONES:		case X86::AVX512_512_SETALLONES:
		case X86::FsFLD0SH:
case X86::AVX512_FsFLD0SH:		case X86::AVX512_FsFLD0SH:
case X86::FsFLD0SD:		case X86::FsFLD0SD:
case X86::AVX512_FsFLD0SD:		case X86::AVX512_FsFLD0SD:
case X86::FsFLD0SS:		case X86::FsFLD0SS:
case X86::AVX512_FsFLD0SS:		case X86::AVX512_FsFLD0SS:
case X86::FsFLD0F128:		case X86::FsFLD0F128:
case X86::AVX512_FsFLD0F128: {		case X86::AVX512_FsFLD0F128: {
// Folding a V_SET0 or V_SETALLONES as a load, to ease register pressure.		// Folding a V_SET0 or V_SETALLONES as a load, to ease register pressure.
Show All 23 Lines	case X86::AVX512_FsFLD0F128: {
Type *Ty;		Type *Ty;
unsigned Opc = LoadMI.getOpcode();		unsigned Opc = LoadMI.getOpcode();
if (Opc == X86::FsFLD0SS \|\| Opc == X86::AVX512_FsFLD0SS)		if (Opc == X86::FsFLD0SS \|\| Opc == X86::AVX512_FsFLD0SS)
Ty = Type::getFloatTy(MF.getFunction().getContext());		Ty = Type::getFloatTy(MF.getFunction().getContext());
else if (Opc == X86::FsFLD0SD \|\| Opc == X86::AVX512_FsFLD0SD)		else if (Opc == X86::FsFLD0SD \|\| Opc == X86::AVX512_FsFLD0SD)
Ty = Type::getDoubleTy(MF.getFunction().getContext());		Ty = Type::getDoubleTy(MF.getFunction().getContext());
else if (Opc == X86::FsFLD0F128 \|\| Opc == X86::AVX512_FsFLD0F128)		else if (Opc == X86::FsFLD0F128 \|\| Opc == X86::AVX512_FsFLD0F128)
Ty = Type::getFP128Ty(MF.getFunction().getContext());		Ty = Type::getFP128Ty(MF.getFunction().getContext());
else if (Opc == X86::AVX512_FsFLD0SH)		else if (Opc == X86::FsFLD0SH \|\| Opc == X86::AVX512_FsFLD0SH)
Ty = Type::getHalfTy(MF.getFunction().getContext());		Ty = Type::getHalfTy(MF.getFunction().getContext());
else if (Opc == X86::AVX512_512_SET0 \|\| Opc == X86::AVX512_512_SETALLONES)		else if (Opc == X86::AVX512_512_SET0 \|\| Opc == X86::AVX512_512_SETALLONES)
Ty = FixedVectorType::get(Type::getInt32Ty(MF.getFunction().getContext()),		Ty = FixedVectorType::get(Type::getInt32Ty(MF.getFunction().getContext()),
16);		16);
else if (Opc == X86::AVX2_SETALLONES \|\| Opc == X86::AVX_SET0 \|\|		else if (Opc == X86::AVX2_SETALLONES \|\| Opc == X86::AVX_SET0 \|\|
Opc == X86::AVX512_256_SET0 \|\| Opc == X86::AVX1_SETALLONES)		Opc == X86::AVX512_256_SET0 \|\| Opc == X86::AVX1_SETALLONES)
Ty = FixedVectorType::get(Type::getInt32Ty(MF.getFunction().getContext()),		Ty = FixedVectorType::get(Type::getInt32Ty(MF.getFunction().getContext()),
8);		8);
▲ Show 20 Lines • Show All 2,960 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrSSE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 106 Lines • ▼ Show 20 Lines	def rm : PI<opc, MRMSrcMem, (outs RC:$dst), (ins RC:$src1, x86memop:$src2),
Sched<[sched.Folded, sched.ReadAfterFold]>;		Sched<[sched.Folded, sched.ReadAfterFold]>;
}		}


// Alias instructions that map fld0 to xorps for sse or vxorps for avx.		// Alias instructions that map fld0 to xorps for sse or vxorps for avx.
// This is expanded by ExpandPostRAPseudos.		// This is expanded by ExpandPostRAPseudos.
let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1,		let isReMaterializable = 1, isAsCheapAsAMove = 1, canFoldAsLoad = 1,
isPseudo = 1, SchedRW = [WriteZero] in {		isPseudo = 1, SchedRW = [WriteZero] in {
		def FsFLD0SH : I<0, Pseudo, (outs FR16:$dst), (ins), "",
		[(set FR16:$dst, fp16imm0)]>, Requires<[HasSSE2, NoAVX512]>;
def FsFLD0SS : I<0, Pseudo, (outs FR32:$dst), (ins), "",		def FsFLD0SS : I<0, Pseudo, (outs FR32:$dst), (ins), "",
[(set FR32:$dst, fp32imm0)]>, Requires<[HasSSE1, NoAVX512]>;		[(set FR32:$dst, fp32imm0)]>, Requires<[HasSSE1, NoAVX512]>;
def FsFLD0SD : I<0, Pseudo, (outs FR64:$dst), (ins), "",		def FsFLD0SD : I<0, Pseudo, (outs FR64:$dst), (ins), "",
[(set FR64:$dst, fp64imm0)]>, Requires<[HasSSE2, NoAVX512]>;		[(set FR64:$dst, fp64imm0)]>, Requires<[HasSSE2, NoAVX512]>;
def FsFLD0F128 : I<0, Pseudo, (outs VR128:$dst), (ins), "",		def FsFLD0F128 : I<0, Pseudo, (outs VR128:$dst), (ins), "",
[(set VR128:$dst, fp128imm0)]>, Requires<[HasSSE1, NoAVX512]>;		[(set VR128:$dst, fp128imm0)]>, Requires<[HasSSE1, NoAVX512]>;
}		}

▲ Show 20 Lines • Show All 3,837 Lines • ▼ Show 20 Lines
let Predicates = [HasAVX, NoBWI] in		let Predicates = [HasAVX, NoBWI] in
defm VPINSRW : sse2_pinsrw<0>, PD, VEX_4V, VEX_WIG;		defm VPINSRW : sse2_pinsrw<0>, PD, VEX_4V, VEX_WIG;

let Predicates = [UseSSE2], Constraints = "$src1 = $dst" in		let Predicates = [UseSSE2], Constraints = "$src1 = $dst" in
defm PINSRW : sse2_pinsrw, PD;		defm PINSRW : sse2_pinsrw, PD;

} // ExeDomain = SSEPackedInt		} // ExeDomain = SSEPackedInt

		let Predicates = [UseSSE2], AddedComplexity = -10 in {
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Why AddedComplexity = -10? Add comments for it? LuoYuanke: Why AddedComplexity = -10? Add comments for it?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions This is to avoid FP16 instructions been overridden. pengfei: This is to avoid FP16 instructions been overridden.
		def : Pat<(f16 (load addr:$src)), (COPY_TO_REGCLASS (PINSRWrm (v8i16 (IMPLICIT_DEF)), addr:$src, 0), FR16)>;
		def : Pat<(store f16:$src, addr:$dst), (MOV16mr addr:$dst, (EXTRACT_SUBREG (PEXTRWrr (v8i16 (COPY_TO_REGCLASS FR16:$src, VR128)), 0), sub_16bit))>;
		def : Pat<(i16 (bitconvert f16:$src)), (EXTRACT_SUBREG (PEXTRWrr (v8i16 (COPY_TO_REGCLASS FR16:$src, VR128)), 0), sub_16bit)>;
		def : Pat<(f16 (bitconvert i16:$src)), (COPY_TO_REGCLASS (PINSRWrr (v8i16 (IMPLICIT_DEF)), (INSERT_SUBREG (IMPLICIT_DEF), GR16:$src, sub_16bit), 0), FR16)>;
		}

		let Predicates = [HasAVX, NoBWI], AddedComplexity = -10 in {
		def : Pat<(f16 (load addr:$src)), (COPY_TO_REGCLASS (VPINSRWrm (v8i16 (IMPLICIT_DEF)), addr:$src, 0), FR16)>;
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Miss pattern for store? LuoYuanke: Miss pattern for store?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions It's in line 5214. pengfei: It's in line 5214.
		def : Pat<(i16 (bitconvert f16:$src)), (EXTRACT_SUBREG (VPEXTRWrr (v8i16 (COPY_TO_REGCLASS FR16:$src, VR128)), 0), sub_16bit)>;
		def : Pat<(f16 (bitconvert i16:$src)), (COPY_TO_REGCLASS (VPINSRWrr (v8i16 (IMPLICIT_DEF)), (INSERT_SUBREG (IMPLICIT_DEF), GR16:$src, sub_16bit), 0), FR16)>;
		}

//===---------------------------------------------------------------------===//		//===---------------------------------------------------------------------===//
// SSE2 - Packed Mask Creation		// SSE2 - Packed Mask Creation
//===---------------------------------------------------------------------===//		//===---------------------------------------------------------------------===//

let ExeDomain = SSEPackedInt in {		let ExeDomain = SSEPackedInt in {

def VPMOVMSKBrr : VPDI<0xD7, MRMSrcReg, (outs GR32orGR64:$dst),		def VPMOVMSKBrr : VPDI<0xD7, MRMSrcReg, (outs GR32orGR64:$dst),
(ins VR128:$src),		(ins VR128:$src),
▲ Show 20 Lines • Show All 1,212 Lines • ▼ Show 20 Lines	def mr : SS4AIi8<opc, MRMDestMem, (outs),
addr:$dst)]>, Sched<[WriteVecExtractSt]>;		addr:$dst)]>, Sched<[WriteVecExtractSt]>;
}		}

let Predicates = [HasAVX, NoBWI] in		let Predicates = [HasAVX, NoBWI] in
defm VPEXTRW : SS41I_extract16<0x15, "vpextrw">, VEX, VEX_WIG;		defm VPEXTRW : SS41I_extract16<0x15, "vpextrw">, VEX, VEX_WIG;

defm PEXTRW : SS41I_extract16<0x15, "pextrw">;		defm PEXTRW : SS41I_extract16<0x15, "pextrw">;

		let Predicates = [UseSSE41] in
		def : Pat<(store f16:$src, addr:$dst), (PEXTRWmr addr:$dst, (v8i16 (COPY_TO_REGCLASS FR16:$src, VR128)), 0)>;

		let Predicates = [HasAVX, NoBWI] in
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Why no AddedComplexity for it? LuoYuanke: Why no AddedComplexity for it?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions We don't need it if no BWI. pengfei: We don't need it if no BWI.
		def : Pat<(store f16:$src, addr:$dst), (VPEXTRWmr addr:$dst, (v8i16 (COPY_TO_REGCLASS FR16:$src, VR128)), 0)>;


/// SS41I_extract32 - SSE 4.1 extract 32 bits to int reg or memory destination		/// SS41I_extract32 - SSE 4.1 extract 32 bits to int reg or memory destination
multiclass SS41I_extract32<bits<8> opc, string OpcodeStr> {		multiclass SS41I_extract32<bits<8> opc, string OpcodeStr> {
def rr : SS4AIi8<opc, MRMDestReg, (outs GR32:$dst),		def rr : SS4AIi8<opc, MRMDestReg, (outs GR32:$dst),
(ins VR128:$src1, u8imm:$src2),		(ins VR128:$src1, u8imm:$src2),
!strconcat(OpcodeStr,		!strconcat(OpcodeStr,
"\t{$src2, $src1, $dst\|$dst, $src1, $src2}"),		"\t{$src2, $src1, $dst\|$dst, $src1, $src2}"),
[(set GR32:$dst,		[(set GR32:$dst,
▲ Show 20 Lines • Show All 2,807 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrVecCompiler.td

	Show All 11 Lines
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// Non-instruction patterns			// Non-instruction patterns
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	let Predicates = [NoAVX512] in {			let Predicates = [NoAVX512] in {
	// A vector extract of the first f32/f64 position is a subregister copy			// A vector extract of the first f32/f64 position is a subregister copy
				def : Pat<(f16 (extractelt (v8f16 VR128:$src), (iPTR 0))),
				(COPY_TO_REGCLASS (v8f16 VR128:$src), FR16)>;
	def : Pat<(f32 (extractelt (v4f32 VR128:$src), (iPTR 0))),			def : Pat<(f32 (extractelt (v4f32 VR128:$src), (iPTR 0))),
	(COPY_TO_REGCLASS (v4f32 VR128:$src), FR32)>;			(COPY_TO_REGCLASS (v4f32 VR128:$src), FR32)>;
	def : Pat<(f64 (extractelt (v2f64 VR128:$src), (iPTR 0))),			def : Pat<(f64 (extractelt (v2f64 VR128:$src), (iPTR 0))),
	(COPY_TO_REGCLASS (v2f64 VR128:$src), FR64)>;			(COPY_TO_REGCLASS (v2f64 VR128:$src), FR64)>;
	}			}

	let Predicates = [HasAVX512] in {			let Predicates = [HasAVX512] in {
	// A vector extract of the first f32/f64 position is a subregister copy			// A vector extract of the first f32/f64 position is a subregister copy
	def : Pat<(f16 (extractelt (v8f16 VR128X:$src), (iPTR 0))),			def : Pat<(f16 (extractelt (v8f16 VR128X:$src), (iPTR 0))),
	(COPY_TO_REGCLASS (v8f16 VR128X:$src), FR16X)>;			(COPY_TO_REGCLASS (v8f16 VR128X:$src), FR16X)>;
	def : Pat<(f32 (extractelt (v4f32 VR128X:$src), (iPTR 0))),			def : Pat<(f32 (extractelt (v4f32 VR128X:$src), (iPTR 0))),
	(COPY_TO_REGCLASS (v4f32 VR128X:$src), FR32X)>;			(COPY_TO_REGCLASS (v4f32 VR128X:$src), FR32X)>;
	def : Pat<(f64 (extractelt (v2f64 VR128X:$src), (iPTR 0))),			def : Pat<(f64 (extractelt (v2f64 VR128X:$src), (iPTR 0))),
	(COPY_TO_REGCLASS (v2f64 VR128X:$src), FR64X)>;			(COPY_TO_REGCLASS (v2f64 VR128X:$src), FR64X)>;
	}			}

	let Predicates = [NoVLX] in {			let Predicates = [NoVLX] in {
	def : Pat<(v8f16 (scalar_to_vector FR16X:$src)),			def : Pat<(v8f16 (scalar_to_vector FR16:$src)),
	(COPY_TO_REGCLASS FR16X:$src, VR128)>;			(COPY_TO_REGCLASS FR16:$src, VR128)>;
	// Implicitly promote a 32-bit scalar to a vector.			// Implicitly promote a 32-bit scalar to a vector.
	def : Pat<(v4f32 (scalar_to_vector FR32:$src)),			def : Pat<(v4f32 (scalar_to_vector FR32:$src)),
	(COPY_TO_REGCLASS FR32:$src, VR128)>;			(COPY_TO_REGCLASS FR32:$src, VR128)>;
	// Implicitly promote a 64-bit scalar to a vector.			// Implicitly promote a 64-bit scalar to a vector.
	def : Pat<(v2f64 (scalar_to_vector FR64:$src)),			def : Pat<(v2f64 (scalar_to_vector FR64:$src)),
	(COPY_TO_REGCLASS FR64:$src, VR128)>;			(COPY_TO_REGCLASS FR64:$src, VR128)>;
	}			}

	▲ Show 20 Lines • Show All 427 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstructionSelector.cpp

Show First 20 Lines • Show All 173 Lines • ▼ Show 20 Lines	if (RB.getID() == X86::GPRRegBankID) {
if (Ty.getSizeInBits() == 16)		if (Ty.getSizeInBits() == 16)
return &X86::GR16RegClass;		return &X86::GR16RegClass;
if (Ty.getSizeInBits() == 32)		if (Ty.getSizeInBits() == 32)
return &X86::GR32RegClass;		return &X86::GR32RegClass;
if (Ty.getSizeInBits() == 64)		if (Ty.getSizeInBits() == 64)
return &X86::GR64RegClass;		return &X86::GR64RegClass;
}		}
if (RB.getID() == X86::VECRRegBankID) {		if (RB.getID() == X86::VECRRegBankID) {
		if (Ty.getSizeInBits() == 16)
		return STI.hasAVX512() ? &X86::FR16XRegClass : &X86::FR16RegClass;
if (Ty.getSizeInBits() == 32)		if (Ty.getSizeInBits() == 32)
return STI.hasAVX512() ? &X86::FR32XRegClass : &X86::FR32RegClass;		return STI.hasAVX512() ? &X86::FR32XRegClass : &X86::FR32RegClass;
if (Ty.getSizeInBits() == 64)		if (Ty.getSizeInBits() == 64)
return STI.hasAVX512() ? &X86::FR64XRegClass : &X86::FR64RegClass;		return STI.hasAVX512() ? &X86::FR64XRegClass : &X86::FR64RegClass;
if (Ty.getSizeInBits() == 128)		if (Ty.getSizeInBits() == 128)
return STI.hasAVX512() ? &X86::VR128XRegClass : &X86::VR128RegClass;		return STI.hasAVX512() ? &X86::VR128XRegClass : &X86::VR128RegClass;
if (Ty.getSizeInBits() == 256)		if (Ty.getSizeInBits() == 256)
return STI.hasAVX512() ? &X86::VR256XRegClass : &X86::VR256RegClass;		return STI.hasAVX512() ? &X86::VR256XRegClass : &X86::VR256RegClass;
▲ Show 20 Lines • Show All 1,504 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86RegisterInfo.td

	Show First 20 Lines • Show All 531 Lines • ▼ Show 20 Lines
	def GR32_DIBP : RegisterClass<"X86", [i32], 32, (add EDI, EBP)>;			def GR32_DIBP : RegisterClass<"X86", [i32], 32, (add EDI, EBP)>;
	def GR32_BPSP : RegisterClass<"X86", [i32], 32, (add EBP, ESP)>;			def GR32_BPSP : RegisterClass<"X86", [i32], 32, (add EBP, ESP)>;

	// Scalar SSE2 floating point registers.			// Scalar SSE2 floating point registers.
	def FR32 : RegisterClass<"X86", [f32], 32, (sequence "XMM%u", 0, 15)>;			def FR32 : RegisterClass<"X86", [f32], 32, (sequence "XMM%u", 0, 15)>;

	def FR64 : RegisterClass<"X86", [f64], 64, (add FR32)>;			def FR64 : RegisterClass<"X86", [f64], 64, (add FR32)>;

				def FR16 : RegisterClass<"X86", [f16], 16, (add FR32)> {let Size = 32;}
				skanUnsubmitted Not Done Reply Inline Actions The alignment is not same as the size? skan: The alignment is not same as the size?
				pengfeiAuthorUnsubmitted Done Reply Inline Actions No. This is spill size instead of alignment. pengfei: No. This is spill size instead of alignment.
				LuoYuankeUnsubmitted Not Done Reply Inline Actions When there is avx512fp16 feature, is the spill size still 32? LuoYuanke: When there is avx512fp16 feature, is the spill size still 32?
				pengfeiAuthorUnsubmitted Done Reply Inline Actions Yes, it's more efficient to use movss that insert/extrct. And we also use `FR32X` for AVX512 targets without FP16. pengfei: Yes, it's more efficient to use movss that insert/extrct. And we also use `FR32X` for AVX512…


	// FIXME: This sets up the floating point register files as though they are f64			// FIXME: This sets up the floating point register files as though they are f64
	// values, though they really are f80 values. This will cause us to spill			// values, though they really are f80 values. This will cause us to spill
	// values as 64-bit quantities instead of 80-bit quantities, which is much much			// values as 64-bit quantities instead of 80-bit quantities, which is much much
	// faster on common hardware. In reality, this should be controlled by a			// faster on common hardware. In reality, this should be controlled by a
	// command line option or something.			// command line option or something.


	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	def VR512_0_15 : RegisterClass<"X86", [v16f32, v8f64, v64i8, v32i16, v16i32, v8i64],			def VR512_0_15 : RegisterClass<"X86", [v16f32, v8f64, v64i8, v32i16, v16i32, v8i64],
	512, (sequence "ZMM%u", 0, 15)>;			512, (sequence "ZMM%u", 0, 15)>;

	// Scalar AVX-512 floating point registers.			// Scalar AVX-512 floating point registers.
	def FR32X : RegisterClass<"X86", [f32], 32, (sequence "XMM%u", 0, 31)>;			def FR32X : RegisterClass<"X86", [f32], 32, (sequence "XMM%u", 0, 31)>;

	def FR64X : RegisterClass<"X86", [f64], 64, (add FR32X)>;			def FR64X : RegisterClass<"X86", [f64], 64, (add FR32X)>;

	def FR16X : RegisterClass<"X86", [f16], 16, (add FR32X)>;			def FR16X : RegisterClass<"X86", [f16], 16, (add FR32X)> {let Size = 32;}

	// Extended VR128 and VR256 for AVX-512 instructions			// Extended VR128 and VR256 for AVX-512 instructions
	def VR128X : RegisterClass<"X86", [v4f32, v2f64, v8f16, v16i8, v8i16, v4i32, v2i64, f128],			def VR128X : RegisterClass<"X86", [v4f32, v2f64, v8f16, v16i8, v8i16, v4i32, v2i64, f128],
	128, (add FR32X)>;			128, (add FR32X)>;
	def VR256X : RegisterClass<"X86", [v8f32, v4f64, v16f16, v32i8, v16i16, v8i32, v4i64],			def VR256X : RegisterClass<"X86", [v8f32, v4f64, v16f16, v32i8, v16i16, v8i32, v4i64],
	256, (sequence "YMM%u", 0, 31)>;			256, (sequence "YMM%u", 0, 31)>;

	// Mask registers			// Mask registers
	▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

llvm/test/Analysis/CostModel/X86/fptoi_sat.ll

Show First 20 Lines • Show All 841 Lines • ▼ Show 20 Lines	;
%v16f64s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f64(<16 x double> undef)		%v16f64s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f64(<16 x double> undef)
%v16f64u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f64(<16 x double> undef)		%v16f64u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f64(<16 x double> undef)

ret void		ret void
}		}

define void @fp16() {		define void @fp16() {
; SSE2-LABEL: 'fp16'		; SSE2-LABEL: 'fp16'
; SSE2-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 14 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
		LuoYuankeUnsubmitted Not Done Reply Inline Actions It seems the cost is reduced in general. Is it because we pass/return f16 by xmm register? LuoYuanke: It seems the cost is reduced in general. Is it because we pass/return f16 by xmm register?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions No. It's because we don't have cost model for `f16`. I added some in D127386 to address this. pengfei: No. It's because we don't have cost model for `f16`. I added some in D127386 to address this.
; SSE2-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 14 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 14 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 14 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 18 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 28 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 14 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 26 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 45 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 39 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 54 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 26 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 54 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 26 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 51 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 50 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 22 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 89 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 79 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 118 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 62 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 108 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 52 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 117 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 61 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 107 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 51 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 114 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 102 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 100 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 44 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 177 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 113 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 159 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 229 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 117 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 211 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 99 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 234 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 122 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 214 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 102 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 228 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 204 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 232 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 120 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 200 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)		; SSE2-NEXT: Cost Model: Found an estimated cost of 88 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; SSE2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; SSE42-LABEL: 'fp16'		; SSE42-LABEL: 'fp16'
; SSE42-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 17 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 21 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 13 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 24 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 20 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 45 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 39 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 41 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 41 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 45 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 39 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 50 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 22 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 89 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 79 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 82 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 50 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 93 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 61 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 83 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 51 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 90 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 78 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 100 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 44 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 177 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 113 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 159 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 181 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 117 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 163 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 99 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 186 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 122 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 166 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 102 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 180 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 156 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 184 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 120 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 200 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)		; SSE42-NEXT: Cost Model: Found an estimated cost of 88 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
; SSE42-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; SSE42-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; AVX1-LABEL: 'fp16'		; AVX1-LABEL: 'fp16'
; AVX1-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 10 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 21 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 17 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 17 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 13 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 20 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 21 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 37 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 39 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 33 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 39 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 33 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 37 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 38 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 43 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 73 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 63 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 78 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 62 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 68 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 52 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 78 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 62 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 68 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 52 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 74 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 63 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 76 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 86 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 145 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 113 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 127 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 150 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 118 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 132 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 100 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 151 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 119 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 132 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 100 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 148 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 126 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 152 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 120 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 172 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)		; AVX1-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
; AVX1-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; AVX1-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; AVX2-LABEL: 'fp16'		; AVX2-LABEL: 'fp16'
; AVX2-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 20 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 20 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 37 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 38 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 24 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 38 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 32 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 24 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 37 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 37 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 39 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 73 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 63 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 77 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 61 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 67 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 51 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 75 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 59 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 65 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 49 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 73 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 63 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 74 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 78 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 145 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 113 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 127 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 148 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 130 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 98 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 148 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 130 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 98 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 146 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 114 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 126 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 148 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 156 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)		; AVX2-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; AVX2-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; AVX512-LABEL: 'fp16'		; AVX512-LABEL: 'fp16'
; AVX512-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 7 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 21 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 21 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 13 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 13 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 14 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 14 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)
Show All 27 Lines
; AVX512-NEXT: Cost Model: Found an estimated cost of 97 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 97 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 112 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 112 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 112 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 112 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)		; AVX512-NEXT: Cost Model: Found an estimated cost of 94 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; AVX512-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
; SLM-LABEL: 'fp16'		; SLM-LABEL: 'fp16'
; SLM-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s32 = call i32 @llvm.fptosi.sat.i32.f16(half undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 9 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u32 = call i32 @llvm.fptoui.sat.i32.f16(half undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 5 for instruction: %f16s64 = call i64 @llvm.fptosi.sat.i64.f16(half undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 3 for instruction: %f16u64 = call i64 @llvm.fptoui.sat.i64.f16(half undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s1 = call <2 x i1> @llvm.fptosi.sat.v2i1.v2f16(<2 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u1 = call <2 x i1> @llvm.fptoui.sat.v2i1.v2f16(<2 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 17 for instruction: %v2f16s8 = call <2 x i8> @llvm.fptosi.sat.v2i8.v2f16(<2 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 21 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 13 for instruction: %v2f16u8 = call <2 x i8> @llvm.fptoui.sat.v2i8.v2f16(<2 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 24 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 16 for instruction: %v2f16s16 = call <2 x i16> @llvm.fptosi.sat.v2i16.v2f16(<2 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 20 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 12 for instruction: %v2f16u16 = call <2 x i16> @llvm.fptoui.sat.v2i16.v2f16(<2 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s32 = call <2 x i32> @llvm.fptosi.sat.v2i32.v2f16(<2 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 19 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u32 = call <2 x i32> @llvm.fptoui.sat.v2i32.v2f16(<2 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 15 for instruction: %v2f16s64 = call <2 x i64> @llvm.fptosi.sat.v2i64.v2f16(<2 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 11 for instruction: %v2f16u64 = call <2 x i64> @llvm.fptoui.sat.v2i64.v2f16(<2 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 45 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s1 = call <4 x i1> @llvm.fptosi.sat.v4i1.v4f16(<4 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 39 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u1 = call <4 x i1> @llvm.fptoui.sat.v4i1.v4f16(<4 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s8 = call <4 x i8> @llvm.fptosi.sat.v4i8.v4f16(<4 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 41 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u8 = call <4 x i8> @llvm.fptoui.sat.v4i8.v4f16(<4 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 31 for instruction: %v4f16s16 = call <4 x i16> @llvm.fptosi.sat.v4i16.v4f16(<4 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 41 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 25 for instruction: %v4f16u16 = call <4 x i16> @llvm.fptoui.sat.v4i16.v4f16(<4 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 45 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 29 for instruction: %v4f16s32 = call <4 x i32> @llvm.fptosi.sat.v4i32.v4f16(<4 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 39 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 23 for instruction: %v4f16u32 = call <4 x i32> @llvm.fptoui.sat.v4i32.v4f16(<4 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 30 for instruction: %v4f16s64 = call <4 x i64> @llvm.fptosi.sat.v4i64.v4f16(<4 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 50 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 22 for instruction: %v4f16u64 = call <4 x i64> @llvm.fptoui.sat.v4i64.v4f16(<4 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 89 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 57 for instruction: %v8f16s1 = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 79 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 47 for instruction: %v8f16u1 = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s8 = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 82 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 50 for instruction: %v8f16u8 = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 93 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 61 for instruction: %v8f16s16 = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 83 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 51 for instruction: %v8f16u16 = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 90 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 58 for instruction: %v8f16s32 = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 78 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 46 for instruction: %v8f16u32 = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 60 for instruction: %v8f16s64 = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 100 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 44 for instruction: %v8f16u64 = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 177 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 113 for instruction: %v16f16s1 = call <16 x i1> @llvm.fptosi.sat.v16i1.v16f16(<16 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 159 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 95 for instruction: %v16f16u1 = call <16 x i1> @llvm.fptoui.sat.v16i1.v16f16(<16 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 181 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 117 for instruction: %v16f16s8 = call <16 x i8> @llvm.fptosi.sat.v16i8.v16f16(<16 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 163 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 99 for instruction: %v16f16u8 = call <16 x i8> @llvm.fptoui.sat.v16i8.v16f16(<16 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 186 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 122 for instruction: %v16f16s16 = call <16 x i16> @llvm.fptosi.sat.v16i16.v16f16(<16 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 166 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 102 for instruction: %v16f16u16 = call <16 x i16> @llvm.fptoui.sat.v16i16.v16f16(<16 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 180 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 116 for instruction: %v16f16s32 = call <16 x i32> @llvm.fptosi.sat.v16i32.v16f16(<16 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 156 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 92 for instruction: %v16f16u32 = call <16 x i32> @llvm.fptoui.sat.v16i32.v16f16(<16 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 184 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 120 for instruction: %v16f16s64 = call <16 x i64> @llvm.fptosi.sat.v16i64.v16f16(<16 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 200 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)		; SLM-NEXT: Cost Model: Found an estimated cost of 88 for instruction: %v16f16u64 = call <16 x i64> @llvm.fptoui.sat.v16i64.v16f16(<16 x half> undef)
; SLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void		; SLM-NEXT: Cost Model: Found an estimated cost of 0 for instruction: ret void
;		;
%f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)		%f16s1 = call i1 @llvm.fptosi.sat.i1.f16(half undef)
%f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)		%f16u1 = call i1 @llvm.fptoui.sat.i1.f16(half undef)
%f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)		%f16s8 = call i8 @llvm.fptosi.sat.i8.f16(half undef)
%f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)		%f16u8 = call i8 @llvm.fptoui.sat.i8.f16(half undef)
%f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)		%f16s16 = call i16 @llvm.fptosi.sat.i16.f16(half undef)
%f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)		%f16u16 = call i16 @llvm.fptoui.sat.i16.f16(half undef)
▲ Show 20 Lines • Show All 217 Lines • Show Last 20 Lines

llvm/test/CodeGen/MIR/X86/inline-asm-registers.mir

	Show All 22 Lines
	liveins:			liveins:
	- { reg: '$rdi' }			- { reg: '$rdi' }
	- { reg: '$rsi' }			- { reg: '$rsi' }
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	liveins: $rdi, $rsi			liveins: $rdi, $rsi

	; CHECK-LABEL: name: test			; CHECK-LABEL: name: test
	; CHECK: INLINEASM &foo, 0 /* attdialect /, 4390922 / regdef:GR64 /, def $rsi, 4390922 / regdef:GR64 */, def dead $rdi,			; CHECK: INLINEASM &foo, 0 /* attdialect /, 4456458 / regdef:GR64 /, def $rsi, 4456458 / regdef:GR64 */, def dead $rdi,
	INLINEASM &foo, 0, 4390922, def $rsi, 4390922, def dead $rdi, 2147549193, killed $rdi, 2147483657, killed $rsi, 12, implicit-def dead early-clobber $eflags			INLINEASM &foo, 0, 4456458, def $rsi, 4456458, def dead $rdi, 2147549193, killed $rdi, 2147483657, killed $rsi, 12, implicit-def dead early-clobber $eflags
				LuoYuankeUnsubmitted Not Done Reply Inline Actions Why f16 patch affect this test case? There is no fp instruction in this test case. LuoYuanke: Why f16 patch affect this test case? There is no fp instruction in this test case.
				pengfeiAuthorUnsubmitted Done Reply Inline Actions I this it's newly added `FR16` that affects all number the other number register class. We met the problem when enabling FP16 too. pengfei: I this it's newly added `FR16` that affects all number the other number register class. We met…
	$rax = MOV64rr killed $rsi			$rax = MOV64rr killed $rsi
	RET64 killed $rax			RET64 killed $rax
	...			...
	---			---
	name: test2			name: test2
	tracksRegLiveness: true			tracksRegLiveness: true
	liveins:			liveins:
	- { reg: '$rdi' }			- { reg: '$rdi' }
	- { reg: '$rsi' }			- { reg: '$rsi' }
	body: \|			body: \|
	bb.0.entry:			bb.0.entry:
	liveins: $rdi, $rsi			liveins: $rdi, $rsi

	; Verify that the register ties are preserved.			; Verify that the register ties are preserved.
	; CHECK-LABEL: name: test2			; CHECK-LABEL: name: test2
	; CHECK: INLINEASM &foo, 0 /* attdialect /, 4390922 / regdef:GR64 /, def $rsi, 4390922 / regdef:GR64 /, def dead $rdi, 2147549193 / reguse tiedto:$1 /, killed $rdi(tied-def 5), 2147483657 / reguse tiedto:$0 /, killed $rsi(tied-def 3), 12 / clobber */, implicit-def dead early-clobber $eflags			; CHECK: INLINEASM &foo, 0 /* attdialect /, 4456458 / regdef:GR64 /, def $rsi, 4456458 / regdef:GR64 /, def dead $rdi, 2147549193 / reguse tiedto:$1 /, killed $rdi(tied-def 5), 2147483657 / reguse tiedto:$0 /, killed $rsi(tied-def 3), 12 / clobber */, implicit-def dead early-clobber $eflags
	INLINEASM &foo, 0, 4390922, def $rsi, 4390922, def dead $rdi, 2147549193, killed $rdi(tied-def 5), 2147483657, killed $rsi(tied-def 3), 12, implicit-def dead early-clobber $eflags			INLINEASM &foo, 0, 4456458, def $rsi, 4456458, def dead $rdi, 2147549193, killed $rdi(tied-def 5), 2147483657, killed $rsi(tied-def 3), 12, implicit-def dead early-clobber $eflags
	$rax = MOV64rr killed $rsi			$rax = MOV64rr killed $rsi
	RET64 killed $rax			RET64 killed $rax
	...			...

llvm/test/CodeGen/X86/atomic-non-integer.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i386-linux-generic -verify-machineinstrs -mattr=sse \| FileCheck %s --check-prefixes=X86,X86-SSE,X86-SSE1			; RUN: llc < %s -mtriple=i386-linux-generic -verify-machineinstrs -mattr=sse \| FileCheck %s --check-prefixes=X86,X86-SSE,X86-SSE1
	; RUN: llc < %s -mtriple=i386-linux-generic -verify-machineinstrs -mattr=sse2 \| FileCheck %s --check-prefixes=X86,X86-SSE,X86-SSE2			; RUN: llc < %s -mtriple=i386-linux-generic -verify-machineinstrs -mattr=sse2 \| FileCheck %s --check-prefixes=X86,X86-SSE,X86-SSE2
	; RUN: llc < %s -mtriple=i386-linux-generic -verify-machineinstrs -mattr=avx \| FileCheck %s --check-prefixes=X86,X86-AVX			; RUN: llc < %s -mtriple=i386-linux-generic -verify-machineinstrs -mattr=avx \| FileCheck %s --check-prefixes=X86,X86-AVX
	; RUN: llc < %s -mtriple=i386-linux-generic -verify-machineinstrs -mattr=avx512f \| FileCheck %s --check-prefixes=X86,X86-AVX			; RUN: llc < %s -mtriple=i386-linux-generic -verify-machineinstrs -mattr=avx512f \| FileCheck %s --check-prefixes=X86,X86-AVX
	; RUN: llc < %s -mtriple=i386-linux-generic -verify-machineinstrs \| FileCheck %s --check-prefixes=X86,X86-NOSSE			; RUN: llc < %s -mtriple=i386-linux-generic -verify-machineinstrs \| FileCheck %s --check-prefixes=X86,X86-NOSSE
	; RUN: llc < %s -mtriple=x86_64-linux-generic -verify-machineinstrs -mattr=sse2 \| FileCheck %s --check-prefixes=X64,X64-SSE			; RUN: llc < %s -mtriple=x86_64-linux-generic -verify-machineinstrs -mattr=sse2 \| FileCheck %s --check-prefixes=X64-SSE
	; RUN: llc < %s -mtriple=x86_64-linux-generic -verify-machineinstrs -mattr=avx \| FileCheck %s --check-prefixes=X64,X64-AVX			; RUN: llc < %s -mtriple=x86_64-linux-generic -verify-machineinstrs -mattr=avx \| FileCheck %s --check-prefixes=X64-AVX
	; RUN: llc < %s -mtriple=x86_64-linux-generic -verify-machineinstrs -mattr=avx512f \| FileCheck %s --check-prefixes=X64,X64-AVX			; RUN: llc < %s -mtriple=x86_64-linux-generic -verify-machineinstrs -mattr=avx512f \| FileCheck %s --check-prefixes=X64-AVX

	; Note: This test is testing that the lowering for atomics matches what we			; Note: This test is testing that the lowering for atomics matches what we
	; currently emit for non-atomics + the atomic restriction. The presence of			; currently emit for non-atomics + the atomic restriction. The presence of
	; particular lowering detail in these tests should not be read as requiring			; particular lowering detail in these tests should not be read as requiring
	; that detail for correctness unless it's related to the atomicity itself.			; that detail for correctness unless it's related to the atomicity itself.
	; (Specifically, there were reviewer questions about the lowering for halfs			; (Specifically, there were reviewer questions about the lowering for halfs
	; and their calling convention which remain unresolved.)			; and their calling convention which remain unresolved.)

	define void @store_half(half* %fptr, half %v) {			define void @store_half(half* %fptr, half %v) {
	; X86-LABEL: store_half:			; X86-SSE1-LABEL: store_half:
	; X86: # %bb.0:			; X86-SSE1: # %bb.0:
	; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE1-NEXT: movzwl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-SSE1-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movw %ax, (%ecx)			; X86-SSE1-NEXT: movw %ax, (%ecx)
	; X86-NEXT: retl			; X86-SSE1-NEXT: retl
				;
				; X86-SSE2-LABEL: store_half:
				; X86-SSE2: # %bb.0:
				; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X86-SSE2-NEXT: movzwl {{[0-9]+}}(%esp), %ecx
				; X86-SSE2-NEXT: movw %cx, (%eax)
				; X86-SSE2-NEXT: retl
	;			;
	; X64-LABEL: store_half:			; X86-AVX-LABEL: store_half:
	; X64: # %bb.0:			; X86-AVX: # %bb.0:
	; X64-NEXT: movw %si, (%rdi)			; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X64-NEXT: retq			; X86-AVX-NEXT: movzwl {{[0-9]+}}(%esp), %ecx
				; X86-AVX-NEXT: movw %cx, (%eax)
				; X86-AVX-NEXT: retl
				;
				; X86-NOSSE-LABEL: store_half:
				; X86-NOSSE: # %bb.0:
				; X86-NOSSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax
				; X86-NOSSE-NEXT: movl {{[0-9]+}}(%esp), %ecx
				; X86-NOSSE-NEXT: movw %ax, (%ecx)
				; X86-NOSSE-NEXT: retl
				;
				; X64-SSE-LABEL: store_half:
				; X64-SSE: # %bb.0:
				; X64-SSE-NEXT: pextrw $0, %xmm0, %eax
				; X64-SSE-NEXT: movw %ax, (%rdi)
				; X64-SSE-NEXT: retq
				;
				; X64-AVX-LABEL: store_half:
				; X64-AVX: # %bb.0:
				; X64-AVX-NEXT: vpextrw $0, %xmm0, %eax
				; X64-AVX-NEXT: movw %ax, (%rdi)
				; X64-AVX-NEXT: retq
	store atomic half %v, half* %fptr unordered, align 2			store atomic half %v, half* %fptr unordered, align 2
	ret void			ret void
	}			}

	define void @store_float(float* %fptr, float %v) {			define void @store_float(float* %fptr, float %v) {
	; X86-LABEL: store_float:			; X86-LABEL: store_float:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines
	; X64-AVX-NEXT: addq $24, %rsp			; X64-AVX-NEXT: addq $24, %rsp
	; X64-AVX-NEXT: .cfi_def_cfa_offset 8			; X64-AVX-NEXT: .cfi_def_cfa_offset 8
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	store atomic fp128 %v, fp128* %fptr unordered, align 16			store atomic fp128 %v, fp128* %fptr unordered, align 16
	ret void			ret void
	}			}

	define half @load_half(half* %fptr) {			define half @load_half(half* %fptr) {
	; X86-LABEL: load_half:			; X86-SSE1-LABEL: load_half:
	; X86: # %bb.0:			; X86-SSE1: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE1-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movzwl (%eax), %eax			; X86-SSE1-NEXT: movzwl (%eax), %eax
	; X86-NEXT: retl			; X86-SSE1-NEXT: retl
				;
				; X86-SSE2-LABEL: load_half:
				; X86-SSE2: # %bb.0:
				; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X86-SSE2-NEXT: movzwl (%eax), %eax
				; X86-SSE2-NEXT: pinsrw $0, %eax, %xmm0
				; X86-SSE2-NEXT: retl
				;
				; X86-AVX-LABEL: load_half:
				; X86-AVX: # %bb.0:
				; X86-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X86-AVX-NEXT: movzwl (%eax), %eax
				; X86-AVX-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
				; X86-AVX-NEXT: retl
				;
				; X86-NOSSE-LABEL: load_half:
				; X86-NOSSE: # %bb.0:
				; X86-NOSSE-NEXT: movl {{[0-9]+}}(%esp), %eax
				; X86-NOSSE-NEXT: movzwl (%eax), %eax
				; X86-NOSSE-NEXT: retl
	;			;
	; X64-LABEL: load_half:			; X64-SSE-LABEL: load_half:
	; X64: # %bb.0:			; X64-SSE: # %bb.0:
	; X64-NEXT: movzwl (%rdi), %eax			; X64-SSE-NEXT: movzwl (%rdi), %eax
	; X64-NEXT: retq			; X64-SSE-NEXT: pinsrw $0, %eax, %xmm0
				LuoYuankeUnsubmitted Not Done Reply Inline Actions I notice X86-SSE1 return by GPR. Should we also return by GPR for X64-SSE? LuoYuanke: I notice X86-SSE1 return by GPR. Should we also return by GPR for X64-SSE?
				pengfeiAuthorUnsubmitted Done Reply Inline Actions No. The result in X86-SSE in UB. We support the emulation on SSE2 and later. pengfei: No. The result in X86-SSE in UB. We support the emulation on SSE2 and later.
				; X64-SSE-NEXT: retq
				;
				; X64-AVX-LABEL: load_half:
				; X64-AVX: # %bb.0:
				; X64-AVX-NEXT: movzwl (%rdi), %eax
				; X64-AVX-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
				; X64-AVX-NEXT: retq
	%v = load atomic half, half* %fptr unordered, align 2			%v = load atomic half, half* %fptr unordered, align 2
	ret half %v			ret half %v
	}			}

	define float @load_float(float* %fptr) {			define float @load_float(float* %fptr) {
	; X86-SSE1-LABEL: load_float:			; X86-SSE1-LABEL: load_float:
	; X86-SSE1: # %bb.0:			; X86-SSE1: # %bb.0:
	; X86-SSE1-NEXT: pushl %eax			; X86-SSE1-NEXT: pushl %eax
	▲ Show 20 Lines • Show All 292 Lines • ▼ Show 20 Lines
	; X64-AVX-NEXT: addq $24, %rsp			; X64-AVX-NEXT: addq $24, %rsp
	; X64-AVX-NEXT: .cfi_def_cfa_offset 8			; X64-AVX-NEXT: .cfi_def_cfa_offset 8
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	%v = load atomic fp128, fp128* %fptr unordered, align 16			%v = load atomic fp128, fp128* %fptr unordered, align 16
	ret fp128 %v			ret fp128 %v
	}			}


	; Check the seq_cst lowering since that's the
	; interesting one from an ordering perspective on x86.

	define void @store_float_seq_cst(float* %fptr, float %v) {			define void @store_float_seq_cst(float* %fptr, float %v) {
	; X86-LABEL: store_float_seq_cst:			; X86-LABEL: store_float_seq_cst:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: xchgl %ecx, (%eax)			; X86-NEXT: xchgl %ecx, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	▲ Show 20 Lines • Show All 203 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-insert-extract.ll

	Show First 20 Lines • Show All 2,245 Lines • ▼ Show 20 Lines
	; KNL-NEXT: seta %al			; KNL-NEXT: seta %al
	; KNL-NEXT: andl $1, %eax			; KNL-NEXT: andl $1, %eax
	; KNL-NEXT: kmovw %eax, %k1			; KNL-NEXT: kmovw %eax, %k1
	; KNL-NEXT: vucomiss %xmm1, %xmm2			; KNL-NEXT: vucomiss %xmm1, %xmm2
	; KNL-NEXT: seta %al			; KNL-NEXT: seta %al
	; KNL-NEXT: kmovw %eax, %k2			; KNL-NEXT: kmovw %eax, %k2
	; KNL-NEXT: kshiftlw $1, %k2, %k2			; KNL-NEXT: kshiftlw $1, %k2, %k2
	; KNL-NEXT: korw %k2, %k1, %k1			; KNL-NEXT: korw %k2, %k1, %k1
	; KNL-NEXT: kandw %k1, %k0, %k0			; KNL-NEXT: kandw %k1, %k0, %k1
	; KNL-NEXT: kshiftrw $1, %k0, %k1			; KNL-NEXT: kshiftrw $1, %k1, %k2
	; KNL-NEXT: kmovw %k1, %ecx
	; KNL-NEXT: xorl %eax, %eax
	; KNL-NEXT: testb $1, %cl
	; KNL-NEXT: movl $0, %ecx
	; KNL-NEXT: je LBB85_2
	; KNL-NEXT: ## %bb.1:
	; KNL-NEXT: movzwl 2(%rsi), %ecx
	; KNL-NEXT: LBB85_2:
	; KNL-NEXT: kmovw %k0, %edi
	; KNL-NEXT: testb $1, %dil
	; KNL-NEXT: je LBB85_4
	; KNL-NEXT: ## %bb.3:
	; KNL-NEXT: movzwl (%rsi), %eax			; KNL-NEXT: movzwl (%rsi), %eax
	; KNL-NEXT: LBB85_4:			; KNL-NEXT: movzwl 2(%rsi), %ecx
				; KNL-NEXT: vmovd %ecx, %xmm0
				; KNL-NEXT: vcvtph2ps %xmm0, %xmm0
				; KNL-NEXT: vmovss %xmm0, %xmm0, %xmm0 {%k2} {z}
				; KNL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; KNL-NEXT: vmovd %xmm0, %ecx
				; KNL-NEXT: vmovd %eax, %xmm0
				; KNL-NEXT: vcvtph2ps %xmm0, %xmm0
				; KNL-NEXT: vmovss %xmm0, %xmm0, %xmm0 {%k1} {z}
				; KNL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; KNL-NEXT: vmovd %xmm0, %eax
	; KNL-NEXT: movw %ax, (%rdx)			; KNL-NEXT: movw %ax, (%rdx)
	; KNL-NEXT: movw %cx, 2(%rdx)			; KNL-NEXT: movw %cx, 2(%rdx)
	; KNL-NEXT: retq			; KNL-NEXT: retq
	;			;
	; SKX-LABEL: test_concat_v2i1:			; SKX-LABEL: test_concat_v2i1:
	; SKX: ## %bb.0:			; SKX: ## %bb.0:
	; SKX-NEXT: movzwl (%rdi), %eax			; SKX-NEXT: movzwl (%rdi), %eax
	; SKX-NEXT: movzwl 2(%rdi), %ecx			; SKX-NEXT: movzwl 2(%rdi), %ecx
	Show All 18 Lines
	; SKX-NEXT: kmovd %eax, %k1			; SKX-NEXT: kmovd %eax, %k1
	; SKX-NEXT: kshiftlb $1, %k1, %k1			; SKX-NEXT: kshiftlb $1, %k1, %k1
	; SKX-NEXT: vucomiss %xmm1, %xmm2			; SKX-NEXT: vucomiss %xmm1, %xmm2
	; SKX-NEXT: seta %al			; SKX-NEXT: seta %al
	; SKX-NEXT: kmovd %eax, %k2			; SKX-NEXT: kmovd %eax, %k2
	; SKX-NEXT: kshiftlb $7, %k2, %k2			; SKX-NEXT: kshiftlb $7, %k2, %k2
	; SKX-NEXT: kshiftrb $7, %k2, %k2			; SKX-NEXT: kshiftrb $7, %k2, %k2
	; SKX-NEXT: korw %k1, %k2, %k1			; SKX-NEXT: korw %k1, %k2, %k1
	; SKX-NEXT: kandw %k1, %k0, %k0			; SKX-NEXT: kandw %k1, %k0, %k1
	; SKX-NEXT: kshiftrb $1, %k0, %k1			; SKX-NEXT: kshiftrb $1, %k1, %k2
	; SKX-NEXT: kmovd %k1, %ecx
	; SKX-NEXT: xorl %eax, %eax
	; SKX-NEXT: testb $1, %cl
	; SKX-NEXT: movl $0, %ecx
	; SKX-NEXT: je LBB85_2
	; SKX-NEXT: ## %bb.1:
	; SKX-NEXT: movzwl 2(%rsi), %ecx
	; SKX-NEXT: LBB85_2:
	; SKX-NEXT: kmovd %k0, %edi
	; SKX-NEXT: testb $1, %dil
	; SKX-NEXT: je LBB85_4
	; SKX-NEXT: ## %bb.3:
	; SKX-NEXT: movzwl (%rsi), %eax			; SKX-NEXT: movzwl (%rsi), %eax
	; SKX-NEXT: LBB85_4:			; SKX-NEXT: movzwl 2(%rsi), %ecx
				; SKX-NEXT: vmovd %ecx, %xmm0
				; SKX-NEXT: vcvtph2ps %xmm0, %xmm0
				LuoYuankeUnsubmitted Not Done Reply Inline Actions Is code less efficient than previous code? Why previous code still works without convert half to float? LuoYuanke: Is code less efficient than previous code? Why previous code still works without convert half…
				pengfeiAuthorUnsubmitted Done Reply Inline Actions Yes. The previous code using `i16` for FP16. Improved, thanks! pengfei: Yes. The previous code using `i16` for FP16. Improved, thanks!
				; SKX-NEXT: vmovss %xmm0, %xmm0, %xmm0 {%k2} {z}
				; SKX-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; SKX-NEXT: vmovd %xmm0, %ecx
				; SKX-NEXT: vmovd %eax, %xmm0
				; SKX-NEXT: vcvtph2ps %xmm0, %xmm0
				; SKX-NEXT: vmovss %xmm0, %xmm0, %xmm0 {%k1} {z}
				; SKX-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; SKX-NEXT: vmovd %xmm0, %eax
	; SKX-NEXT: movw %ax, (%rdx)			; SKX-NEXT: movw %ax, (%rdx)
	; SKX-NEXT: movw %cx, 2(%rdx)			; SKX-NEXT: movw %cx, 2(%rdx)
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%tmp = load <2 x half>, <2 x half>* %arg, align 8			%tmp = load <2 x half>, <2 x half>* %arg, align 8
	%tmp3 = fcmp fast olt <2 x half> %tmp, <half 0xH4600, half 0xH4600>			%tmp3 = fcmp fast olt <2 x half> %tmp, <half 0xH4600, half 0xH4600>
	%tmp4 = fcmp fast ogt <2 x half> %tmp, zeroinitializer			%tmp4 = fcmp fast ogt <2 x half> %tmp, zeroinitializer
	%tmp5 = and <2 x i1> %tmp3, %tmp4			%tmp5 = and <2 x i1> %tmp3, %tmp4
	%tmp6 = load <2 x half>, <2 x half>* %arg1, align 8			%tmp6 = load <2 x half>, <2 x half>* %arg1, align 8
	%tmp7 = select <2 x i1> %tmp5, <2 x half> %tmp6, <2 x half> zeroinitializer			%tmp7 = select <2 x i1> %tmp5, <2 x half> %tmp6, <2 x half> zeroinitializer
	store <2 x half> %tmp7, <2 x half>* %arg2, align 8			store <2 x half> %tmp7, <2 x half>* %arg2, align 8
	ret void			ret void
	}			}

llvm/test/CodeGen/X86/avx512-masked_memop-16-8.ll

	Show First 20 Lines • Show All 147 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	call void @llvm.masked.store.v32i16.p0v32i16(<32 x i16> %val, <32 x i16>* %addr, i32 4, <32 x i1>%mask)			call void @llvm.masked.store.v32i16.p0v32i16(<32 x i16> %val, <32 x i16>* %addr, i32 4, <32 x i1>%mask)
	ret void			ret void
	}			}

	declare void @llvm.masked.store.v32i16.p0v32i16(<32 x i16>, <32 x i16>*, i32, <32 x i1>)			declare void @llvm.masked.store.v32i16.p0v32i16(<32 x i16>, <32 x i16>*, i32, <32 x i1>)

	; Make sure we scalarize masked loads of f16.			; Make sure we scalarize masked loads of f16.
	define <16 x half> @test_mask_load_16xf16(<16 x i1> %mask, <16 x half>* %addr, <16 x half> %val) {			define <16 x half> @test_mask_load_16xf16(<16 x i1> %mask, <16 x half>* %addr, <16 x half> %val) {
				LuoYuankeUnsubmitted Done Reply Inline Actions It seems parameter %val is useless. LuoYuanke: It seems parameter %val is useless.
	; CHECK-LABEL: test_mask_load_16xf16:			; CHECK-LABEL: test_mask_load_16xf16:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: .cfi_def_cfa_offset 16
	; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: .cfi_def_cfa_offset 24
	; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: .cfi_def_cfa_offset 32
	; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: .cfi_def_cfa_offset 40
	; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: .cfi_def_cfa_offset 48
	; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: .cfi_def_cfa_offset 56
	; CHECK-NEXT: .cfi_offset %rbx, -56
	; CHECK-NEXT: .cfi_offset %r12, -48
	; CHECK-NEXT: .cfi_offset %r13, -40
	; CHECK-NEXT: .cfi_offset %r14, -32
	; CHECK-NEXT: .cfi_offset %r15, -24
	; CHECK-NEXT: .cfi_offset %rbp, -16
	; CHECK-NEXT: movq %rdi, %rax			; CHECK-NEXT: movq %rdi, %rax
	; CHECK-NEXT: vpsllw $7, %xmm0, %xmm0			; CHECK-NEXT: vpsllw $7, %xmm0, %xmm0
	; CHECK-NEXT: vpmovmskb %xmm0, %r11d			; CHECK-NEXT: vpmovmskb %xmm0, %ecx
	; CHECK-NEXT: testb $1, %r11b			; CHECK-NEXT: testb $1, %cl
	; CHECK-NEXT: je LBB12_1			; CHECK-NEXT: je LBB12_1
	; CHECK-NEXT: ## %bb.2: ## %cond.load			; CHECK-NEXT: ## %bb.2: ## %cond.load
	; CHECK-NEXT: movzwl (%rsi), %ecx			; CHECK-NEXT: vpinsrw $0, (%rsi), %xmm0, %xmm8
	; CHECK-NEXT: movl %ecx, {{[-0-9]+}}(%r{{[sb]}}p) ## 4-byte Spill
	; CHECK-NEXT: jmp LBB12_3			; CHECK-NEXT: jmp LBB12_3
	; CHECK-NEXT: LBB12_1:			; CHECK-NEXT: LBB12_1:
	; CHECK-NEXT: movl $0, {{[-0-9]+}}(%r{{[sb]}}p) ## 4-byte Folded Spill			; CHECK-NEXT: vpxor %xmm8, %xmm8, %xmm8
	; CHECK-NEXT: LBB12_3: ## %else			; CHECK-NEXT: LBB12_3: ## %else
	; CHECK-NEXT: xorl %edi, %edi			; CHECK-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; CHECK-NEXT: movl $0, {{[-0-9]+}}(%r{{[sb]}}p) ## 4-byte Folded Spill			; CHECK-NEXT: vpxor %xmm9, %xmm9, %xmm9
	; CHECK-NEXT: movl %edi, %ecx			; CHECK-NEXT: vmovdqa %xmm2, %xmm10
	; CHECK-NEXT: testb $2, %r11b			; CHECK-NEXT: vmovdqa %xmm2, %xmm4
				; CHECK-NEXT: vmovdqa %xmm2, %xmm5
				; CHECK-NEXT: vmovdqa %xmm2, %xmm6
				; CHECK-NEXT: vmovdqa %xmm2, %xmm7
				; CHECK-NEXT: vmovdqa %xmm2, %xmm1
				; CHECK-NEXT: vmovdqa %xmm2, %xmm0
				; CHECK-NEXT: vmovdqa %xmm2, %xmm3
				; CHECK-NEXT: vmovdqa %xmm2, %xmm11
				; CHECK-NEXT: vmovdqa %xmm2, %xmm12
				; CHECK-NEXT: vmovdqa %xmm2, %xmm13
				; CHECK-NEXT: vmovdqa %xmm2, %xmm14
				; CHECK-NEXT: testb $2, %cl
	; CHECK-NEXT: je LBB12_4			; CHECK-NEXT: je LBB12_4
	; CHECK-NEXT: ## %bb.5: ## %cond.load1			; CHECK-NEXT: ## %bb.5: ## %cond.load1
	; CHECK-NEXT: movw %di, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill			; CHECK-NEXT: vmovdqa %xmm2, %xmm15
	; CHECK-NEXT: movl %edi, %r12d			; CHECK-NEXT: vpinsrw $0, 2(%rsi), %xmm0, %xmm2
	; CHECK-NEXT: movl %edi, %ebx			; CHECK-NEXT: testb $4, %cl
	; CHECK-NEXT: movl %edi, %ebp
	; CHECK-NEXT: movl %edi, %r13d
	; CHECK-NEXT: movl %edi, %r14d
	; CHECK-NEXT: movl %edi, %r8d
	; CHECK-NEXT: movl %edi, %r9d
	; CHECK-NEXT: movl %edi, %r10d
	; CHECK-NEXT: movl %edi, %r15d
	; CHECK-NEXT: movl %edi, %edx
	; CHECK-NEXT: movw %di, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
	; CHECK-NEXT: movw %di, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
	; CHECK-NEXT: movzwl 2(%rsi), %edi
	; CHECK-NEXT: ## kill: def $di killed $di def $edi
	; CHECK-NEXT: testb $4, %r11b
	; CHECK-NEXT: jne LBB12_7			; CHECK-NEXT: jne LBB12_7
	; CHECK-NEXT: jmp LBB12_8			; CHECK-NEXT: jmp LBB12_8
	; CHECK-NEXT: LBB12_4:			; CHECK-NEXT: LBB12_4:
	; CHECK-NEXT: movw %di, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill			; CHECK-NEXT: vmovdqa %xmm2, %xmm15
	; CHECK-NEXT: movl %edi, %r12d			; CHECK-NEXT: testb $4, %cl
	; CHECK-NEXT: movl %edi, %ebx
	; CHECK-NEXT: movl %edi, %ebp
	; CHECK-NEXT: movl %edi, %r13d
	; CHECK-NEXT: movl %edi, %r14d
	; CHECK-NEXT: movl %edi, %r8d
	; CHECK-NEXT: movl %edi, %r9d
	; CHECK-NEXT: movl %edi, %r10d
	; CHECK-NEXT: movl %edi, %r15d
	; CHECK-NEXT: movl %edi, %edx
	; CHECK-NEXT: movw %di, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
	; CHECK-NEXT: movw %di, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
	; CHECK-NEXT: testb $4, %r11b
	; CHECK-NEXT: je LBB12_8			; CHECK-NEXT: je LBB12_8
	; CHECK-NEXT: LBB12_7: ## %cond.load4			; CHECK-NEXT: LBB12_7: ## %cond.load4
	; CHECK-NEXT: movzwl 4(%rsi), %ecx			; CHECK-NEXT: vpinsrw $0, 4(%rsi), %xmm0, %xmm10
	; CHECK-NEXT: movw %cx, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill
	; CHECK-NEXT: LBB12_8: ## %else5			; CHECK-NEXT: LBB12_8: ## %else5
	; CHECK-NEXT: testb $8, %r11b			; CHECK-NEXT: testb $8, %cl
	; CHECK-NEXT: jne LBB12_9			; CHECK-NEXT: jne LBB12_9
	; CHECK-NEXT: ## %bb.10: ## %else8			; CHECK-NEXT: ## %bb.10: ## %else8
	; CHECK-NEXT: testb $16, %r11b			; CHECK-NEXT: testb $16, %cl
	; CHECK-NEXT: jne LBB12_11			; CHECK-NEXT: jne LBB12_11
	; CHECK-NEXT: LBB12_12: ## %else11			; CHECK-NEXT: LBB12_12: ## %else11
	; CHECK-NEXT: testb $32, %r11b			; CHECK-NEXT: testb $32, %cl
	; CHECK-NEXT: jne LBB12_13			; CHECK-NEXT: jne LBB12_13
	; CHECK-NEXT: LBB12_14: ## %else14			; CHECK-NEXT: LBB12_14: ## %else14
	; CHECK-NEXT: testb $64, %r11b			; CHECK-NEXT: testb $64, %cl
	; CHECK-NEXT: jne LBB12_15			; CHECK-NEXT: jne LBB12_15
	; CHECK-NEXT: LBB12_16: ## %else17			; CHECK-NEXT: LBB12_16: ## %else17
	; CHECK-NEXT: testb $-128, %r11b			; CHECK-NEXT: testb $-128, %cl
	; CHECK-NEXT: jne LBB12_17			; CHECK-NEXT: jne LBB12_17
	; CHECK-NEXT: LBB12_18: ## %else20			; CHECK-NEXT: LBB12_18: ## %else20
	; CHECK-NEXT: testl $256, %r11d ## imm = 0x100			; CHECK-NEXT: testl $256, %ecx ## imm = 0x100
	; CHECK-NEXT: jne LBB12_19			; CHECK-NEXT: jne LBB12_19
	; CHECK-NEXT: LBB12_20: ## %else23			; CHECK-NEXT: LBB12_20: ## %else23
	; CHECK-NEXT: testl $512, %r11d ## imm = 0x200			; CHECK-NEXT: testl $512, %ecx ## imm = 0x200
	; CHECK-NEXT: jne LBB12_21			; CHECK-NEXT: jne LBB12_21
	; CHECK-NEXT: LBB12_22: ## %else26			; CHECK-NEXT: LBB12_22: ## %else26
	; CHECK-NEXT: testl $1024, %r11d ## imm = 0x400			; CHECK-NEXT: testl $1024, %ecx ## imm = 0x400
	; CHECK-NEXT: jne LBB12_23			; CHECK-NEXT: jne LBB12_23
	; CHECK-NEXT: LBB12_24: ## %else29			; CHECK-NEXT: LBB12_24: ## %else29
	; CHECK-NEXT: testl $2048, %r11d ## imm = 0x800			; CHECK-NEXT: testl $2048, %ecx ## imm = 0x800
	; CHECK-NEXT: jne LBB12_25			; CHECK-NEXT: jne LBB12_25
	; CHECK-NEXT: LBB12_26: ## %else32			; CHECK-NEXT: LBB12_26: ## %else32
	; CHECK-NEXT: testl $4096, %r11d ## imm = 0x1000			; CHECK-NEXT: testl $4096, %ecx ## imm = 0x1000
	; CHECK-NEXT: je LBB12_28			; CHECK-NEXT: jne LBB12_27
	; CHECK-NEXT: LBB12_27: ## %cond.load34
	; CHECK-NEXT: movzwl 24(%rsi), %edx
	; CHECK-NEXT: LBB12_28: ## %else35			; CHECK-NEXT: LBB12_28: ## %else35
	; CHECK-NEXT: movw %dx, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill			; CHECK-NEXT: testl $8192, %ecx ## imm = 0x2000
	; CHECK-NEXT: testl $8192, %r11d ## imm = 0x2000
	; CHECK-NEXT: jne LBB12_29			; CHECK-NEXT: jne LBB12_29
	; CHECK-NEXT: ## %bb.30: ## %else38			; CHECK-NEXT: LBB12_30: ## %else38
	; CHECK-NEXT: testl $16384, %r11d ## imm = 0x4000			; CHECK-NEXT: testl $16384, %ecx ## imm = 0x4000
	; CHECK-NEXT: jne LBB12_31			; CHECK-NEXT: jne LBB12_31
	; CHECK-NEXT: LBB12_32: ## %else41			; CHECK-NEXT: LBB12_32: ## %else41
	; CHECK-NEXT: testl $32768, %r11d ## imm = 0x8000			; CHECK-NEXT: testl $32768, %ecx ## imm = 0x8000
	; CHECK-NEXT: je LBB12_33			; CHECK-NEXT: je LBB12_34
	; CHECK-NEXT: LBB12_34: ## %cond.load43			; CHECK-NEXT: LBB12_33: ## %cond.load43
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %ecx ## 2-byte Folded Reload			; CHECK-NEXT: vpinsrw $0, 30(%rsi), %xmm0, %xmm9
	; CHECK-NEXT: movzwl 30(%rsi), %esi			; CHECK-NEXT: LBB12_34: ## %else44
	; CHECK-NEXT: jmp LBB12_35			; CHECK-NEXT: vpextrw $0, %xmm8, (%rax)
				; CHECK-NEXT: vpextrw $0, %xmm2, 2(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm10, 4(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm4, 6(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm5, 8(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm6, 10(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm7, 12(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm1, 14(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm0, 16(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm3, 18(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm11, 20(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm12, 22(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm13, 24(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm14, 26(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm15, 28(%rax)
				; CHECK-NEXT: vpextrw $0, %xmm9, 30(%rax)
				; CHECK-NEXT: retq
	; CHECK-NEXT: LBB12_9: ## %cond.load7			; CHECK-NEXT: LBB12_9: ## %cond.load7
	; CHECK-NEXT: movzwl 6(%rsi), %r12d			; CHECK-NEXT: vpinsrw $0, 6(%rsi), %xmm0, %xmm4
	; CHECK-NEXT: testb $16, %r11b			; CHECK-NEXT: testb $16, %cl
	; CHECK-NEXT: je LBB12_12			; CHECK-NEXT: je LBB12_12
	; CHECK-NEXT: LBB12_11: ## %cond.load10			; CHECK-NEXT: LBB12_11: ## %cond.load10
	; CHECK-NEXT: movzwl 8(%rsi), %ebx			; CHECK-NEXT: vpinsrw $0, 8(%rsi), %xmm0, %xmm5
	; CHECK-NEXT: testb $32, %r11b			; CHECK-NEXT: testb $32, %cl
	; CHECK-NEXT: je LBB12_14			; CHECK-NEXT: je LBB12_14
	; CHECK-NEXT: LBB12_13: ## %cond.load13			; CHECK-NEXT: LBB12_13: ## %cond.load13
	; CHECK-NEXT: movzwl 10(%rsi), %ebp			; CHECK-NEXT: vpinsrw $0, 10(%rsi), %xmm0, %xmm6
	; CHECK-NEXT: testb $64, %r11b			; CHECK-NEXT: testb $64, %cl
	; CHECK-NEXT: je LBB12_16			; CHECK-NEXT: je LBB12_16
	; CHECK-NEXT: LBB12_15: ## %cond.load16			; CHECK-NEXT: LBB12_15: ## %cond.load16
	; CHECK-NEXT: movzwl 12(%rsi), %r13d			; CHECK-NEXT: vpinsrw $0, 12(%rsi), %xmm0, %xmm7
	; CHECK-NEXT: testb $-128, %r11b			; CHECK-NEXT: testb $-128, %cl
	; CHECK-NEXT: je LBB12_18			; CHECK-NEXT: je LBB12_18
	; CHECK-NEXT: LBB12_17: ## %cond.load19			; CHECK-NEXT: LBB12_17: ## %cond.load19
	; CHECK-NEXT: movzwl 14(%rsi), %r14d			; CHECK-NEXT: vpinsrw $0, 14(%rsi), %xmm0, %xmm1
	; CHECK-NEXT: testl $256, %r11d ## imm = 0x100			; CHECK-NEXT: testl $256, %ecx ## imm = 0x100
	; CHECK-NEXT: je LBB12_20			; CHECK-NEXT: je LBB12_20
	; CHECK-NEXT: LBB12_19: ## %cond.load22			; CHECK-NEXT: LBB12_19: ## %cond.load22
	; CHECK-NEXT: movzwl 16(%rsi), %r8d			; CHECK-NEXT: vpinsrw $0, 16(%rsi), %xmm0, %xmm0
	; CHECK-NEXT: testl $512, %r11d ## imm = 0x200			; CHECK-NEXT: testl $512, %ecx ## imm = 0x200
	; CHECK-NEXT: je LBB12_22			; CHECK-NEXT: je LBB12_22
	; CHECK-NEXT: LBB12_21: ## %cond.load25			; CHECK-NEXT: LBB12_21: ## %cond.load25
	; CHECK-NEXT: movzwl 18(%rsi), %r9d			; CHECK-NEXT: vpinsrw $0, 18(%rsi), %xmm0, %xmm3
	; CHECK-NEXT: testl $1024, %r11d ## imm = 0x400			; CHECK-NEXT: testl $1024, %ecx ## imm = 0x400
	; CHECK-NEXT: je LBB12_24			; CHECK-NEXT: je LBB12_24
	; CHECK-NEXT: LBB12_23: ## %cond.load28			; CHECK-NEXT: LBB12_23: ## %cond.load28
	; CHECK-NEXT: movzwl 20(%rsi), %r10d			; CHECK-NEXT: vpinsrw $0, 20(%rsi), %xmm0, %xmm11
	; CHECK-NEXT: testl $2048, %r11d ## imm = 0x800			; CHECK-NEXT: testl $2048, %ecx ## imm = 0x800
	; CHECK-NEXT: je LBB12_26			; CHECK-NEXT: je LBB12_26
	; CHECK-NEXT: LBB12_25: ## %cond.load31			; CHECK-NEXT: LBB12_25: ## %cond.load31
	; CHECK-NEXT: movzwl 22(%rsi), %r15d			; CHECK-NEXT: vpinsrw $0, 22(%rsi), %xmm0, %xmm12
	; CHECK-NEXT: testl $4096, %r11d ## imm = 0x1000			; CHECK-NEXT: testl $4096, %ecx ## imm = 0x1000
	; CHECK-NEXT: jne LBB12_27			; CHECK-NEXT: je LBB12_28
	; CHECK-NEXT: jmp LBB12_28			; CHECK-NEXT: LBB12_27: ## %cond.load34
				; CHECK-NEXT: vpinsrw $0, 24(%rsi), %xmm0, %xmm13
				; CHECK-NEXT: testl $8192, %ecx ## imm = 0x2000
				; CHECK-NEXT: je LBB12_30
	; CHECK-NEXT: LBB12_29: ## %cond.load37			; CHECK-NEXT: LBB12_29: ## %cond.load37
	; CHECK-NEXT: movzwl 26(%rsi), %ecx			; CHECK-NEXT: vpinsrw $0, 26(%rsi), %xmm0, %xmm14
	; CHECK-NEXT: movw %cx, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill			; CHECK-NEXT: testl $16384, %ecx ## imm = 0x4000
	; CHECK-NEXT: testl $16384, %r11d ## imm = 0x4000
	; CHECK-NEXT: je LBB12_32			; CHECK-NEXT: je LBB12_32
	; CHECK-NEXT: LBB12_31: ## %cond.load40			; CHECK-NEXT: LBB12_31: ## %cond.load40
	; CHECK-NEXT: movzwl 28(%rsi), %ecx			; CHECK-NEXT: vpinsrw $0, 28(%rsi), %xmm0, %xmm15
	; CHECK-NEXT: movw %cx, {{[-0-9]+}}(%r{{[sb]}}p) ## 2-byte Spill			; CHECK-NEXT: testl $32768, %ecx ## imm = 0x8000
	; CHECK-NEXT: testl $32768, %r11d ## imm = 0x8000			; CHECK-NEXT: jne LBB12_33
	; CHECK-NEXT: jne LBB12_34			; CHECK-NEXT: jmp LBB12_34
	; CHECK-NEXT: LBB12_33:
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %ecx ## 2-byte Folded Reload
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %esi ## 4-byte Reload
	; CHECK-NEXT: LBB12_35: ## %else44
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edx ## 4-byte Reload
	; CHECK-NEXT: movw %dx, (%rax)
	; CHECK-NEXT: movw %di, 2(%rax)
	; CHECK-NEXT: movw %cx, 4(%rax)
	; CHECK-NEXT: movw %r12w, 6(%rax)
	; CHECK-NEXT: movw %bx, 8(%rax)
	; CHECK-NEXT: movw %bp, 10(%rax)
	; CHECK-NEXT: movw %r13w, 12(%rax)
	; CHECK-NEXT: movw %r14w, 14(%rax)
	; CHECK-NEXT: movw %r8w, 16(%rax)
	; CHECK-NEXT: movw %r9w, 18(%rax)
	; CHECK-NEXT: movw %r10w, 20(%rax)
	; CHECK-NEXT: movw %r15w, 22(%rax)
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %ecx ## 2-byte Folded Reload
	; CHECK-NEXT: movw %cx, 24(%rax)
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %ecx ## 2-byte Folded Reload
	; CHECK-NEXT: movw %cx, 26(%rax)
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %ecx ## 2-byte Folded Reload
	; CHECK-NEXT: movw %cx, 28(%rax)
	; CHECK-NEXT: movw %si, 30(%rax)
	; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq
	%res = call <16 x half> @llvm.masked.load.v16f16(<16 x half>* %addr, i32 4, <16 x i1>%mask, <16 x half> zeroinitializer)			%res = call <16 x half> @llvm.masked.load.v16f16(<16 x half>* %addr, i32 4, <16 x i1>%mask, <16 x half> zeroinitializer)
	ret <16 x half> %res			ret <16 x half> %res
	}			}
	declare <16 x half> @llvm.masked.load.v16f16(<16 x half>*, i32, <16 x i1>, <16 x half>)			declare <16 x half> @llvm.masked.load.v16f16(<16 x half>*, i32, <16 x i1>, <16 x half>)

	; Make sure we scalarize masked stores of f16.			; Make sure we scalarize masked stores of f16.
	define void @test_mask_store_16xf16(<16 x i1> %mask, <16 x half>* %addr, <16 x half> %val) {			define void @test_mask_store_16xf16(<16 x i1> %mask, <16 x half>* %addr, <16 x half> %val) {
	; CHECK-LABEL: test_mask_store_16xf16:			; CHECK-LABEL: test_mask_store_16xf16:
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: testl $16384, %eax ## imm = 0x4000			; CHECK-NEXT: testl $16384, %eax ## imm = 0x4000
	; CHECK-NEXT: jne LBB13_29			; CHECK-NEXT: jne LBB13_29
	; CHECK-NEXT: LBB13_30: ## %else28			; CHECK-NEXT: LBB13_30: ## %else28
	; CHECK-NEXT: testl $32768, %eax ## imm = 0x8000			; CHECK-NEXT: testl $32768, %eax ## imm = 0x8000
	; CHECK-NEXT: jne LBB13_31			; CHECK-NEXT: jne LBB13_31
	; CHECK-NEXT: LBB13_32: ## %else30			; CHECK-NEXT: LBB13_32: ## %else30
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	; CHECK-NEXT: LBB13_1: ## %cond.store			; CHECK-NEXT: LBB13_1: ## %cond.store
	; CHECK-NEXT: movw %si, (%rdi)			; CHECK-NEXT: vpextrw $0, %xmm1, (%rdi)
	; CHECK-NEXT: testb $2, %al			; CHECK-NEXT: testb $2, %al
	; CHECK-NEXT: je LBB13_4			; CHECK-NEXT: je LBB13_4
	; CHECK-NEXT: LBB13_3: ## %cond.store1			; CHECK-NEXT: LBB13_3: ## %cond.store1
	; CHECK-NEXT: movw %dx, 2(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm2, 2(%rdi)
	; CHECK-NEXT: testb $4, %al			; CHECK-NEXT: testb $4, %al
	; CHECK-NEXT: je LBB13_6			; CHECK-NEXT: je LBB13_6
	; CHECK-NEXT: LBB13_5: ## %cond.store3			; CHECK-NEXT: LBB13_5: ## %cond.store3
	; CHECK-NEXT: movw %cx, 4(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm3, 4(%rdi)
	; CHECK-NEXT: testb $8, %al			; CHECK-NEXT: testb $8, %al
	; CHECK-NEXT: je LBB13_8			; CHECK-NEXT: je LBB13_8
	; CHECK-NEXT: LBB13_7: ## %cond.store5			; CHECK-NEXT: LBB13_7: ## %cond.store5
	; CHECK-NEXT: movw %r8w, 6(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm4, 6(%rdi)
	; CHECK-NEXT: testb $16, %al			; CHECK-NEXT: testb $16, %al
	; CHECK-NEXT: je LBB13_10			; CHECK-NEXT: je LBB13_10
	; CHECK-NEXT: LBB13_9: ## %cond.store7			; CHECK-NEXT: LBB13_9: ## %cond.store7
	; CHECK-NEXT: movw %r9w, 8(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm5, 8(%rdi)
	; CHECK-NEXT: testb $32, %al			; CHECK-NEXT: testb $32, %al
	; CHECK-NEXT: je LBB13_12			; CHECK-NEXT: je LBB13_12
	; CHECK-NEXT: LBB13_11: ## %cond.store9			; CHECK-NEXT: LBB13_11: ## %cond.store9
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %ecx			; CHECK-NEXT: vpextrw $0, %xmm6, 10(%rdi)
	; CHECK-NEXT: movw %cx, 10(%rdi)
	; CHECK-NEXT: testb $64, %al			; CHECK-NEXT: testb $64, %al
	; CHECK-NEXT: je LBB13_14			; CHECK-NEXT: je LBB13_14
	; CHECK-NEXT: LBB13_13: ## %cond.store11			; CHECK-NEXT: LBB13_13: ## %cond.store11
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %ecx			; CHECK-NEXT: vpextrw $0, %xmm7, 12(%rdi)
	; CHECK-NEXT: movw %cx, 12(%rdi)
	; CHECK-NEXT: testb $-128, %al			; CHECK-NEXT: testb $-128, %al
	; CHECK-NEXT: je LBB13_16			; CHECK-NEXT: je LBB13_16
	; CHECK-NEXT: LBB13_15: ## %cond.store13			; CHECK-NEXT: LBB13_15: ## %cond.store13
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %ecx			; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: movw %cx, 14(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm0, 14(%rdi)
	; CHECK-NEXT: testl $256, %eax ## imm = 0x100			; CHECK-NEXT: testl $256, %eax ## imm = 0x100
	; CHECK-NEXT: je LBB13_18			; CHECK-NEXT: je LBB13_18
	; CHECK-NEXT: LBB13_17: ## %cond.store15			; CHECK-NEXT: LBB13_17: ## %cond.store15
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %ecx			; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: movw %cx, 16(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm0, 16(%rdi)
	; CHECK-NEXT: testl $512, %eax ## imm = 0x200			; CHECK-NEXT: testl $512, %eax ## imm = 0x200
	; CHECK-NEXT: je LBB13_20			; CHECK-NEXT: je LBB13_20
	; CHECK-NEXT: LBB13_19: ## %cond.store17			; CHECK-NEXT: LBB13_19: ## %cond.store17
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %ecx			; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: movw %cx, 18(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm0, 18(%rdi)
	; CHECK-NEXT: testl $1024, %eax ## imm = 0x400			; CHECK-NEXT: testl $1024, %eax ## imm = 0x400
	; CHECK-NEXT: je LBB13_22			; CHECK-NEXT: je LBB13_22
	; CHECK-NEXT: LBB13_21: ## %cond.store19			; CHECK-NEXT: LBB13_21: ## %cond.store19
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %ecx			; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: movw %cx, 20(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm0, 20(%rdi)
	; CHECK-NEXT: testl $2048, %eax ## imm = 0x800			; CHECK-NEXT: testl $2048, %eax ## imm = 0x800
	; CHECK-NEXT: je LBB13_24			; CHECK-NEXT: je LBB13_24
	; CHECK-NEXT: LBB13_23: ## %cond.store21			; CHECK-NEXT: LBB13_23: ## %cond.store21
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %ecx			; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: movw %cx, 22(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm0, 22(%rdi)
	; CHECK-NEXT: testl $4096, %eax ## imm = 0x1000			; CHECK-NEXT: testl $4096, %eax ## imm = 0x1000
	; CHECK-NEXT: je LBB13_26			; CHECK-NEXT: je LBB13_26
	; CHECK-NEXT: LBB13_25: ## %cond.store23			; CHECK-NEXT: LBB13_25: ## %cond.store23
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %ecx			; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: movw %cx, 24(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm0, 24(%rdi)
	; CHECK-NEXT: testl $8192, %eax ## imm = 0x2000			; CHECK-NEXT: testl $8192, %eax ## imm = 0x2000
	; CHECK-NEXT: je LBB13_28			; CHECK-NEXT: je LBB13_28
	; CHECK-NEXT: LBB13_27: ## %cond.store25			; CHECK-NEXT: LBB13_27: ## %cond.store25
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %ecx			; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: movw %cx, 26(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm0, 26(%rdi)
	; CHECK-NEXT: testl $16384, %eax ## imm = 0x4000			; CHECK-NEXT: testl $16384, %eax ## imm = 0x4000
	; CHECK-NEXT: je LBB13_30			; CHECK-NEXT: je LBB13_30
	; CHECK-NEXT: LBB13_29: ## %cond.store27			; CHECK-NEXT: LBB13_29: ## %cond.store27
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %ecx			; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: movw %cx, 28(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm0, 28(%rdi)
	; CHECK-NEXT: testl $32768, %eax ## imm = 0x8000			; CHECK-NEXT: testl $32768, %eax ## imm = 0x8000
	; CHECK-NEXT: je LBB13_32			; CHECK-NEXT: je LBB13_32
	; CHECK-NEXT: LBB13_31: ## %cond.store29			; CHECK-NEXT: LBB13_31: ## %cond.store29
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax			; CHECK-NEXT: vpinsrw $0, {{[0-9]+}}(%rsp), %xmm0, %xmm0
	; CHECK-NEXT: movw %ax, 30(%rdi)			; CHECK-NEXT: vpextrw $0, %xmm0, 30(%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	call void @llvm.masked.store.v16f16.p0v16f16(<16 x half> %val, <16 x half>* %addr, i32 4, <16 x i1>%mask)			call void @llvm.masked.store.v16f16.p0v16f16(<16 x half> %val, <16 x half>* %addr, i32 4, <16 x i1>%mask)
	ret void			ret void
	}			}
	declare void @llvm.masked.store.v16f16.p0v16f16(<16 x half>, <16 x half>*, i32, <16 x i1>)			declare void @llvm.masked.store.v16f16.p0v16f16(<16 x half>, <16 x half>*, i32, <16 x i1>)

llvm/test/CodeGen/X86/callbr-asm-bb-exports.ll

	Show All 11 Lines
	; CHECK-NEXT: t12: ch = CopyToReg t0, Register:i32 %0, t10			; CHECK-NEXT: t12: ch = CopyToReg t0, Register:i32 %0, t10
	; CHECK-NEXT: t6: i32,ch = CopyFromReg t0, Register:i32 %4			; CHECK-NEXT: t6: i32,ch = CopyFromReg t0, Register:i32 %4
	; CHECK-NEXT: t13: i32 = add t6, Constant:i32<1>			; CHECK-NEXT: t13: i32 = add t6, Constant:i32<1>
	; CHECK-NEXT: t15: ch = CopyToReg t0, Register:i32 %1, t13			; CHECK-NEXT: t15: ch = CopyToReg t0, Register:i32 %1, t13
	; CHECK-NEXT: t17: ch = TokenFactor t12, t15			; CHECK-NEXT: t17: ch = TokenFactor t12, t15
	; CHECK-NEXT: t2: i32,ch = CopyFromReg t0, Register:i32 %2			; CHECK-NEXT: t2: i32,ch = CopyFromReg t0, Register:i32 %2
	; CHECK-NEXT: t8: i32 = add t2, Constant:i32<4>			; CHECK-NEXT: t8: i32 = add t2, Constant:i32<4>
	; CHECK-NEXT: t22: ch,glue = CopyToReg t17, Register:i32 %5, t8			; CHECK-NEXT: t22: ch,glue = CopyToReg t17, Register:i32 %5, t8
	; CHECK-NEXT: t30: ch,glue = inlineasm_br t22, TargetExternalSymbol:i64'xorl $0, $0; jmp ${1:l}', MDNode:ch<null>, TargetConstant:i64<8>, TargetConstant:i32<2293769>, Register:i32 %5, TargetConstant:i64<13>, TargetBlockAddress:i64<@test, %fail> 0, TargetConstant:i32<12>, Register:i32 $df, TargetConstant:i32<12>, Register:i16 $fpsw, TargetConstant:i32<12>, Register:i32 $eflags, t22:1			; CHECK-NEXT: t30: ch,glue = inlineasm_br t22, TargetExternalSymbol:i64'xorl $0, $0; jmp ${1:l}', MDNode:ch<null>, TargetConstant:i64<8>, TargetConstant:i32<2359305>, Register:i32 %5, TargetConstant:i64<13>, TargetBlockAddress:i64<@test, %fail> 0, TargetConstant:i32<12>, Register:i32 $df, TargetConstant:i32<12>, Register:i16 $fpsw, TargetConstant:i32<12>, Register:i32 $eflags, t22:1
				LuoYuankeUnsubmitted Not Done Reply Inline Actions Why this test is affacted? Is it caused by calling convention change? LuoYuanke: Why this test is affacted? Is it caused by calling convention change?
				pengfeiAuthorUnsubmitted Done Reply Inline Actions No. It's caused by newly added `FR16` register class. pengfei: No. It's caused by newly added `FR16` register class.

	define i32 @test(i32 %a, i32 %b, i32 %c) {			define i32 @test(i32 %a, i32 %b, i32 %c) {
	entry:			entry:
	%0 = add i32 %a, 4			%0 = add i32 %a, 4
	%1 = add i32 %b, 1			%1 = add i32 %b, 1
	%2 = add i32 %c, 1			%2 = add i32 %c, 1
	callbr void asm "xorl $0, $0; jmp ${1:l}", "r,i,~{dirflag},~{fpsr},~{flags}"(i32 %0, i8* blockaddress(@test, %fail)) to label %normal [label %fail]			callbr void asm "xorl $0, $0; jmp ${1:l}", "r,i,~{dirflag},~{fpsr},~{flags}"(i32 %0, i8* blockaddress(@test, %fail)) to label %normal [label %fail]

	normal:			normal:
	ret i32 %1			ret i32 %1

	fail:			fail:
	ret i32 %2			ret i32 %2
	}			}

llvm/test/CodeGen/X86/cvt16-2.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=-avx512fp16 \| FileCheck %s -check-prefix=LIBCALL			; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=-avx512fp16 \| FileCheck %s -check-prefix=LIBCALL
	; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+avx512fp16 \| FileCheck %s -check-prefix=FP16			; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+avx512fp16 \| FileCheck %s -check-prefix=FP16

	define void @test1(float %src, i16* %dest) {			define void @test1(float %src, i16* %dest) {
	; LIBCALL-LABEL: test1:			; LIBCALL-LABEL: test1:
	; LIBCALL: # %bb.0:			; LIBCALL: # %bb.0:
	; LIBCALL-NEXT: pushq %rbx			; LIBCALL-NEXT: pushq %rbx
	; LIBCALL-NEXT: .cfi_def_cfa_offset 16			; LIBCALL-NEXT: .cfi_def_cfa_offset 16
	; LIBCALL-NEXT: .cfi_offset %rbx, -16			; LIBCALL-NEXT: .cfi_offset %rbx, -16
	; LIBCALL-NEXT: movq %rdi, %rbx			; LIBCALL-NEXT: movq %rdi, %rbx
	; LIBCALL-NEXT: callq __gnu_f2h_ieee@PLT			; LIBCALL-NEXT: callq __truncsfhf2@PLT
				; LIBCALL-NEXT: pextrw $0, %xmm0, %eax
	; LIBCALL-NEXT: movw %ax, (%rbx)			; LIBCALL-NEXT: movw %ax, (%rbx)
	; LIBCALL-NEXT: popq %rbx			; LIBCALL-NEXT: popq %rbx
	; LIBCALL-NEXT: .cfi_def_cfa_offset 8			; LIBCALL-NEXT: .cfi_def_cfa_offset 8
	; LIBCALL-NEXT: retq			; LIBCALL-NEXT: retq
	;			;
	; FP16-LABEL: test1:			; FP16-LABEL: test1:
	; FP16: # %bb.0:			; FP16: # %bb.0:
	; FP16-NEXT: vcvtss2sh %xmm0, %xmm0, %xmm0			; FP16-NEXT: vcvtss2sh %xmm0, %xmm0, %xmm0
	; FP16-NEXT: vmovsh %xmm0, (%rdi)			; FP16-NEXT: vmovsh %xmm0, (%rdi)
	; FP16-NEXT: retq			; FP16-NEXT: retq
	%1 = tail call i16 @llvm.convert.to.fp16.f32(float %src)			%1 = tail call i16 @llvm.convert.to.fp16.f32(float %src)
	store i16 %1, i16* %dest, align 2			store i16 %1, i16* %dest, align 2
	ret void			ret void
	}			}

	define float @test2(i16* nocapture %src) {			define float @test2(i16* nocapture %src) {
	; LIBCALL-LABEL: test2:			; LIBCALL-LABEL: test2:
	; LIBCALL: # %bb.0:			; LIBCALL: # %bb.0:
	; LIBCALL-NEXT: movzwl (%rdi), %edi			; LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
	; LIBCALL-NEXT: jmp __gnu_h2f_ieee@PLT # TAILCALL			; LIBCALL-NEXT: jmp __extendhfsf2@PLT # TAILCALL
	;			;
	; FP16-LABEL: test2:			; FP16-LABEL: test2:
	; FP16: # %bb.0:			; FP16: # %bb.0:
	; FP16-NEXT: vmovsh (%rdi), %xmm0			; FP16-NEXT: vmovsh (%rdi), %xmm0
	; FP16-NEXT: vcvtsh2ss %xmm0, %xmm0, %xmm0			; FP16-NEXT: vcvtsh2ss %xmm0, %xmm0, %xmm0
	; FP16-NEXT: retq			; FP16-NEXT: retq
	%1 = load i16, i16* %src, align 2			%1 = load i16, i16* %src, align 2
	%2 = tail call float @llvm.convert.from.fp16.f32(i16 %1)			%2 = tail call float @llvm.convert.from.fp16.f32(i16 %1)
	ret float %2			ret float %2
	}			}

	define float @test3(float %src) nounwind uwtable readnone {			define float @test3(float %src) nounwind uwtable readnone {
	; LIBCALL-LABEL: test3:			; LIBCALL-LABEL: test3:
	; LIBCALL: # %bb.0:			; LIBCALL: # %bb.0:
	; LIBCALL-NEXT: pushq %rax			; LIBCALL-NEXT: pushq %rax
	; LIBCALL-NEXT: .cfi_def_cfa_offset 16			; LIBCALL-NEXT: .cfi_def_cfa_offset 16
	; LIBCALL-NEXT: callq __gnu_f2h_ieee@PLT			; LIBCALL-NEXT: callq __truncsfhf2@PLT
	; LIBCALL-NEXT: movzwl %ax, %edi
	; LIBCALL-NEXT: popq %rax			; LIBCALL-NEXT: popq %rax
	; LIBCALL-NEXT: .cfi_def_cfa_offset 8			; LIBCALL-NEXT: .cfi_def_cfa_offset 8
	; LIBCALL-NEXT: jmp __gnu_h2f_ieee@PLT # TAILCALL			; LIBCALL-NEXT: jmp __extendhfsf2@PLT # TAILCALL
	;			;
	; FP16-LABEL: test3:			; FP16-LABEL: test3:
	; FP16: # %bb.0:			; FP16: # %bb.0:
	; FP16-NEXT: vcvtss2sh %xmm0, %xmm0, %xmm0			; FP16-NEXT: vcvtss2sh %xmm0, %xmm0, %xmm0
	; FP16-NEXT: vcvtsh2ss %xmm0, %xmm0, %xmm0			; FP16-NEXT: vcvtsh2ss %xmm0, %xmm0, %xmm0
	; FP16-NEXT: retq			; FP16-NEXT: retq
	%1 = tail call i16 @llvm.convert.to.fp16.f32(float %src)			%1 = tail call i16 @llvm.convert.to.fp16.f32(float %src)
	%2 = tail call float @llvm.convert.from.fp16.f32(i16 %1)			%2 = tail call float @llvm.convert.from.fp16.f32(i16 %1)
	ret float %2			ret float %2
	}			}

	; FIXME: Should it be __extendhfdf2?			; FIXME: Should it be __extendhfdf2?
	define double @test4(i16* nocapture %src) {			define double @test4(i16* nocapture %src) {
	; LIBCALL-LABEL: test4:			; LIBCALL-LABEL: test4:
	; LIBCALL: # %bb.0:			; LIBCALL: # %bb.0:
	; LIBCALL-NEXT: pushq %rax			; LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
	; LIBCALL-NEXT: .cfi_def_cfa_offset 16			; LIBCALL-NEXT: jmp __extendhfdf2@PLT # TAILCALL
	; LIBCALL-NEXT: movzwl (%rdi), %edi
	; LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT
	; LIBCALL-NEXT: cvtss2sd %xmm0, %xmm0
	; LIBCALL-NEXT: popq %rax
	; LIBCALL-NEXT: .cfi_def_cfa_offset 8
	; LIBCALL-NEXT: retq
	;			;
	; FP16-LABEL: test4:			; FP16-LABEL: test4:
	; FP16: # %bb.0:			; FP16: # %bb.0:
	; FP16-NEXT: vmovsh (%rdi), %xmm0			; FP16-NEXT: vmovsh (%rdi), %xmm0
	; FP16-NEXT: vcvtsh2sd %xmm0, %xmm0, %xmm0			; FP16-NEXT: vcvtsh2sd %xmm0, %xmm0, %xmm0
	; FP16-NEXT: retq			; FP16-NEXT: retq
	%1 = load i16, i16* %src, align 2			%1 = load i16, i16* %src, align 2
	%2 = tail call double @llvm.convert.from.fp16.f64(i16 %1)			%2 = tail call double @llvm.convert.from.fp16.f64(i16 %1)
	ret double %2			ret double %2
	}			}

	define i16 @test5(double %src) {			define i16 @test5(double %src) {
	; LIBCALL-LABEL: test5:			; LIBCALL-LABEL: test5:
	; LIBCALL: # %bb.0:			; LIBCALL: # %bb.0:
	; LIBCALL-NEXT: jmp __truncdfhf2@PLT # TAILCALL			; LIBCALL-NEXT: pushq %rax
				; LIBCALL-NEXT: .cfi_def_cfa_offset 16
				; LIBCALL-NEXT: callq __truncdfhf2@PLT
				; LIBCALL-NEXT: pextrw $0, %xmm0, %eax
				; LIBCALL-NEXT: # kill: def $ax killed $ax killed $eax
				; LIBCALL-NEXT: popq %rcx
				; LIBCALL-NEXT: .cfi_def_cfa_offset 8
				; LIBCALL-NEXT: retq
	;			;
	; FP16-LABEL: test5:			; FP16-LABEL: test5:
	; FP16: # %bb.0:			; FP16: # %bb.0:
	; FP16-NEXT: vcvtsd2sh %xmm0, %xmm0, %xmm0			; FP16-NEXT: vcvtsd2sh %xmm0, %xmm0, %xmm0
	; FP16-NEXT: vmovw %xmm0, %eax			; FP16-NEXT: vmovw %xmm0, %eax
	; FP16-NEXT: # kill: def $ax killed $ax killed $eax			; FP16-NEXT: # kill: def $ax killed $ax killed $eax
	; FP16-NEXT: retq			; FP16-NEXT: retq
	%val = tail call i16 @llvm.convert.to.fp16.f64(double %src)			%val = tail call i16 @llvm.convert.to.fp16.f64(double %src)
	ret i16 %val			ret i16 %val
	}			}

	; FIXME: Should it be __extendhfxf2?			; FIXME: Should it be __extendhfxf2?
	define x86_fp80 @test6(i16* nocapture %src) {			define x86_fp80 @test6(i16* nocapture %src) {
	; LIBCALL-LABEL: test6:			; LIBCALL-LABEL: test6:
	; LIBCALL: # %bb.0:			; LIBCALL: # %bb.0:
	; LIBCALL-NEXT: pushq %rax			; LIBCALL-NEXT: pushq %rax
	; LIBCALL-NEXT: .cfi_def_cfa_offset 16			; LIBCALL-NEXT: .cfi_def_cfa_offset 16
	; LIBCALL-NEXT: movzwl (%rdi), %edi			; LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
	; LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT			; LIBCALL-NEXT: callq __extendhfxf2@PLT
	; LIBCALL-NEXT: movss %xmm0, {{[0-9]+}}(%rsp)
	; LIBCALL-NEXT: flds {{[0-9]+}}(%rsp)
	; LIBCALL-NEXT: popq %rax			; LIBCALL-NEXT: popq %rax
	; LIBCALL-NEXT: .cfi_def_cfa_offset 8			; LIBCALL-NEXT: .cfi_def_cfa_offset 8
	; LIBCALL-NEXT: retq			; LIBCALL-NEXT: retq
	;			;
	; FP16-LABEL: test6:			; FP16-LABEL: test6:
	; FP16: # %bb.0:			; FP16: # %bb.0:
	; FP16-NEXT: pushq %rax			; FP16-NEXT: pushq %rax
	; FP16-NEXT: .cfi_def_cfa_offset 16			; FP16-NEXT: .cfi_def_cfa_offset 16
	; FP16-NEXT: vmovsh (%rdi), %xmm0			; FP16-NEXT: vmovsh (%rdi), %xmm0
	; FP16-NEXT: callq __extendhfxf2@PLT			; FP16-NEXT: callq __extendhfxf2@PLT
	; FP16-NEXT: popq %rax			; FP16-NEXT: popq %rax
	; FP16-NEXT: .cfi_def_cfa_offset 8			; FP16-NEXT: .cfi_def_cfa_offset 8
	; FP16-NEXT: retq			; FP16-NEXT: retq
	%1 = load i16, i16* %src, align 2			%1 = load i16, i16* %src, align 2
	%2 = tail call x86_fp80 @llvm.convert.from.fp16.f80(i16 %1)			%2 = tail call x86_fp80 @llvm.convert.from.fp16.f80(i16 %1)
	ret x86_fp80 %2			ret x86_fp80 %2
	}			}

	define i16 @test7(x86_fp80 %src) {			define i16 @test7(x86_fp80 %src) {
	; LIBCALL-LABEL: test7:			; LIBCALL-LABEL: test7:
	; LIBCALL: # %bb.0:			; LIBCALL: # %bb.0:
	; LIBCALL-NEXT: jmp __truncxfhf2@PLT # TAILCALL			; LIBCALL-NEXT: subq $24, %rsp
				; LIBCALL-NEXT: .cfi_def_cfa_offset 32
				; LIBCALL-NEXT: fldt {{[0-9]+}}(%rsp)
				; LIBCALL-NEXT: fstpt (%rsp)
				; LIBCALL-NEXT: callq __truncxfhf2@PLT
				; LIBCALL-NEXT: pextrw $0, %xmm0, %eax
				; LIBCALL-NEXT: # kill: def $ax killed $ax killed $eax
				; LIBCALL-NEXT: addq $24, %rsp
				; LIBCALL-NEXT: .cfi_def_cfa_offset 8
				; LIBCALL-NEXT: retq
	;			;
	; FP16-LABEL: test7:			; FP16-LABEL: test7:
	; FP16: # %bb.0:			; FP16: # %bb.0:
	; FP16-NEXT: subq $24, %rsp			; FP16-NEXT: subq $24, %rsp
	; FP16-NEXT: .cfi_def_cfa_offset 32			; FP16-NEXT: .cfi_def_cfa_offset 32
	; FP16-NEXT: fldt {{[0-9]+}}(%rsp)			; FP16-NEXT: fldt {{[0-9]+}}(%rsp)
	; FP16-NEXT: fstpt (%rsp)			; FP16-NEXT: fstpt (%rsp)
	; FP16-NEXT: callq __truncxfhf2@PLT			; FP16-NEXT: callq __truncxfhf2@PLT
	Show All 15 Lines

llvm/test/CodeGen/X86/cvt16.ll

Show All 22 Lines

define void @test1(float %src, i16* %dest) {		define void @test1(float %src, i16* %dest) {
; LIBCALL-LABEL: test1:		; LIBCALL-LABEL: test1:
; LIBCALL: # %bb.0:		; LIBCALL: # %bb.0:
; LIBCALL-NEXT: pushq %rbx		; LIBCALL-NEXT: pushq %rbx
; LIBCALL-NEXT: .cfi_def_cfa_offset 16		; LIBCALL-NEXT: .cfi_def_cfa_offset 16
; LIBCALL-NEXT: .cfi_offset %rbx, -16		; LIBCALL-NEXT: .cfi_offset %rbx, -16
; LIBCALL-NEXT: movq %rdi, %rbx		; LIBCALL-NEXT: movq %rdi, %rbx
; LIBCALL-NEXT: callq __gnu_f2h_ieee@PLT		; LIBCALL-NEXT: callq __truncsfhf2@PLT
; LIBCALL-NEXT: movw %ax, (%rbx)		; LIBCALL-NEXT: pextrw $0, %xmm0, (%rbx)
; LIBCALL-NEXT: popq %rbx		; LIBCALL-NEXT: popq %rbx
; LIBCALL-NEXT: .cfi_def_cfa_offset 8		; LIBCALL-NEXT: .cfi_def_cfa_offset 8
; LIBCALL-NEXT: retq		; LIBCALL-NEXT: retq
;		;
; F16C-LABEL: test1:		; F16C-LABEL: test1:
; F16C: # %bb.0:		; F16C: # %bb.0:
; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0		; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; F16C-NEXT: vpextrw $0, %xmm0, (%rdi)		; F16C-NEXT: vmovd %xmm0, %eax
		; F16C-NEXT: movw %ax, (%rdi)
; F16C-NEXT: retq		; F16C-NEXT: retq
;		;
; SOFTFLOAT-LABEL: test1:		; SOFTFLOAT-LABEL: test1:
; SOFTFLOAT: # %bb.0:		; SOFTFLOAT: # %bb.0:
; SOFTFLOAT-NEXT: pushq %rbx		; SOFTFLOAT-NEXT: pushq %rbx
; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 16		; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 16
; SOFTFLOAT-NEXT: .cfi_offset %rbx, -16		; SOFTFLOAT-NEXT: .cfi_offset %rbx, -16
; SOFTFLOAT-NEXT: movq %rsi, %rbx		; SOFTFLOAT-NEXT: movq %rsi, %rbx
; SOFTFLOAT-NEXT: callq __gnu_f2h_ieee@PLT		; SOFTFLOAT-NEXT: callq __gnu_f2h_ieee@PLT
; SOFTFLOAT-NEXT: movw %ax, (%rbx)		; SOFTFLOAT-NEXT: movw %ax, (%rbx)
; SOFTFLOAT-NEXT: popq %rbx		; SOFTFLOAT-NEXT: popq %rbx
; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 8		; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 8
; SOFTFLOAT-NEXT: retq		; SOFTFLOAT-NEXT: retq
%1 = tail call i16 @llvm.convert.to.fp16.f32(float %src)		%1 = tail call i16 @llvm.convert.to.fp16.f32(float %src)
store i16 %1, i16* %dest, align 2		store i16 %1, i16* %dest, align 2
ret void		ret void
}		}

define float @test2(i16* nocapture %src) {		define float @test2(i16* nocapture %src) {
; LIBCALL-LABEL: test2:		; LIBCALL-LABEL: test2:
; LIBCALL: # %bb.0:		; LIBCALL: # %bb.0:
; LIBCALL-NEXT: movzwl (%rdi), %edi		; LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
; LIBCALL-NEXT: jmp __gnu_h2f_ieee@PLT # TAILCALL		; LIBCALL-NEXT: jmp __extendhfsf2@PLT # TAILCALL
;		;
; F16C-LABEL: test2:		; F16C-LABEL: test2:
; F16C: # %bb.0:		; F16C: # %bb.0:
; F16C-NEXT: movzwl (%rdi), %eax		; F16C-NEXT: movzwl (%rdi), %eax
; F16C-NEXT: vmovd %eax, %xmm0		; F16C-NEXT: vmovd %eax, %xmm0
; F16C-NEXT: vcvtph2ps %xmm0, %xmm0		; F16C-NEXT: vcvtph2ps %xmm0, %xmm0
; F16C-NEXT: retq		; F16C-NEXT: retq
;		;
Show All 11 Lines	; SOFTFLOAT-NEXT: retq
ret float %2		ret float %2
}		}

define float @test3(float %src) nounwind uwtable readnone {		define float @test3(float %src) nounwind uwtable readnone {
; LIBCALL-LABEL: test3:		; LIBCALL-LABEL: test3:
; LIBCALL: # %bb.0:		; LIBCALL: # %bb.0:
; LIBCALL-NEXT: pushq %rax		; LIBCALL-NEXT: pushq %rax
; LIBCALL-NEXT: .cfi_def_cfa_offset 16		; LIBCALL-NEXT: .cfi_def_cfa_offset 16
; LIBCALL-NEXT: callq __gnu_f2h_ieee@PLT		; LIBCALL-NEXT: callq __truncsfhf2@PLT
; LIBCALL-NEXT: movzwl %ax, %edi
; LIBCALL-NEXT: popq %rax		; LIBCALL-NEXT: popq %rax
; LIBCALL-NEXT: .cfi_def_cfa_offset 8		; LIBCALL-NEXT: .cfi_def_cfa_offset 8
; LIBCALL-NEXT: jmp __gnu_h2f_ieee@PLT # TAILCALL		; LIBCALL-NEXT: jmp __extendhfsf2@PLT # TAILCALL
;		;
; F16C-LABEL: test3:		; F16C-LABEL: test3:
; F16C: # %bb.0:		; F16C: # %bb.0:
; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0		; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
		; F16C-NEXT: vmovd %xmm0, %eax
		; F16C-NEXT: movzwl %ax, %eax
		; F16C-NEXT: vmovd %eax, %xmm0
; F16C-NEXT: vcvtph2ps %xmm0, %xmm0		; F16C-NEXT: vcvtph2ps %xmm0, %xmm0
; F16C-NEXT: retq		; F16C-NEXT: retq
;		;
; SOFTFLOAT-LABEL: test3:		; SOFTFLOAT-LABEL: test3:
; SOFTFLOAT: # %bb.0:		; SOFTFLOAT: # %bb.0:
; SOFTFLOAT-NEXT: pushq %rax		; SOFTFLOAT-NEXT: pushq %rax
; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 16		; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 16
; SOFTFLOAT-NEXT: callq __gnu_f2h_ieee@PLT		; SOFTFLOAT-NEXT: callq __gnu_f2h_ieee@PLT
; SOFTFLOAT-NEXT: movzwl %ax, %edi		; SOFTFLOAT-NEXT: movzwl %ax, %edi
; SOFTFLOAT-NEXT: callq __gnu_h2f_ieee@PLT		; SOFTFLOAT-NEXT: callq __gnu_h2f_ieee@PLT
; SOFTFLOAT-NEXT: popq %rcx		; SOFTFLOAT-NEXT: popq %rcx
; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 8		; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 8
; SOFTFLOAT-NEXT: retq		; SOFTFLOAT-NEXT: retq
%1 = tail call i16 @llvm.convert.to.fp16.f32(float %src)		%1 = tail call i16 @llvm.convert.to.fp16.f32(float %src)
%2 = tail call float @llvm.convert.from.fp16.f32(i16 %1)		%2 = tail call float @llvm.convert.from.fp16.f32(i16 %1)
ret float %2		ret float %2
}		}

define double @test4(i16* nocapture %src) {		define double @test4(i16* nocapture %src) {
; LIBCALL-LABEL: test4:		; LIBCALL-LABEL: test4:
; LIBCALL: # %bb.0:		; LIBCALL: # %bb.0:
; LIBCALL-NEXT: pushq %rax		; LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
; LIBCALL-NEXT: .cfi_def_cfa_offset 16		; LIBCALL-NEXT: jmp __extendhfdf2@PLT # TAILCALL
; LIBCALL-NEXT: movzwl (%rdi), %edi
; LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT
; LIBCALL-NEXT: cvtss2sd %xmm0, %xmm0
; LIBCALL-NEXT: popq %rax
; LIBCALL-NEXT: .cfi_def_cfa_offset 8
; LIBCALL-NEXT: retq
;		;
; F16C-LABEL: test4:		; F16C-LABEL: test4:
; F16C: # %bb.0:		; F16C: # %bb.0:
; F16C-NEXT: movzwl (%rdi), %eax		; F16C-NEXT: movzwl (%rdi), %eax
; F16C-NEXT: vmovd %eax, %xmm0		; F16C-NEXT: vmovd %eax, %xmm0
; F16C-NEXT: vcvtph2ps %xmm0, %xmm0		; F16C-NEXT: vcvtph2ps %xmm0, %xmm0
; F16C-NEXT: vcvtss2sd %xmm0, %xmm0, %xmm0		; F16C-NEXT: vcvtss2sd %xmm0, %xmm0, %xmm0
; F16C-NEXT: retq		; F16C-NEXT: retq
Show All 12 Lines	; SOFTFLOAT-NEXT: retq
%1 = load i16, i16* %src, align 2		%1 = load i16, i16* %src, align 2
%2 = tail call double @llvm.convert.from.fp16.f64(i16 %1)		%2 = tail call double @llvm.convert.from.fp16.f64(i16 %1)
ret double %2		ret double %2
}		}

define i16 @test5(double %src) {		define i16 @test5(double %src) {
; LIBCALL-LABEL: test5:		; LIBCALL-LABEL: test5:
; LIBCALL: # %bb.0:		; LIBCALL: # %bb.0:
; LIBCALL-NEXT: jmp __truncdfhf2@PLT # TAILCALL		; LIBCALL-NEXT: pushq %rax
		; LIBCALL-NEXT: .cfi_def_cfa_offset 16
		; LIBCALL-NEXT: callq __truncdfhf2@PLT
		; LIBCALL-NEXT: pextrw $0, %xmm0, %eax
		; LIBCALL-NEXT: # kill: def $ax killed $ax killed $eax
		; LIBCALL-NEXT: popq %rcx
		; LIBCALL-NEXT: .cfi_def_cfa_offset 8
		; LIBCALL-NEXT: retq
;		;
; F16C-LABEL: test5:		; F16C-LABEL: test5:
; F16C: # %bb.0:		; F16C: # %bb.0:
; F16C-NEXT: jmp __truncdfhf2@PLT # TAILCALL		; F16C-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
		; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
		; F16C-NEXT: vmovd %xmm0, %eax
		; F16C-NEXT: # kill: def $ax killed $ax killed $eax
		; F16C-NEXT: retq
;		;
; SOFTFLOAT-LABEL: test5:		; SOFTFLOAT-LABEL: test5:
; SOFTFLOAT: # %bb.0:		; SOFTFLOAT: # %bb.0:
; SOFTFLOAT-NEXT: pushq %rax		; SOFTFLOAT-NEXT: pushq %rax
; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 16		; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 16
; SOFTFLOAT-NEXT: callq __truncdfhf2@PLT		; SOFTFLOAT-NEXT: callq __truncdfhf2@PLT
; SOFTFLOAT-NEXT: popq %rcx		; SOFTFLOAT-NEXT: popq %rcx
; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 8		; SOFTFLOAT-NEXT: .cfi_def_cfa_offset 8
Show All 9 Lines

llvm/test/CodeGen/X86/fastmath-float-half-conversion.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=x86_64-unknown-unknown -mattr=+f16c < %s \| FileCheck %s --check-prefix=ALL --check-prefix=F16C			; RUN: llc -mtriple=x86_64-unknown-unknown -mattr=+f16c < %s \| FileCheck %s --check-prefix=F16C
	; RUN: llc -mtriple=x86_64-unknown-unknown -mattr=+avx < %s \| FileCheck %s --check-prefix=ALL --check-prefix=AVX			; RUN: llc -mtriple=x86_64-unknown-unknown -mattr=+avx < %s \| FileCheck %s --check-prefix=AVX

	define zeroext i16 @test1_fast(double %d) #0 {			define zeroext i16 @test1_fast(double %d) #0 {
	; F16C-LABEL: test1_fast:			; F16C-LABEL: test1_fast:
	; F16C: # %bb.0: # %entry			; F16C: # %bb.0: # %entry
	; F16C-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0			; F16C-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; F16C-NEXT: vmovd %xmm0, %eax			; F16C-NEXT: vmovd %xmm0, %eax
	; F16C-NEXT: # kill: def $ax killed $ax killed $eax			; F16C-NEXT: # kill: def $ax killed $ax killed $eax
	; F16C-NEXT: retq			; F16C-NEXT: retq
	;			;
	; AVX-LABEL: test1_fast:			; AVX-LABEL: test1_fast:
	; AVX: # %bb.0: # %entry			; AVX: # %bb.0: # %entry
	; AVX-NEXT: pushq %rax			; AVX-NEXT: pushq %rax
	; AVX-NEXT: .cfi_def_cfa_offset 16			; AVX-NEXT: .cfi_def_cfa_offset 16
	; AVX-NEXT: callq __truncdfhf2@PLT			; AVX-NEXT: callq __truncdfhf2@PLT
				; AVX-NEXT: vpextrw $0, %xmm0, %eax
				; AVX-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX-NEXT: popq %rcx			; AVX-NEXT: popq %rcx
	; AVX-NEXT: .cfi_def_cfa_offset 8			; AVX-NEXT: .cfi_def_cfa_offset 8
	; AVX-NEXT: retq			; AVX-NEXT: retq
	entry:			entry:
	%0 = tail call i16 @llvm.convert.to.fp16.f64(double %d)			%0 = tail call i16 @llvm.convert.to.fp16.f64(double %d)
	ret i16 %0			ret i16 %0
	}			}

	define zeroext i16 @test2_fast(x86_fp80 %d) #0 {			define zeroext i16 @test2_fast(x86_fp80 %d) #0 {
	; F16C-LABEL: test2_fast:			; F16C-LABEL: test2_fast:
	; F16C: # %bb.0: # %entry			; F16C: # %bb.0: # %entry
				; F16C-NEXT: subq $24, %rsp
				; F16C-NEXT: .cfi_def_cfa_offset 32
	; F16C-NEXT: fldt {{[0-9]+}}(%rsp)			; F16C-NEXT: fldt {{[0-9]+}}(%rsp)
	; F16C-NEXT: fstps -{{[0-9]+}}(%rsp)			; F16C-NEXT: fstpt (%rsp)
	; F16C-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; F16C-NEXT: callq __truncxfhf2@PLT
	; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; F16C-NEXT: vpextrw $0, %xmm0, %eax
	; F16C-NEXT: vmovd %xmm0, %eax
	; F16C-NEXT: # kill: def $ax killed $ax killed $eax			; F16C-NEXT: # kill: def $ax killed $ax killed $eax
				; F16C-NEXT: addq $24, %rsp
				; F16C-NEXT: .cfi_def_cfa_offset 8
	; F16C-NEXT: retq			; F16C-NEXT: retq
	;			;
	; AVX-LABEL: test2_fast:			; AVX-LABEL: test2_fast:
	; AVX: # %bb.0: # %entry			; AVX: # %bb.0: # %entry
	; AVX-NEXT: subq $24, %rsp			; AVX-NEXT: subq $24, %rsp
	; AVX-NEXT: .cfi_def_cfa_offset 32			; AVX-NEXT: .cfi_def_cfa_offset 32
	; AVX-NEXT: fldt {{[0-9]+}}(%rsp)			; AVX-NEXT: fldt {{[0-9]+}}(%rsp)
	; AVX-NEXT: fstpt (%rsp)			; AVX-NEXT: fstpt (%rsp)
	; AVX-NEXT: callq __truncxfhf2@PLT			; AVX-NEXT: callq __truncxfhf2@PLT
				; AVX-NEXT: vpextrw $0, %xmm0, %eax
				; AVX-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX-NEXT: addq $24, %rsp			; AVX-NEXT: addq $24, %rsp
	; AVX-NEXT: .cfi_def_cfa_offset 8			; AVX-NEXT: .cfi_def_cfa_offset 8
	; AVX-NEXT: retq			; AVX-NEXT: retq
	entry:			entry:
	%0 = tail call i16 @llvm.convert.to.fp16.f80(x86_fp80 %d)			%0 = tail call i16 @llvm.convert.to.fp16.f80(x86_fp80 %d)
	ret i16 %0			ret i16 %0
	}			}

	define zeroext i16 @test1(double %d) #1 {			define zeroext i16 @test1(double %d) #1 {
	; ALL-LABEL: test1:			; F16C-LABEL: test1:
	; ALL: # %bb.0: # %entry			; F16C: # %bb.0: # %entry
	; ALL-NEXT: pushq %rax			; F16C-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; ALL-NEXT: .cfi_def_cfa_offset 16			; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; ALL-NEXT: callq __truncdfhf2@PLT			; F16C-NEXT: vmovd %xmm0, %eax
	; ALL-NEXT: popq %rcx			; F16C-NEXT: # kill: def $ax killed $ax killed $eax
	; ALL-NEXT: .cfi_def_cfa_offset 8			; F16C-NEXT: retq
	; ALL-NEXT: retq			;
				; AVX-LABEL: test1:
				; AVX: # %bb.0: # %entry
				; AVX-NEXT: pushq %rax
				; AVX-NEXT: .cfi_def_cfa_offset 16
				; AVX-NEXT: callq __truncdfhf2@PLT
				; AVX-NEXT: vpextrw $0, %xmm0, %eax
				; AVX-NEXT: # kill: def $ax killed $ax killed $eax
				; AVX-NEXT: popq %rcx
				; AVX-NEXT: .cfi_def_cfa_offset 8
				; AVX-NEXT: retq
	entry:			entry:
	%0 = tail call i16 @llvm.convert.to.fp16.f64(double %d)			%0 = tail call i16 @llvm.convert.to.fp16.f64(double %d)
	ret i16 %0			ret i16 %0
	}			}

	define zeroext i16 @test2(x86_fp80 %d) #1 {			define zeroext i16 @test2(x86_fp80 %d) #1 {
	; ALL-LABEL: test2:			; F16C-LABEL: test2:
	; ALL: # %bb.0: # %entry			; F16C: # %bb.0: # %entry
	; ALL-NEXT: subq $24, %rsp			; F16C-NEXT: subq $24, %rsp
	; ALL-NEXT: .cfi_def_cfa_offset 32			; F16C-NEXT: .cfi_def_cfa_offset 32
	; ALL-NEXT: fldt {{[0-9]+}}(%rsp)			; F16C-NEXT: fldt {{[0-9]+}}(%rsp)
	; ALL-NEXT: fstpt (%rsp)			; F16C-NEXT: fstpt (%rsp)
	; ALL-NEXT: callq __truncxfhf2@PLT			; F16C-NEXT: callq __truncxfhf2@PLT
	; ALL-NEXT: addq $24, %rsp			; F16C-NEXT: vpextrw $0, %xmm0, %eax
	; ALL-NEXT: .cfi_def_cfa_offset 8			; F16C-NEXT: # kill: def $ax killed $ax killed $eax
	; ALL-NEXT: retq			; F16C-NEXT: addq $24, %rsp
				; F16C-NEXT: .cfi_def_cfa_offset 8
				; F16C-NEXT: retq
				;
				; AVX-LABEL: test2:
				; AVX: # %bb.0: # %entry
				; AVX-NEXT: subq $24, %rsp
				; AVX-NEXT: .cfi_def_cfa_offset 32
				; AVX-NEXT: fldt {{[0-9]+}}(%rsp)
				; AVX-NEXT: fstpt (%rsp)
				; AVX-NEXT: callq __truncxfhf2@PLT
				; AVX-NEXT: vpextrw $0, %xmm0, %eax
				; AVX-NEXT: # kill: def $ax killed $ax killed $eax
				; AVX-NEXT: addq $24, %rsp
				; AVX-NEXT: .cfi_def_cfa_offset 8
				; AVX-NEXT: retq
	entry:			entry:
	%0 = tail call i16 @llvm.convert.to.fp16.f80(x86_fp80 %d)			%0 = tail call i16 @llvm.convert.to.fp16.f80(x86_fp80 %d)
	ret i16 %0			ret i16 %0
	}			}

	declare i16 @llvm.convert.to.fp16.f64(double)			declare i16 @llvm.convert.to.fp16.f64(double)
	declare i16 @llvm.convert.to.fp16.f80(x86_fp80)			declare i16 @llvm.convert.to.fp16.f80(x86_fp80)

	attributes #0 = { nounwind readnone uwtable "unsafe-fp-math"="true" "use-soft-float"="false" }			attributes #0 = { nounwind readnone uwtable "unsafe-fp-math"="true" "use-soft-float"="false" }
	attributes #1 = { nounwind readnone uwtable "unsafe-fp-math"="false" "use-soft-float"="false" }			attributes #1 = { nounwind readnone uwtable "unsafe-fp-math"="false" "use-soft-float"="false" }

llvm/test/CodeGen/X86/fmf-flags.ll

Show First 20 Lines • Show All 105 Lines • ▼ Show 20 Lines	; X86-NEXT: retl
ret float %z		ret float %z
}		}

define dso_local float @div_arcp_by_const(half %x) {		define dso_local float @div_arcp_by_const(half %x) {
; X64-LABEL: div_arcp_by_const:		; X64-LABEL: div_arcp_by_const:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: pushq %rax		; X64-NEXT: pushq %rax
; X64-NEXT: .cfi_def_cfa_offset 16		; X64-NEXT: .cfi_def_cfa_offset 16
; X64-NEXT: movzwl %di, %edi		; X64-NEXT: callq __extendhfsf2@PLT
; X64-NEXT: callq __gnu_h2f_ieee@PLT
LuoYuankeUnsubmitted Not Done Reply Inline Actions Does __gnu_h2f_ieee retrun from xmm? LuoYuanke: Does __gnu_h2f_ieee retrun from xmm?
pengfeiAuthorUnsubmitted Done Reply Inline Actions There does not exist a `__gnu_h2f_ieee` on X86 before. It's ARM/AArch64 specific. pengfei: There does not exist a `__gnu_h2f_ieee` on X86 before. It's ARM/AArch64 specific.
; X64-NEXT: mulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; X64-NEXT: mulss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; X64-NEXT: callq __gnu_f2h_ieee@PLT		; X64-NEXT: callq __truncsfhf2@PLT
; X64-NEXT: movzwl %ax, %edi
; X64-NEXT: popq %rax		; X64-NEXT: popq %rax
; X64-NEXT: .cfi_def_cfa_offset 8		; X64-NEXT: .cfi_def_cfa_offset 8
; X64-NEXT: jmp __gnu_h2f_ieee@PLT # TAILCALL		; X64-NEXT: jmp __extendhfsf2@PLT # TAILCALL
;		;
; X86-LABEL: div_arcp_by_const:		; X86-LABEL: div_arcp_by_const:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: pushl %eax		; X86-NEXT: pushl %eax
; X86-NEXT: .cfi_def_cfa_offset 8		; X86-NEXT: .cfi_def_cfa_offset 8
; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movl %eax, (%esp)		; X86-NEXT: movl %eax, (%esp)
; X86-NEXT: calll __gnu_h2f_ieee		; X86-NEXT: calll __gnu_h2f_ieee
Show All 13 Lines

llvm/test/CodeGen/X86/fp-round.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse2 \| FileCheck %s --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse2 \| FileCheck %s --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE41			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE41
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx \| FileCheck %s --check-prefixes=AVX1			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx \| FileCheck %s --check-prefixes=AVX1
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512F			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512F
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512fp16,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512FP16			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512fp16,+avx512vl \| FileCheck %s --check-prefixes=AVX512,AVX512FP16

	define half @round_f16(half %h) {			define half @round_f16(half %h) {
	; SSE2-LABEL: round_f16:			; SSE2-LABEL: round_f16:
	; SSE2: ## %bb.0: ## %entry			; SSE2: ## %bb.0: ## %entry
	; SSE2-NEXT: pushq %rax			; SSE2-NEXT: pushq %rax
	; SSE2-NEXT: .cfi_def_cfa_offset 16			; SSE2-NEXT: .cfi_def_cfa_offset 16
	; SSE2-NEXT: movzwl %di, %edi
	; SSE2-NEXT: callq ___extendhfsf2			; SSE2-NEXT: callq ___extendhfsf2
	; SSE2-NEXT: callq _roundf			; SSE2-NEXT: callq _roundf
	; SSE2-NEXT: callq ___truncsfhf2			; SSE2-NEXT: callq ___truncsfhf2
	; SSE2-NEXT: popq %rcx			; SSE2-NEXT: popq %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: round_f16:			; SSE41-LABEL: round_f16:
	; SSE41: ## %bb.0: ## %entry			; SSE41: ## %bb.0: ## %entry
	; SSE41-NEXT: pushq %rax			; SSE41-NEXT: pushq %rax
	; SSE41-NEXT: .cfi_def_cfa_offset 16			; SSE41-NEXT: .cfi_def_cfa_offset 16
	; SSE41-NEXT: movzwl %di, %edi
	; SSE41-NEXT: callq ___extendhfsf2			; SSE41-NEXT: callq ___extendhfsf2
	; SSE41-NEXT: movaps {{.*#+}} xmm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]			; SSE41-NEXT: movaps {{.*#+}} xmm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
	; SSE41-NEXT: andps %xmm0, %xmm1			; SSE41-NEXT: andps %xmm0, %xmm1
	; SSE41-NEXT: orps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; SSE41-NEXT: orps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; SSE41-NEXT: addss %xmm0, %xmm1			; SSE41-NEXT: addss %xmm0, %xmm1
	; SSE41-NEXT: xorps %xmm0, %xmm0			; SSE41-NEXT: xorps %xmm0, %xmm0
	; SSE41-NEXT: roundss $11, %xmm1, %xmm0			; SSE41-NEXT: roundss $11, %xmm1, %xmm0
	; SSE41-NEXT: callq ___truncsfhf2			; SSE41-NEXT: callq ___truncsfhf2
	; SSE41-NEXT: popq %rcx			; SSE41-NEXT: popq %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: round_f16:			; AVX1-LABEL: round_f16:
	; AVX1: ## %bb.0: ## %entry			; AVX1: ## %bb.0: ## %entry
	; AVX1-NEXT: pushq %rax			; AVX1-NEXT: pushq %rax
	; AVX1-NEXT: .cfi_def_cfa_offset 16			; AVX1-NEXT: .cfi_def_cfa_offset 16
	; AVX1-NEXT: movzwl %di, %edi
	; AVX1-NEXT: callq ___extendhfsf2			; AVX1-NEXT: callq ___extendhfsf2
	; AVX1-NEXT: vandps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1			; AVX1-NEXT: vandps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1
	; AVX1-NEXT: vbroadcastss {{.*#+}} xmm2 = [4.9999997E-1,4.9999997E-1,4.9999997E-1,4.9999997E-1]			; AVX1-NEXT: vbroadcastss {{.*#+}} xmm2 = [4.9999997E-1,4.9999997E-1,4.9999997E-1,4.9999997E-1]
	; AVX1-NEXT: vorps %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vorps %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vroundss $11, %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vroundss $11, %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: callq ___truncsfhf2			; AVX1-NEXT: callq ___truncsfhf2
	; AVX1-NEXT: popq %rcx			; AVX1-NEXT: popq %rax
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512F-LABEL: round_f16:			; AVX512F-LABEL: round_f16:
	; AVX512F: ## %bb.0: ## %entry			; AVX512F: ## %bb.0: ## %entry
	; AVX512F-NEXT: movzwl %di, %eax			; AVX512F-NEXT: vpextrw $0, %xmm0, %eax
				; AVX512F-NEXT: movzwl %ax, %eax
	; AVX512F-NEXT: vmovd %eax, %xmm0			; AVX512F-NEXT: vmovd %eax, %xmm0
	; AVX512F-NEXT: vcvtph2ps %xmm0, %xmm0			; AVX512F-NEXT: vcvtph2ps %xmm0, %xmm0
	; AVX512F-NEXT: vpbroadcastd {{.*#+}} xmm1 = [4.9999997E-1,4.9999997E-1,4.9999997E-1,4.9999997E-1]			; AVX512F-NEXT: vpbroadcastd {{.*#+}} xmm1 = [4.9999997E-1,4.9999997E-1,4.9999997E-1,4.9999997E-1]
	; AVX512F-NEXT: vpternlogd $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm1			; AVX512F-NEXT: vpternlogd $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm0, %xmm1
	; AVX512F-NEXT: vaddss %xmm1, %xmm0, %xmm0			; AVX512F-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: vroundss $11, %xmm0, %xmm0, %xmm0			; AVX512F-NEXT: vroundss $11, %xmm0, %xmm0, %xmm0
	; AVX512F-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; AVX512F-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: ## kill: def $ax killed $ax killed $eax			; AVX512F-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512FP16-LABEL: round_f16:			; AVX512FP16-LABEL: round_f16:
	; AVX512FP16: ## %bb.0: ## %entry			; AVX512FP16: ## %bb.0: ## %entry
	; AVX512FP16-NEXT: vpbroadcastw {{.*#+}} xmm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]			; AVX512FP16-NEXT: vpbroadcastw {{.*#+}} xmm1 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
	; AVX512FP16-NEXT: vpbroadcastw {{.*#+}} xmm2 = [4.9976E-1,4.9976E-1,4.9976E-1,4.9976E-1,4.9976E-1,4.9976E-1,4.9976E-1,4.9976E-1]			; AVX512FP16-NEXT: vpbroadcastw {{.*#+}} xmm2 = [4.9976E-1,4.9976E-1,4.9976E-1,4.9976E-1,4.9976E-1,4.9976E-1,4.9976E-1,4.9976E-1]
	; AVX512FP16-NEXT: vpternlogq $248, %xmm1, %xmm0, %xmm2			; AVX512FP16-NEXT: vpternlogq $248, %xmm1, %xmm0, %xmm2
	; AVX512FP16-NEXT: vaddsh %xmm2, %xmm0, %xmm0			; AVX512FP16-NEXT: vaddsh %xmm2, %xmm0, %xmm0
	▲ Show 20 Lines • Show All 581 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/fp-roundeven.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse2 \| FileCheck %s --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse2 \| FileCheck %s --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE41			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+sse4.1 \| FileCheck %s --check-prefixes=SSE41
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx \| FileCheck %s --check-prefixes=AVX,AVX1
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512vl \| FileCheck %s --check-prefixes=AVX,AVX512,AVX512F			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512f,+avx512vl \| FileCheck %s --check-prefixes=AVX,AVX512,AVX512F
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512fp16,+avx512vl \| FileCheck %s --check-prefixes=AVX,AVX512,AVX512FP16			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512fp16,+avx512vl \| FileCheck %s --check-prefixes=AVX,AVX512,AVX512FP16

	define half @roundeven_f16(half %h) {			define half @roundeven_f16(half %h) {
	; SSE2-LABEL: roundeven_f16:			; SSE2-LABEL: roundeven_f16:
	; SSE2: ## %bb.0: ## %entry			; SSE2: ## %bb.0: ## %entry
	; SSE2-NEXT: pushq %rax			; SSE2-NEXT: pushq %rax
	; SSE2-NEXT: .cfi_def_cfa_offset 16			; SSE2-NEXT: .cfi_def_cfa_offset 16
	; SSE2-NEXT: movzwl %di, %edi
	; SSE2-NEXT: callq ___extendhfsf2			; SSE2-NEXT: callq ___extendhfsf2
	; SSE2-NEXT: callq _roundevenf			; SSE2-NEXT: callq _roundevenf
	; SSE2-NEXT: callq ___truncsfhf2			; SSE2-NEXT: callq ___truncsfhf2
	; SSE2-NEXT: popq %rcx			; SSE2-NEXT: popq %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: roundeven_f16:			; SSE41-LABEL: roundeven_f16:
	; SSE41: ## %bb.0: ## %entry			; SSE41: ## %bb.0: ## %entry
	; SSE41-NEXT: pushq %rax			; SSE41-NEXT: pushq %rax
	; SSE41-NEXT: .cfi_def_cfa_offset 16			; SSE41-NEXT: .cfi_def_cfa_offset 16
	; SSE41-NEXT: movzwl %di, %edi
	; SSE41-NEXT: callq ___extendhfsf2			; SSE41-NEXT: callq ___extendhfsf2
	; SSE41-NEXT: roundss $8, %xmm0, %xmm0			; SSE41-NEXT: roundss $8, %xmm0, %xmm0
	; SSE41-NEXT: callq ___truncsfhf2			; SSE41-NEXT: callq ___truncsfhf2
	; SSE41-NEXT: popq %rcx			; SSE41-NEXT: popq %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: roundeven_f16:			; AVX1-LABEL: roundeven_f16:
	; AVX1: ## %bb.0: ## %entry			; AVX1: ## %bb.0: ## %entry
	; AVX1-NEXT: pushq %rax			; AVX1-NEXT: pushq %rax
	; AVX1-NEXT: .cfi_def_cfa_offset 16			; AVX1-NEXT: .cfi_def_cfa_offset 16
	; AVX1-NEXT: movzwl %di, %edi
	; AVX1-NEXT: callq ___extendhfsf2			; AVX1-NEXT: callq ___extendhfsf2
	; AVX1-NEXT: vroundss $8, %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vroundss $8, %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: callq ___truncsfhf2			; AVX1-NEXT: callq ___truncsfhf2
	; AVX1-NEXT: popq %rcx			; AVX1-NEXT: popq %rax
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX512F-LABEL: roundeven_f16:			; AVX512F-LABEL: roundeven_f16:
	; AVX512F: ## %bb.0: ## %entry			; AVX512F: ## %bb.0: ## %entry
	; AVX512F-NEXT: movzwl %di, %eax			; AVX512F-NEXT: vpextrw $0, %xmm0, %eax
				; AVX512F-NEXT: movzwl %ax, %eax
	; AVX512F-NEXT: vmovd %eax, %xmm0			; AVX512F-NEXT: vmovd %eax, %xmm0
	; AVX512F-NEXT: vcvtph2ps %xmm0, %xmm0			; AVX512F-NEXT: vcvtph2ps %xmm0, %xmm0
	; AVX512F-NEXT: vroundss $8, %xmm0, %xmm0, %xmm0			; AVX512F-NEXT: vroundss $8, %xmm0, %xmm0, %xmm0
	; AVX512F-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; AVX512F-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX512F-NEXT: vmovd %xmm0, %eax			; AVX512F-NEXT: vmovd %xmm0, %eax
	; AVX512F-NEXT: ## kill: def $ax killed $ax killed $eax			; AVX512F-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512FP16-LABEL: roundeven_f16:			; AVX512FP16-LABEL: roundeven_f16:
	; AVX512FP16: ## %bb.0: ## %entry			; AVX512FP16: ## %bb.0: ## %entry
	; AVX512FP16-NEXT: vrndscalesh $8, %xmm0, %xmm0, %xmm0			; AVX512FP16-NEXT: vrndscalesh $8, %xmm0, %xmm0, %xmm0
	; AVX512FP16-NEXT: retq			; AVX512FP16-NEXT: retq
	entry:			entry:
	%a = call half @llvm.roundeven.f16(half %h)			%a = call half @llvm.roundeven.f16(half %h)
	▲ Show 20 Lines • Show All 416 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/fp128-cast-strict.ll

Show All 13 Lines
@vf64 = common dso_local global double 0.000000e+00, align 8		@vf64 = common dso_local global double 0.000000e+00, align 8
@vf80 = common dso_local global x86_fp80 0xK00000000000000000000, align 8		@vf80 = common dso_local global x86_fp80 0xK00000000000000000000, align 8
@vf128 = common dso_local global fp128 0xL00000000000000000000000000000000, align 16		@vf128 = common dso_local global fp128 0xL00000000000000000000000000000000, align 16

define dso_local void @TestFPExtF16_F128() nounwind strictfp {		define dso_local void @TestFPExtF16_F128() nounwind strictfp {
; X64-SSE-LABEL: TestFPExtF16_F128:		; X64-SSE-LABEL: TestFPExtF16_F128:
; X64-SSE: # %bb.0: # %entry		; X64-SSE: # %bb.0: # %entry
; X64-SSE-NEXT: pushq %rax		; X64-SSE-NEXT: pushq %rax
; X64-SSE-NEXT: movzwl vf16(%rip), %edi		; X64-SSE-NEXT: pinsrw $0, vf16(%rip), %xmm0
; X64-SSE-NEXT: callq __gnu_h2f_ieee@PLT		; X64-SSE-NEXT: callq __extendhftf2@PLT
; X64-SSE-NEXT: callq __extendsftf2@PLT		; X64-SSE-NEXT: movdqa %xmm0, vf128(%rip)
; X64-SSE-NEXT: movaps %xmm0, vf128(%rip)
; X64-SSE-NEXT: popq %rax		; X64-SSE-NEXT: popq %rax
; X64-SSE-NEXT: retq		; X64-SSE-NEXT: retq
;		;
; X64-AVX512-LABEL: TestFPExtF16_F128:		; X64-AVX512-LABEL: TestFPExtF16_F128:
; X64-AVX512: # %bb.0: # %entry		; X64-AVX512: # %bb.0: # %entry
; X64-AVX512-NEXT: pushq %rax		; X64-AVX512-NEXT: pushq %rax
; X64-AVX512-NEXT: vmovsh vf16(%rip), %xmm0		; X64-AVX512-NEXT: vmovsh vf16(%rip), %xmm0
; X64-AVX512-NEXT: callq __extendhftf2@PLT		; X64-AVX512-NEXT: callq __extendhftf2@PLT
▲ Show 20 Lines • Show All 179 Lines • ▼ Show 20 Lines	entry:
store fp128 %conv, fp128* @vf128, align 16		store fp128 %conv, fp128* @vf128, align 16
ret void		ret void
}		}

define dso_local void @TestFPTruncF128_F16() nounwind strictfp {		define dso_local void @TestFPTruncF128_F16() nounwind strictfp {
; X64-SSE-LABEL: TestFPTruncF128_F16:		; X64-SSE-LABEL: TestFPTruncF128_F16:
; X64-SSE: # %bb.0: # %entry		; X64-SSE: # %bb.0: # %entry
; X64-SSE-NEXT: pushq %rax		; X64-SSE-NEXT: pushq %rax
; X64-SSE-NEXT: movaps vf128(%rip), %xmm0		; X64-SSE-NEXT: movdqa vf128(%rip), %xmm0
; X64-SSE-NEXT: callq __trunctfhf2@PLT		; X64-SSE-NEXT: callq __trunctfhf2@PLT
		; X64-SSE-NEXT: pextrw $0, %xmm0, %eax
; X64-SSE-NEXT: movw %ax, vf16(%rip)		; X64-SSE-NEXT: movw %ax, vf16(%rip)
; X64-SSE-NEXT: popq %rax		; X64-SSE-NEXT: popq %rax
; X64-SSE-NEXT: retq		; X64-SSE-NEXT: retq
;		;
; X64-AVX512-LABEL: TestFPTruncF128_F16:		; X64-AVX512-LABEL: TestFPTruncF128_F16:
; X64-AVX512: # %bb.0: # %entry		; X64-AVX512: # %bb.0: # %entry
; X64-AVX512-NEXT: pushq %rax		; X64-AVX512-NEXT: pushq %rax
; X64-AVX512-NEXT: vmovaps vf128(%rip), %xmm0		; X64-AVX512-NEXT: vmovaps vf128(%rip), %xmm0
▲ Show 20 Lines • Show All 847 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/fpclamptosat.ll

Show First 20 Lines • Show All 133 Lines • ▼ Show 20 Lines	entry:
ret i32 %conv6		ret i32 %conv6
}		}

define i32 @stest_f16i32(half %x) {		define i32 @stest_f16i32(half %x) {
; CHECK-LABEL: stest_f16i32:		; CHECK-LABEL: stest_f16i32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: movl $2147483647, %ecx # imm = 0x7FFFFFFF		; CHECK-NEXT: movl $-2147483648, %ecx # imm = 0x80000000
; CHECK-NEXT: cmovbel %eax, %ecx		; CHECK-NEXT: cmovael %eax, %ecx
		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
		; CHECK-NEXT: movl $2147483647, %edx # imm = 0x7FFFFFFF
		; CHECK-NEXT: cmovbel %ecx, %edx
; CHECK-NEXT: xorl %eax, %eax		; CHECK-NEXT: xorl %eax, %eax
; CHECK-NEXT: ucomiss %xmm0, %xmm0		; CHECK-NEXT: ucomiss %xmm0, %xmm0
; CHECK-NEXT: cmovnpl %ecx, %eax		; CHECK-NEXT: cmovnpl %edx, %eax
; CHECK-NEXT: popq %rcx		; CHECK-NEXT: popq %rcx
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi half %x to i64		%conv = fptosi half %x to i64
%0 = icmp slt i64 %conv, 2147483647		%0 = icmp slt i64 %conv, 2147483647
%spec.store.select = select i1 %0, i64 %conv, i64 2147483647		%spec.store.select = select i1 %0, i64 %conv, i64 2147483647
%1 = icmp sgt i64 %spec.store.select, -2147483648		%1 = icmp sgt i64 %spec.store.select, -2147483648
%spec.store.select7 = select i1 %1, i64 %spec.store.select, i64 -2147483648		%spec.store.select7 = select i1 %1, i64 %spec.store.select, i64 -2147483648
%conv6 = trunc i64 %spec.store.select7 to i32		%conv6 = trunc i64 %spec.store.select7 to i32
ret i32 %conv6		ret i32 %conv6
}		}

define i32 @utesth_f16i32(half %x) {		define i32 @utesth_f16i32(half %x) {
; CHECK-LABEL: utesth_f16i32:		; CHECK-LABEL: utesth_f16i32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %rcx		; CHECK-NEXT: movq %rax, %rcx
; CHECK-NEXT: sarq $63, %rcx		; CHECK-NEXT: sarq $63, %rcx
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rdx		; CHECK-NEXT: cvttss2si %xmm0, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movl $4294967295, %eax # imm = 0xFFFFFFFF		; CHECK-NEXT: movl $4294967295, %eax # imm = 0xFFFFFFFF
Show All 11 Lines	entry:
ret i32 %conv6		ret i32 %conv6
}		}

define i32 @ustest_f16i32(half %x) {		define i32 @ustest_f16i32(half %x) {
; CHECK-LABEL: ustest_f16i32:		; CHECK-LABEL: ustest_f16i32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movl $4294967295, %eax # imm = 0xFFFFFFFF		; CHECK-NEXT: movl $4294967295, %eax # imm = 0xFFFFFFFF
; CHECK-NEXT: cmpq %rax, %rcx		; CHECK-NEXT: cmpq %rax, %rcx
; CHECK-NEXT: cmovlq %rcx, %rax		; CHECK-NEXT: cmovlq %rcx, %rax
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rax, %rax		; CHECK-NEXT: testq %rax, %rax
; CHECK-NEXT: cmovlel %ecx, %eax		; CHECK-NEXT: cmovlel %ecx, %eax
; CHECK-NEXT: # kill: def $eax killed $eax killed $rax		; CHECK-NEXT: # kill: def $eax killed $eax killed $rax
▲ Show 20 Lines • Show All 130 Lines • ▼ Show 20 Lines	entry:
ret i16 %conv6		ret i16 %conv6
}		}

define i16 @stest_f16i16(half %x) {		define i16 @stest_f16i16(half %x) {
; CHECK-LABEL: stest_f16i16:		; CHECK-LABEL: stest_f16i16:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: maxss %xmm0, %xmm1
; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: minss %xmm1, %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
		; CHECK-NEXT: movl $32768, %ecx # imm = 0x8000
		; CHECK-NEXT: cmovael %eax, %ecx
		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
		; CHECK-NEXT: movl $32767, %edx # imm = 0x7FFF
		; CHECK-NEXT: cmovbel %ecx, %edx
		; CHECK-NEXT: xorl %eax, %eax
		; CHECK-NEXT: ucomiss %xmm0, %xmm0
		; CHECK-NEXT: cmovnpl %edx, %eax
; CHECK-NEXT: # kill: def $ax killed $ax killed $eax		; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
; CHECK-NEXT: popq %rcx		; CHECK-NEXT: popq %rcx
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi half %x to i32		%conv = fptosi half %x to i32
%0 = icmp slt i32 %conv, 32767		%0 = icmp slt i32 %conv, 32767
%spec.store.select = select i1 %0, i32 %conv, i32 32767		%spec.store.select = select i1 %0, i32 %conv, i32 32767
%1 = icmp sgt i32 %spec.store.select, -32768		%1 = icmp sgt i32 %spec.store.select, -32768
%spec.store.select7 = select i1 %1, i32 %spec.store.select, i32 -32768		%spec.store.select7 = select i1 %1, i32 %spec.store.select, i32 -32768
%conv6 = trunc i32 %spec.store.select7 to i16		%conv6 = trunc i32 %spec.store.select7 to i16
ret i16 %conv6		ret i16 %conv6
}		}

define i16 @utesth_f16i16(half %x) {		define i16 @utesth_f16i16(half %x) {
; CHECK-LABEL: utesth_f16i16:		; CHECK-LABEL: utesth_f16i16:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: cmpl $65535, %ecx # imm = 0xFFFF		; CHECK-NEXT: cmpl $65535, %ecx # imm = 0xFFFF
; CHECK-NEXT: movl $65535, %eax # imm = 0xFFFF		; CHECK-NEXT: movl $65535, %eax # imm = 0xFFFF
; CHECK-NEXT: cmovbl %ecx, %eax		; CHECK-NEXT: cmovbl %ecx, %eax
; CHECK-NEXT: # kill: def $ax killed $ax killed $eax		; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
; CHECK-NEXT: popq %rcx		; CHECK-NEXT: popq %rcx
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui half %x to i32		%conv = fptoui half %x to i32
%0 = icmp ult i32 %conv, 65535		%0 = icmp ult i32 %conv, 65535
%spec.store.select = select i1 %0, i32 %conv, i32 65535		%spec.store.select = select i1 %0, i32 %conv, i32 65535
%conv6 = trunc i32 %spec.store.select to i16		%conv6 = trunc i32 %spec.store.select to i16
ret i16 %conv6		ret i16 %conv6
}		}

define i16 @ustest_f16i16(half %x) {		define i16 @ustest_f16i16(half %x) {
; CHECK-LABEL: ustest_f16i16:		; CHECK-LABEL: ustest_f16i16:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: cmpl $65535, %eax # imm = 0xFFFF		; CHECK-NEXT: cmpl $65535, %eax # imm = 0xFFFF
; CHECK-NEXT: movl $65535, %ecx # imm = 0xFFFF		; CHECK-NEXT: movl $65535, %ecx # imm = 0xFFFF
; CHECK-NEXT: cmovll %eax, %ecx		; CHECK-NEXT: cmovll %eax, %ecx
; CHECK-NEXT: xorl %eax, %eax		; CHECK-NEXT: xorl %eax, %eax
; CHECK-NEXT: testl %ecx, %ecx		; CHECK-NEXT: testl %ecx, %ecx
; CHECK-NEXT: cmovgl %ecx, %eax		; CHECK-NEXT: cmovgl %ecx, %eax
; CHECK-NEXT: # kill: def $ax killed $ax killed $eax		; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
▲ Show 20 Lines • Show All 152 Lines • ▼ Show 20 Lines	entry:
ret i64 %conv6		ret i64 %conv6
}		}

define i64 @stest_f16i64(half %x) {		define i64 @stest_f16i64(half %x) {
; CHECK-LABEL: stest_f16i64:		; CHECK-LABEL: stest_f16i64:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF		; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
		LuoYuankeUnsubmitted Not Done Reply Inline Actions I'm curious why there is 1 more compare in this patch. LuoYuanke: I'm curious why there is 1 more compare in this patch.
		pengfeiAuthorUnsubmitted Done Reply Inline Actions It's an optimization implemented by D111976. We don't meet the requirment that `isOperationLegalOrCustom`. It's not easy to solve because we need to check the promoted type instead. I'll leave it as is. pengfei: It's an optimization implemented by D111976. We don't meet the requirment that…
; CHECK-NEXT: cmovbeq %rax, %rcx		; CHECK-NEXT: cmovaeq %rax, %rcx
		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
		; CHECK-NEXT: movabsq $9223372036854775807, %rdx # imm = 0x7FFFFFFFFFFFFFFF
		; CHECK-NEXT: cmovbeq %rcx, %rdx
; CHECK-NEXT: xorl %eax, %eax		; CHECK-NEXT: xorl %eax, %eax
; CHECK-NEXT: ucomiss %xmm0, %xmm0		; CHECK-NEXT: ucomiss %xmm0, %xmm0
; CHECK-NEXT: cmovnpq %rcx, %rax		; CHECK-NEXT: cmovnpq %rdx, %rax
; CHECK-NEXT: popq %rcx		; CHECK-NEXT: popq %rcx
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi half %x to i128		%conv = fptosi half %x to i128
%0 = icmp slt i128 %conv, 9223372036854775807		%0 = icmp slt i128 %conv, 9223372036854775807
%spec.store.select = select i1 %0, i128 %conv, i128 9223372036854775807		%spec.store.select = select i1 %0, i128 %conv, i128 9223372036854775807
%1 = icmp sgt i128 %spec.store.select, -9223372036854775808		%1 = icmp sgt i128 %spec.store.select, -9223372036854775808
%spec.store.select7 = select i1 %1, i128 %spec.store.select, i128 -9223372036854775808		%spec.store.select7 = select i1 %1, i128 %spec.store.select, i128 -9223372036854775808
%conv6 = trunc i128 %spec.store.select7 to i64		%conv6 = trunc i128 %spec.store.select7 to i64
ret i64 %conv6		ret i64 %conv6
}		}

define i64 @utesth_f16i64(half %x) {		define i64 @utesth_f16i64(half %x) {
; CHECK-LABEL: utesth_f16i64:		; CHECK-LABEL: utesth_f16i64:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __fixunshfti@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: callq __fixunssfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: cmovneq %rcx, %rax		; CHECK-NEXT: cmovneq %rcx, %rax
; CHECK-NEXT: popq %rcx		; CHECK-NEXT: popq %rcx
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui half %x to i128		%conv = fptoui half %x to i128
%0 = icmp ult i128 %conv, 18446744073709551616		%0 = icmp ult i128 %conv, 18446744073709551616
%spec.store.select = select i1 %0, i128 %conv, i128 18446744073709551616		%spec.store.select = select i1 %0, i128 %conv, i128 18446744073709551616
%conv6 = trunc i128 %spec.store.select to i64		%conv6 = trunc i128 %spec.store.select to i64
ret i64 %conv6		ret i64 %conv6
}		}

define i64 @ustest_f16i64(half %x) {		define i64 @ustest_f16i64(half %x) {
; CHECK-LABEL: ustest_f16i64:		; CHECK-LABEL: ustest_f16i64:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: callq __fixsfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: movl $1, %esi		; CHECK-NEXT: movl $1, %esi
; CHECK-NEXT: cmovleq %rdx, %rsi		; CHECK-NEXT: cmovleq %rdx, %rsi
; CHECK-NEXT: cmovgq %rcx, %rax		; CHECK-NEXT: cmovgq %rcx, %rax
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: negq %rdx		; CHECK-NEXT: negq %rdx
; CHECK-NEXT: movl $0, %edx		; CHECK-NEXT: movl $0, %edx
▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines	entry:
ret i32 %conv6		ret i32 %conv6
}		}

define i32 @stest_f16i32_mm(half %x) {		define i32 @stest_f16i32_mm(half %x) {
; CHECK-LABEL: stest_f16i32_mm:		; CHECK-LABEL: stest_f16i32_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: movl $2147483647, %ecx # imm = 0x7FFFFFFF		; CHECK-NEXT: movl $-2147483648, %ecx # imm = 0x80000000
; CHECK-NEXT: cmovbel %eax, %ecx		; CHECK-NEXT: cmovael %eax, %ecx
		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Ditto. LuoYuanke: Ditto.
		pengfeiAuthorUnsubmitted Done Reply Inline Actions The same as above. pengfei: The same as above.
		; CHECK-NEXT: movl $2147483647, %edx # imm = 0x7FFFFFFF
		; CHECK-NEXT: cmovbel %ecx, %edx
; CHECK-NEXT: xorl %eax, %eax		; CHECK-NEXT: xorl %eax, %eax
; CHECK-NEXT: ucomiss %xmm0, %xmm0		; CHECK-NEXT: ucomiss %xmm0, %xmm0
; CHECK-NEXT: cmovnpl %ecx, %eax		; CHECK-NEXT: cmovnpl %edx, %eax
; CHECK-NEXT: popq %rcx		; CHECK-NEXT: popq %rcx
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi half %x to i64		%conv = fptosi half %x to i64
%spec.store.select = call i64 @llvm.smin.i64(i64 %conv, i64 2147483647)		%spec.store.select = call i64 @llvm.smin.i64(i64 %conv, i64 2147483647)
%spec.store.select7 = call i64 @llvm.smax.i64(i64 %spec.store.select, i64 -2147483648)		%spec.store.select7 = call i64 @llvm.smax.i64(i64 %spec.store.select, i64 -2147483648)
%conv6 = trunc i64 %spec.store.select7 to i32		%conv6 = trunc i64 %spec.store.select7 to i32
ret i32 %conv6		ret i32 %conv6
}		}

define i32 @utesth_f16i32_mm(half %x) {		define i32 @utesth_f16i32_mm(half %x) {
; CHECK-LABEL: utesth_f16i32_mm:		; CHECK-LABEL: utesth_f16i32_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rcx, %rdx		; CHECK-NEXT: movq %rcx, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: andq %rdx, %rax		; CHECK-NEXT: andq %rdx, %rax
; CHECK-NEXT: orq %rcx, %rax		; CHECK-NEXT: orq %rcx, %rax
; CHECK-NEXT: movl $4294967295, %ecx # imm = 0xFFFFFFFF		; CHECK-NEXT: movl $4294967295, %ecx # imm = 0xFFFFFFFF
Show All 10 Lines	entry:
ret i32 %conv6		ret i32 %conv6
}		}

define i32 @ustest_f16i32_mm(half %x) {		define i32 @ustest_f16i32_mm(half %x) {
; CHECK-LABEL: ustest_f16i32_mm:		; CHECK-LABEL: ustest_f16i32_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movl $4294967295, %ecx # imm = 0xFFFFFFFF		; CHECK-NEXT: movl $4294967295, %ecx # imm = 0xFFFFFFFF
; CHECK-NEXT: cmpq %rcx, %rax		; CHECK-NEXT: cmpq %rcx, %rax
; CHECK-NEXT: cmovlq %rax, %rcx		; CHECK-NEXT: cmovlq %rax, %rcx
; CHECK-NEXT: xorl %eax, %eax		; CHECK-NEXT: xorl %eax, %eax
; CHECK-NEXT: testq %rcx, %rcx		; CHECK-NEXT: testq %rcx, %rcx
; CHECK-NEXT: cmovgq %rcx, %rax		; CHECK-NEXT: cmovgq %rcx, %rax
; CHECK-NEXT: # kill: def $eax killed $eax killed $rax		; CHECK-NEXT: # kill: def $eax killed $eax killed $rax
▲ Show 20 Lines • Show All 118 Lines • ▼ Show 20 Lines	entry:
ret i16 %conv6		ret i16 %conv6
}		}

define i16 @stest_f16i16_mm(half %x) {		define i16 @stest_f16i16_mm(half %x) {
; CHECK-LABEL: stest_f16i16_mm:		; CHECK-LABEL: stest_f16i16_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; CHECK-NEXT: maxss %xmm0, %xmm1
; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: minss %xmm1, %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
		; CHECK-NEXT: movl $32768, %ecx # imm = 0x8000
		; CHECK-NEXT: cmovael %eax, %ecx
		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
		; CHECK-NEXT: movl $32767, %edx # imm = 0x7FFF
		; CHECK-NEXT: cmovbel %ecx, %edx
		; CHECK-NEXT: xorl %eax, %eax
		; CHECK-NEXT: ucomiss %xmm0, %xmm0
		; CHECK-NEXT: cmovnpl %edx, %eax
; CHECK-NEXT: # kill: def $ax killed $ax killed $eax		; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
; CHECK-NEXT: popq %rcx		; CHECK-NEXT: popq %rcx
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi half %x to i32		%conv = fptosi half %x to i32
%spec.store.select = call i32 @llvm.smin.i32(i32 %conv, i32 32767)		%spec.store.select = call i32 @llvm.smin.i32(i32 %conv, i32 32767)
%spec.store.select7 = call i32 @llvm.smax.i32(i32 %spec.store.select, i32 -32768)		%spec.store.select7 = call i32 @llvm.smax.i32(i32 %spec.store.select, i32 -32768)
%conv6 = trunc i32 %spec.store.select7 to i16		%conv6 = trunc i32 %spec.store.select7 to i16
ret i16 %conv6		ret i16 %conv6
}		}

define i16 @utesth_f16i16_mm(half %x) {		define i16 @utesth_f16i16_mm(half %x) {
; CHECK-LABEL: utesth_f16i16_mm:		; CHECK-LABEL: utesth_f16i16_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: cmpl $65535, %ecx # imm = 0xFFFF		; CHECK-NEXT: cmpl $65535, %ecx # imm = 0xFFFF
; CHECK-NEXT: movl $65535, %eax # imm = 0xFFFF		; CHECK-NEXT: movl $65535, %eax # imm = 0xFFFF
; CHECK-NEXT: cmovbl %ecx, %eax		; CHECK-NEXT: cmovbl %ecx, %eax
; CHECK-NEXT: # kill: def $ax killed $ax killed $eax		; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
; CHECK-NEXT: popq %rcx		; CHECK-NEXT: popq %rcx
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui half %x to i32		%conv = fptoui half %x to i32
%spec.store.select = call i32 @llvm.umin.i32(i32 %conv, i32 65535)		%spec.store.select = call i32 @llvm.umin.i32(i32 %conv, i32 65535)
%conv6 = trunc i32 %spec.store.select to i16		%conv6 = trunc i32 %spec.store.select to i16
ret i16 %conv6		ret i16 %conv6
}		}

define i16 @ustest_f16i16_mm(half %x) {		define i16 @ustest_f16i16_mm(half %x) {
; CHECK-LABEL: ustest_f16i16_mm:		; CHECK-LABEL: ustest_f16i16_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: cmpl $65535, %eax # imm = 0xFFFF		; CHECK-NEXT: cmpl $65535, %eax # imm = 0xFFFF
; CHECK-NEXT: movl $65535, %ecx # imm = 0xFFFF		; CHECK-NEXT: movl $65535, %ecx # imm = 0xFFFF
; CHECK-NEXT: cmovll %eax, %ecx		; CHECK-NEXT: cmovll %eax, %ecx
; CHECK-NEXT: xorl %eax, %eax		; CHECK-NEXT: xorl %eax, %eax
; CHECK-NEXT: testl %ecx, %ecx		; CHECK-NEXT: testl %ecx, %ecx
; CHECK-NEXT: cmovgl %ecx, %eax		; CHECK-NEXT: cmovgl %ecx, %eax
; CHECK-NEXT: # kill: def $ax killed $ax killed $eax		; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
▲ Show 20 Lines • Show All 142 Lines • ▼ Show 20 Lines	entry:
ret i64 %conv6		ret i64 %conv6
}		}

define i64 @stest_f16i64_mm(half %x) {		define i64 @stest_f16i64_mm(half %x) {
; CHECK-LABEL: stest_f16i64_mm:		; CHECK-LABEL: stest_f16i64_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF		; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
; CHECK-NEXT: cmovbeq %rax, %rcx		; CHECK-NEXT: cmovaeq %rax, %rcx
		; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
		; CHECK-NEXT: movabsq $9223372036854775807, %rdx # imm = 0x7FFFFFFFFFFFFFFF
		; CHECK-NEXT: cmovbeq %rcx, %rdx
; CHECK-NEXT: xorl %eax, %eax		; CHECK-NEXT: xorl %eax, %eax
; CHECK-NEXT: ucomiss %xmm0, %xmm0		; CHECK-NEXT: ucomiss %xmm0, %xmm0
; CHECK-NEXT: cmovnpq %rcx, %rax		; CHECK-NEXT: cmovnpq %rdx, %rax
; CHECK-NEXT: popq %rcx		; CHECK-NEXT: popq %rcx
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi half %x to i128		%conv = fptosi half %x to i128
%spec.store.select = call i128 @llvm.smin.i128(i128 %conv, i128 9223372036854775807)		%spec.store.select = call i128 @llvm.smin.i128(i128 %conv, i128 9223372036854775807)
%spec.store.select7 = call i128 @llvm.smax.i128(i128 %spec.store.select, i128 -9223372036854775808)		%spec.store.select7 = call i128 @llvm.smax.i128(i128 %spec.store.select, i128 -9223372036854775808)
%conv6 = trunc i128 %spec.store.select7 to i64		%conv6 = trunc i128 %spec.store.select7 to i64
ret i64 %conv6		ret i64 %conv6
}		}

define i64 @utesth_f16i64_mm(half %x) {		define i64 @utesth_f16i64_mm(half %x) {
; CHECK-LABEL: utesth_f16i64_mm:		; CHECK-LABEL: utesth_f16i64_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __fixunshfti@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: callq __fixunssfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: cmovneq %rcx, %rax		; CHECK-NEXT: cmovneq %rcx, %rax
; CHECK-NEXT: cmpq $1, %rdx		; CHECK-NEXT: cmpq $1, %rdx
; CHECK-NEXT: cmoveq %rcx, %rax		; CHECK-NEXT: cmoveq %rcx, %rax
; CHECK-NEXT: popq %rcx		; CHECK-NEXT: popq %rcx
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui half %x to i128		%conv = fptoui half %x to i128
%spec.store.select = call i128 @llvm.umin.i128(i128 %conv, i128 18446744073709551616)		%spec.store.select = call i128 @llvm.umin.i128(i128 %conv, i128 18446744073709551616)
%conv6 = trunc i128 %spec.store.select to i64		%conv6 = trunc i128 %spec.store.select to i64
ret i64 %conv6		ret i64 %conv6
}		}

define i64 @ustest_f16i64_mm(half %x) {		define i64 @ustest_f16i64_mm(half %x) {
; CHECK-LABEL: ustest_f16i64_mm:		; CHECK-LABEL: ustest_f16i64_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rax		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: callq __fixsfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: movl $1, %esi		; CHECK-NEXT: movl $1, %esi
; CHECK-NEXT: cmovleq %rdx, %rsi		; CHECK-NEXT: cmovleq %rdx, %rsi
; CHECK-NEXT: cmovgq %rcx, %rax		; CHECK-NEXT: cmovgq %rcx, %rax
; CHECK-NEXT: cmpq $1, %rdx		; CHECK-NEXT: cmpq $1, %rdx
; CHECK-NEXT: cmoveq %rcx, %rax		; CHECK-NEXT: cmoveq %rcx, %rax
; CHECK-NEXT: testq %rsi, %rsi		; CHECK-NEXT: testq %rsi, %rsi
Show All 21 Lines

llvm/test/CodeGen/X86/fpclamptosat_vec.ll

Show First 20 Lines • Show All 389 Lines • ▼ Show 20 Lines	entry:
%spec.store.select7 = select <4 x i1> %1, <4 x i64> %spec.store.select, <4 x i64> zeroinitializer		%spec.store.select7 = select <4 x i1> %1, <4 x i64> %spec.store.select, <4 x i64> zeroinitializer
%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>		%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @stest_f16i32(<4 x half> %x) {		define <4 x i32> @stest_f16i32(<4 x half> %x) {
; CHECK-LABEL: stest_f16i32:		; CHECK-LABEL: stest_f16i32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movaps %xmm3, %xmm0
; CHECK-NEXT: subq $32, %rsp		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 64		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: .cfi_offset %rbx, -32		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: .cfi_offset %r14, -24		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: .cfi_offset %rbp, -16		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: movl %edx, %ebp		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: movl %esi, %ebx		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movl %edi, %r14d
; CHECK-NEXT: movzwl %cx, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq (%rsp), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r14w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm3		; CHECK-NEXT: movq %rax, %xmm3
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload
; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]		; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [2147483647,2147483647]		; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [2147483647,2147483647]
; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm3, %xmm1		; CHECK-NEXT: movdqa %xmm3, %xmm1
; CHECK-NEXT: pxor %xmm0, %xmm1		; CHECK-NEXT: pxor %xmm0, %xmm1
; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [4294967295,4294967295]		; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [4294967295,4294967295]
; CHECK-NEXT: movdqa %xmm4, %xmm5		; CHECK-NEXT: movdqa %xmm4, %xmm5
; CHECK-NEXT: pcmpgtd %xmm1, %xmm5		; CHECK-NEXT: pcmpgtd %xmm1, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; CHECK-NEXT: pcmpeqd %xmm4, %xmm1		; CHECK-NEXT: pcmpeqd %xmm4, %xmm1
; CHECK-NEXT: pshufd {{.*#+}} xmm7 = xmm1[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm7 = xmm1[1,1,3,3]
; CHECK-NEXT: pand %xmm6, %xmm7		; CHECK-NEXT: pand %xmm6, %xmm7
; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm5[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm5[1,1,3,3]
; CHECK-NEXT: por %xmm7, %xmm1		; CHECK-NEXT: por %xmm7, %xmm1
; CHECK-NEXT: pand %xmm1, %xmm3		; CHECK-NEXT: pand %xmm1, %xmm3
; CHECK-NEXT: pandn %xmm2, %xmm1		; CHECK-NEXT: pandn %xmm2, %xmm1
; CHECK-NEXT: por %xmm3, %xmm1		; CHECK-NEXT: por %xmm3, %xmm1
; CHECK-NEXT: movdqa (%rsp), %xmm7 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 16-byte Reload
; CHECK-NEXT: movdqa %xmm7, %xmm3		; CHECK-NEXT: movdqa %xmm7, %xmm3
; CHECK-NEXT: pxor %xmm0, %xmm3		; CHECK-NEXT: pxor %xmm0, %xmm3
; CHECK-NEXT: movdqa %xmm4, %xmm5		; CHECK-NEXT: movdqa %xmm4, %xmm5
; CHECK-NEXT: pcmpgtd %xmm3, %xmm5		; CHECK-NEXT: pcmpgtd %xmm3, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; CHECK-NEXT: pcmpeqd %xmm4, %xmm3		; CHECK-NEXT: pcmpeqd %xmm4, %xmm3
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
; CHECK-NEXT: pand %xmm6, %xmm3		; CHECK-NEXT: pand %xmm6, %xmm3
Show All 26 Lines
; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm0[1,1,3,3]
; CHECK-NEXT: pand %xmm4, %xmm5		; CHECK-NEXT: pand %xmm4, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; CHECK-NEXT: por %xmm5, %xmm0		; CHECK-NEXT: por %xmm5, %xmm0
; CHECK-NEXT: pand %xmm0, %xmm1		; CHECK-NEXT: pand %xmm0, %xmm1
; CHECK-NEXT: pandn %xmm2, %xmm0		; CHECK-NEXT: pandn %xmm2, %xmm0
; CHECK-NEXT: por %xmm1, %xmm0		; CHECK-NEXT: por %xmm1, %xmm0
; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm6[0,2]		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm6[0,2]
; CHECK-NEXT: addq $32, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <4 x half> %x to <4 x i64>		%conv = fptosi <4 x half> %x to <4 x i64>
%0 = icmp slt <4 x i64> %conv, <i64 2147483647, i64 2147483647, i64 2147483647, i64 2147483647>		%0 = icmp slt <4 x i64> %conv, <i64 2147483647, i64 2147483647, i64 2147483647, i64 2147483647>
%spec.store.select = select <4 x i1> %0, <4 x i64> %conv, <4 x i64> <i64 2147483647, i64 2147483647, i64 2147483647, i64 2147483647>		%spec.store.select = select <4 x i1> %0, <4 x i64> %conv, <4 x i64> <i64 2147483647, i64 2147483647, i64 2147483647, i64 2147483647>
%1 = icmp sgt <4 x i64> %spec.store.select, <i64 -2147483648, i64 -2147483648, i64 -2147483648, i64 -2147483648>		%1 = icmp sgt <4 x i64> %spec.store.select, <i64 -2147483648, i64 -2147483648, i64 -2147483648, i64 -2147483648>
%spec.store.select7 = select <4 x i1> %1, <4 x i64> %spec.store.select, <4 x i64> <i64 -2147483648, i64 -2147483648, i64 -2147483648, i64 -2147483648>		%spec.store.select7 = select <4 x i1> %1, <4 x i64> %spec.store.select, <4 x i64> <i64 -2147483648, i64 -2147483648, i64 -2147483648, i64 -2147483648>
%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>		%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @utesth_f16i32(<4 x half> %x) {		define <4 x i32> @utesth_f16i32(<4 x half> %x) {
; CHECK-LABEL: utesth_f16i32:		; CHECK-LABEL: utesth_f16i32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movaps %xmm1, %xmm0
; CHECK-NEXT: subq $32, %rsp		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 64
; CHECK-NEXT: .cfi_offset %rbx, -32
; CHECK-NEXT: .cfi_offset %r14, -24
; CHECK-NEXT: .cfi_offset %rbp, -16
; CHECK-NEXT: movl %ecx, %ebp
; CHECK-NEXT: movl %edx, %r14d
; CHECK-NEXT: movl %edi, %ebx
; CHECK-NEXT: movzwl %si, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: punpcklqdq (%rsp), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r14w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
Show All 10 Lines
; CHECK-NEXT: pcmpeqd %xmm4, %xmm3		; CHECK-NEXT: pcmpeqd %xmm4, %xmm3
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
; CHECK-NEXT: pand %xmm6, %xmm3		; CHECK-NEXT: pand %xmm6, %xmm3
; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; CHECK-NEXT: por %xmm3, %xmm5		; CHECK-NEXT: por %xmm3, %xmm5
; CHECK-NEXT: pand %xmm5, %xmm0		; CHECK-NEXT: pand %xmm5, %xmm0
; CHECK-NEXT: pandn %xmm1, %xmm5		; CHECK-NEXT: pandn %xmm1, %xmm5
; CHECK-NEXT: por %xmm0, %xmm5		; CHECK-NEXT: por %xmm0, %xmm5
; CHECK-NEXT: movdqa (%rsp), %xmm6 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm6 # 16-byte Reload
; CHECK-NEXT: pxor %xmm6, %xmm2		; CHECK-NEXT: pxor %xmm6, %xmm2
; CHECK-NEXT: movdqa %xmm4, %xmm0		; CHECK-NEXT: movdqa %xmm4, %xmm0
; CHECK-NEXT: pcmpgtd %xmm2, %xmm0		; CHECK-NEXT: pcmpgtd %xmm2, %xmm0
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm0[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm0[0,0,2,2]
; CHECK-NEXT: pcmpeqd %xmm4, %xmm2		; CHECK-NEXT: pcmpeqd %xmm4, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-NEXT: pand %xmm3, %xmm2		; CHECK-NEXT: pand %xmm3, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm0		; CHECK-NEXT: por %xmm2, %xmm0
; CHECK-NEXT: pand %xmm0, %xmm6		; CHECK-NEXT: pand %xmm0, %xmm6
; CHECK-NEXT: pandn %xmm1, %xmm0		; CHECK-NEXT: pandn %xmm1, %xmm0
; CHECK-NEXT: por %xmm6, %xmm0		; CHECK-NEXT: por %xmm6, %xmm0
; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
; CHECK-NEXT: addq $32, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui <4 x half> %x to <4 x i64>		%conv = fptoui <4 x half> %x to <4 x i64>
%0 = icmp ult <4 x i64> %conv, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>		%0 = icmp ult <4 x i64> %conv, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>
%spec.store.select = select <4 x i1> %0, <4 x i64> %conv, <4 x i64> <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>		%spec.store.select = select <4 x i1> %0, <4 x i64> %conv, <4 x i64> <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>
%conv6 = trunc <4 x i64> %spec.store.select to <4 x i32>		%conv6 = trunc <4 x i64> %spec.store.select to <4 x i32>
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @ustest_f16i32(<4 x half> %x) {		define <4 x i32> @ustest_f16i32(<4 x half> %x) {
; CHECK-LABEL: ustest_f16i32:		; CHECK-LABEL: ustest_f16i32:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Is the vector <4 x half> split to 4 scalar and pass by xmm? What's the ABI for vector half? Is there any case that test the scenario that run out of register and pass parameter through stack? LuoYuanke: Is the vector <4 x half> split to 4 scalar and pass by xmm? What's the ABI for vector half? Is…
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Good question! Previously, I discussed with GCC folks we won't support vector in emulation. I expected the FE with pass whole vector through stack. So a vector in IR is illegal to ABI and can be splited. But seems GCC passes it by vector register. https://godbolt.org/z/a67rMhTW6 I'll double confirm with GCC folks. pengfei: Good question! Previously, I discussed with GCC folks we won't support vector in emulation. I…
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Discussed with GCC folks today. We should support the vector ABI. But we have to adding more patterns to support load/store etc. operations for vector type. I'd like to address this as a follow up. pengfei: Discussed with GCC folks today. We should support the vector ABI. But we have to adding more…
		pengfeiAuthorUnsubmitted Done Reply Inline Actions Addressed by D127982. pengfei: Addressed by D127982.
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movaps %xmm3, %xmm0
; CHECK-NEXT: subq $32, %rsp		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 64		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: .cfi_offset %rbx, -32		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: .cfi_offset %r14, -24		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: .cfi_offset %rbp, -16		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: movl %edx, %ebp		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: movl %esi, %ebx		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movl %edi, %r14d
; CHECK-NEXT: movzwl %cx, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq (%rsp), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r14w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm3		; CHECK-NEXT: movq %rax, %xmm3
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload
; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]		; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,4294967295]		; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,4294967295]
; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm3, %xmm1		; CHECK-NEXT: movdqa %xmm3, %xmm1
; CHECK-NEXT: pxor %xmm0, %xmm1		; CHECK-NEXT: pxor %xmm0, %xmm1
; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [2147483647,2147483647]		; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [2147483647,2147483647]
; CHECK-NEXT: movdqa %xmm4, %xmm5		; CHECK-NEXT: movdqa %xmm4, %xmm5
; CHECK-NEXT: pcmpgtd %xmm1, %xmm5		; CHECK-NEXT: pcmpgtd %xmm1, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; CHECK-NEXT: pcmpeqd %xmm4, %xmm1		; CHECK-NEXT: pcmpeqd %xmm4, %xmm1
; CHECK-NEXT: pshufd {{.*#+}} xmm7 = xmm1[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm7 = xmm1[1,1,3,3]
; CHECK-NEXT: pand %xmm6, %xmm7		; CHECK-NEXT: pand %xmm6, %xmm7
; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm5[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm5[1,1,3,3]
; CHECK-NEXT: por %xmm7, %xmm1		; CHECK-NEXT: por %xmm7, %xmm1
; CHECK-NEXT: pand %xmm1, %xmm3		; CHECK-NEXT: pand %xmm1, %xmm3
; CHECK-NEXT: pandn %xmm2, %xmm1		; CHECK-NEXT: pandn %xmm2, %xmm1
; CHECK-NEXT: por %xmm3, %xmm1		; CHECK-NEXT: por %xmm3, %xmm1
; CHECK-NEXT: movdqa (%rsp), %xmm7 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 16-byte Reload
; CHECK-NEXT: movdqa %xmm7, %xmm3		; CHECK-NEXT: movdqa %xmm7, %xmm3
; CHECK-NEXT: pxor %xmm0, %xmm3		; CHECK-NEXT: pxor %xmm0, %xmm3
; CHECK-NEXT: movdqa %xmm4, %xmm5		; CHECK-NEXT: movdqa %xmm4, %xmm5
; CHECK-NEXT: pcmpgtd %xmm3, %xmm5		; CHECK-NEXT: pcmpgtd %xmm3, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; CHECK-NEXT: pcmpeqd %xmm4, %xmm3		; CHECK-NEXT: pcmpeqd %xmm4, %xmm3
; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
; CHECK-NEXT: pand %xmm6, %xmm3		; CHECK-NEXT: pand %xmm6, %xmm3
Show All 19 Lines
; CHECK-NEXT: pcmpgtd %xmm0, %xmm4		; CHECK-NEXT: pcmpgtd %xmm0, %xmm4
; CHECK-NEXT: pcmpeqd %xmm0, %xmm2		; CHECK-NEXT: pcmpeqd %xmm0, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-NEXT: pand %xmm4, %xmm2		; CHECK-NEXT: pand %xmm4, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm0		; CHECK-NEXT: por %xmm2, %xmm0
; CHECK-NEXT: pand %xmm1, %xmm0		; CHECK-NEXT: pand %xmm1, %xmm0
; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]
; CHECK-NEXT: addq $32, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <4 x half> %x to <4 x i64>		%conv = fptosi <4 x half> %x to <4 x i64>
%0 = icmp slt <4 x i64> %conv, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>		%0 = icmp slt <4 x i64> %conv, <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>
%spec.store.select = select <4 x i1> %0, <4 x i64> %conv, <4 x i64> <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>		%spec.store.select = select <4 x i1> %0, <4 x i64> %conv, <4 x i64> <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>
%1 = icmp sgt <4 x i64> %spec.store.select, zeroinitializer		%1 = icmp sgt <4 x i64> %spec.store.select, zeroinitializer
%spec.store.select7 = select <4 x i1> %1, <4 x i64> %spec.store.select, <4 x i64> zeroinitializer		%spec.store.select7 = select <4 x i1> %1, <4 x i64> %spec.store.select, <4 x i64> zeroinitializer
▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines	entry:
%spec.store.select7 = select <4 x i1> %1, <4 x i32> %spec.store.select, <4 x i32> zeroinitializer		%spec.store.select7 = select <4 x i1> %1, <4 x i32> %spec.store.select, <4 x i32> zeroinitializer
%conv6 = trunc <4 x i32> %spec.store.select7 to <4 x i16>		%conv6 = trunc <4 x i32> %spec.store.select7 to <4 x i16>
ret <4 x i16> %conv6		ret <4 x i16> %conv6
}		}

define <8 x i16> @stest_f16i16(<8 x half> %x) {		define <8 x i16> @stest_f16i16(<8 x half> %x) {
; CHECK-LABEL: stest_f16i16:		; CHECK-LABEL: stest_f16i16:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 144
; CHECK-NEXT: pushq %r15		; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r13		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 40		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r12		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 48		; CHECK-NEXT: movaps %xmm7, %xmm0
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 128
; CHECK-NEXT: .cfi_offset %rbx, -56
; CHECK-NEXT: .cfi_offset %r12, -48
; CHECK-NEXT: .cfi_offset %r13, -40
; CHECK-NEXT: .cfi_offset %r14, -32
; CHECK-NEXT: .cfi_offset %r15, -24
; CHECK-NEXT: .cfi_offset %rbp, -16
; CHECK-NEXT: movl %r9d, %ebp
; CHECK-NEXT: movl %r8d, %ebx
; CHECK-NEXT: movl %ecx, %r13d
; CHECK-NEXT: movl %edx, %r12d
; CHECK-NEXT: movl %esi, %r15d
; CHECK-NEXT: movl %edi, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r14d
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movl %r14d, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r13w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r12w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r15w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: packssdw {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: packssdw {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: addq $72, %rsp		; CHECK-NEXT: addq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: popq %r12
; CHECK-NEXT: .cfi_def_cfa_offset 40
; CHECK-NEXT: popq %r13
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r15
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <8 x half> %x to <8 x i32>		%conv = fptosi <8 x half> %x to <8 x i32>
%0 = icmp slt <8 x i32> %conv, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>		%0 = icmp slt <8 x i32> %conv, <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>		%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>
%1 = icmp sgt <8 x i32> %spec.store.select, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>		%1 = icmp sgt <8 x i32> %spec.store.select, <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
%spec.store.select7 = select <8 x i1> %1, <8 x i32> %spec.store.select, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>		%spec.store.select7 = select <8 x i1> %1, <8 x i32> %spec.store.select, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>
%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>		%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>
ret <8 x i16> %conv6		ret <8 x i16> %conv6
}		}

define <8 x i16> @utesth_f16i16(<8 x half> %x) {		define <8 x i16> @utesth_f16i16(<8 x half> %x) {
; CHECK-LABEL: utesth_f16i16:		; CHECK-LABEL: utesth_f16i16:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 144
; CHECK-NEXT: pushq %r15		; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r13		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 40		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r12		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 48		; CHECK-NEXT: movaps %xmm7, %xmm0
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 128
; CHECK-NEXT: .cfi_offset %rbx, -56
; CHECK-NEXT: .cfi_offset %r12, -48
; CHECK-NEXT: .cfi_offset %r13, -40
; CHECK-NEXT: .cfi_offset %r14, -32
; CHECK-NEXT: .cfi_offset %r15, -24
; CHECK-NEXT: .cfi_offset %rbp, -16
; CHECK-NEXT: movl %r9d, %ebp
; CHECK-NEXT: movl %r8d, %ebx
; CHECK-NEXT: movl %ecx, %r13d
; CHECK-NEXT: movl %edx, %r12d
; CHECK-NEXT: movl %esi, %r15d
; CHECK-NEXT: movl %edi, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r14d
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movl %r14d, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r13w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r12w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r15w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm1		; CHECK-NEXT: movd %eax, %xmm1
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm1, %xmm3		; CHECK-NEXT: movdqa %xmm1, %xmm3
Show All 11 Lines
; CHECK-NEXT: pand %xmm4, %xmm1		; CHECK-NEXT: pand %xmm4, %xmm1
; CHECK-NEXT: pxor %xmm3, %xmm4		; CHECK-NEXT: pxor %xmm3, %xmm4
; CHECK-NEXT: por %xmm1, %xmm4		; CHECK-NEXT: por %xmm1, %xmm4
; CHECK-NEXT: pslld $16, %xmm4		; CHECK-NEXT: pslld $16, %xmm4
; CHECK-NEXT: psrad $16, %xmm4		; CHECK-NEXT: psrad $16, %xmm4
; CHECK-NEXT: pslld $16, %xmm0		; CHECK-NEXT: pslld $16, %xmm0
; CHECK-NEXT: psrad $16, %xmm0		; CHECK-NEXT: psrad $16, %xmm0
; CHECK-NEXT: packssdw %xmm4, %xmm0		; CHECK-NEXT: packssdw %xmm4, %xmm0
; CHECK-NEXT: addq $72, %rsp		; CHECK-NEXT: addq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: popq %r12
; CHECK-NEXT: .cfi_def_cfa_offset 40
; CHECK-NEXT: popq %r13
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r15
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui <8 x half> %x to <8 x i32>		%conv = fptoui <8 x half> %x to <8 x i32>
%0 = icmp ult <8 x i32> %conv, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>		%0 = icmp ult <8 x i32> %conv, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>		%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
%conv6 = trunc <8 x i32> %spec.store.select to <8 x i16>		%conv6 = trunc <8 x i32> %spec.store.select to <8 x i16>
ret <8 x i16> %conv6		ret <8 x i16> %conv6
}		}

define <8 x i16> @ustest_f16i16(<8 x half> %x) {		define <8 x i16> @ustest_f16i16(<8 x half> %x) {
; CHECK-LABEL: ustest_f16i16:		; CHECK-LABEL: ustest_f16i16:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 144
; CHECK-NEXT: pushq %r15		; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r13		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 40		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r12		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 48		; CHECK-NEXT: movaps %xmm3, %xmm0
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 128
; CHECK-NEXT: .cfi_offset %rbx, -56
; CHECK-NEXT: .cfi_offset %r12, -48
; CHECK-NEXT: .cfi_offset %r13, -40
; CHECK-NEXT: .cfi_offset %r14, -32
; CHECK-NEXT: .cfi_offset %r15, -24
; CHECK-NEXT: .cfi_offset %rbp, -16
; CHECK-NEXT: movl %r9d, %r15d
; CHECK-NEXT: movl %r8d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movl %edx, %ebp
; CHECK-NEXT: movl %esi, %r14d
; CHECK-NEXT: movl %edi, %ebx
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r12d
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r13d
; CHECK-NEXT: movzwl %cx, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r14w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movl %r13d, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movl %r12d, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r15w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [65535,65535,65535,65535]		; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [65535,65535,65535,65535]
; CHECK-NEXT: movdqa %xmm1, %xmm2		; CHECK-NEXT: movdqa %xmm1, %xmm2
Show All 14 Lines
; CHECK-NEXT: movdqa %xmm2, %xmm3		; CHECK-NEXT: movdqa %xmm2, %xmm3
; CHECK-NEXT: pcmpgtd %xmm1, %xmm3		; CHECK-NEXT: pcmpgtd %xmm1, %xmm3
; CHECK-NEXT: pand %xmm2, %xmm3		; CHECK-NEXT: pand %xmm2, %xmm3
; CHECK-NEXT: pslld $16, %xmm3		; CHECK-NEXT: pslld $16, %xmm3
; CHECK-NEXT: psrad $16, %xmm3		; CHECK-NEXT: psrad $16, %xmm3
; CHECK-NEXT: pslld $16, %xmm0		; CHECK-NEXT: pslld $16, %xmm0
; CHECK-NEXT: psrad $16, %xmm0		; CHECK-NEXT: psrad $16, %xmm0
; CHECK-NEXT: packssdw %xmm3, %xmm0		; CHECK-NEXT: packssdw %xmm3, %xmm0
; CHECK-NEXT: addq $72, %rsp		; CHECK-NEXT: addq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: popq %r12
; CHECK-NEXT: .cfi_def_cfa_offset 40
; CHECK-NEXT: popq %r13
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r15
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <8 x half> %x to <8 x i32>		%conv = fptosi <8 x half> %x to <8 x i32>
%0 = icmp slt <8 x i32> %conv, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>		%0 = icmp slt <8 x i32> %conv, <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>		%spec.store.select = select <8 x i1> %0, <8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>
%1 = icmp sgt <8 x i32> %spec.store.select, zeroinitializer		%1 = icmp sgt <8 x i32> %spec.store.select, zeroinitializer
%spec.store.select7 = select <8 x i1> %1, <8 x i32> %spec.store.select, <8 x i32> zeroinitializer		%spec.store.select7 = select <8 x i1> %1, <8 x i32> %spec.store.select, <8 x i32> zeroinitializer
▲ Show 20 Lines • Show All 313 Lines • ▼ Show 20 Lines	entry:
%spec.store.select7 = select <2 x i1> %1, <2 x i128> %spec.store.select, <2 x i128> zeroinitializer		%spec.store.select7 = select <2 x i1> %1, <2 x i128> %spec.store.select, <2 x i128> zeroinitializer
%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>		%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>
ret <2 x i64> %conv6		ret <2 x i64> %conv6
}		}

define <2 x i64> @stest_f16i64(<2 x half> %x) {		define <2 x i64> @stest_f16i64(<2 x half> %x) {
; CHECK-LABEL: stest_f16i64:		; CHECK-LABEL: stest_f16i64:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
		; CHECK-NEXT: .cfi_def_cfa_offset 24
		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: .cfi_offset %rbx, -32		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -24		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: .cfi_offset %rbp, -16		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movl %esi, %r14d		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: movzwl %di, %edi		; CHECK-NEXT: movq %rax, %r14
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: movq %rdx, %rbx
; CHECK-NEXT: callq __fixsfti@PLT		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: movq %rax, %rbx		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: movq %rdx, %rbp		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: movzwl %r14w, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: callq __fixsfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: movabsq $9223372036854775807, %rsi # imm = 0x7FFFFFFFFFFFFFFF		; CHECK-NEXT: movabsq $9223372036854775807, %rsi # imm = 0x7FFFFFFFFFFFFFFF
; CHECK-NEXT: cmpq %rsi, %rax		; CHECK-NEXT: cmpq %rsi, %rax
; CHECK-NEXT: movq %rdx, %rdi		; CHECK-NEXT: movq %rdx, %rdi
; CHECK-NEXT: sbbq $0, %rdi		; CHECK-NEXT: sbbq $0, %rdi
; CHECK-NEXT: cmovgeq %rcx, %rdx		; CHECK-NEXT: cmovgeq %rcx, %rdx
; CHECK-NEXT: cmovgeq %rsi, %rax		; CHECK-NEXT: cmovgeq %rsi, %rax
; CHECK-NEXT: cmpq %rsi, %rbx		; CHECK-NEXT: cmpq %rsi, %r14
; CHECK-NEXT: movq %rbp, %rdi		; CHECK-NEXT: movq %rbx, %rdi
; CHECK-NEXT: sbbq $0, %rdi		; CHECK-NEXT: sbbq $0, %rdi
; CHECK-NEXT: cmovlq %rbp, %rcx		; CHECK-NEXT: cmovlq %rbx, %rcx
; CHECK-NEXT: cmovlq %rbx, %rsi		; CHECK-NEXT: cmovlq %r14, %rsi
; CHECK-NEXT: movabsq $-9223372036854775808, %rdi # imm = 0x8000000000000000		; CHECK-NEXT: movabsq $-9223372036854775808, %r8 # imm = 0x8000000000000000
; CHECK-NEXT: cmpq %rsi, %rdi		; CHECK-NEXT: cmpq %rsi, %r8
; CHECK-NEXT: movq $-1, %rbp
; CHECK-NEXT: movq $-1, %rbx		; CHECK-NEXT: movq $-1, %rbx
; CHECK-NEXT: sbbq %rcx, %rbx		; CHECK-NEXT: movq $-1, %rdi
; CHECK-NEXT: cmovgeq %rdi, %rsi		; CHECK-NEXT: sbbq %rcx, %rdi
; CHECK-NEXT: cmpq %rax, %rdi		; CHECK-NEXT: cmovgeq %r8, %rsi
; CHECK-NEXT: sbbq %rdx, %rbp		; CHECK-NEXT: cmpq %rax, %r8
; CHECK-NEXT: cmovgeq %rdi, %rax		; CHECK-NEXT: sbbq %rdx, %rbx
		; CHECK-NEXT: cmovgeq %r8, %rax
; CHECK-NEXT: movq %rax, %xmm1		; CHECK-NEXT: movq %rax, %xmm1
; CHECK-NEXT: movq %rsi, %xmm0		; CHECK-NEXT: movq %rsi, %xmm0
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: addq $8, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <2 x half> %x to <2 x i128>		%conv = fptosi <2 x half> %x to <2 x i128>
%0 = icmp slt <2 x i128> %conv, <i128 9223372036854775807, i128 9223372036854775807>		%0 = icmp slt <2 x i128> %conv, <i128 9223372036854775807, i128 9223372036854775807>
%spec.store.select = select <2 x i1> %0, <2 x i128> %conv, <2 x i128> <i128 9223372036854775807, i128 9223372036854775807>		%spec.store.select = select <2 x i1> %0, <2 x i128> %conv, <2 x i128> <i128 9223372036854775807, i128 9223372036854775807>
%1 = icmp sgt <2 x i128> %spec.store.select, <i128 -9223372036854775808, i128 -9223372036854775808>		%1 = icmp sgt <2 x i128> %spec.store.select, <i128 -9223372036854775808, i128 -9223372036854775808>
%spec.store.select7 = select <2 x i1> %1, <2 x i128> %spec.store.select, <2 x i128> <i128 -9223372036854775808, i128 -9223372036854775808>		%spec.store.select7 = select <2 x i1> %1, <2 x i128> %spec.store.select, <2 x i128> <i128 -9223372036854775808, i128 -9223372036854775808>
%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>		%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>
ret <2 x i64> %conv6		ret <2 x i64> %conv6
}		}

define <2 x i64> @utesth_f16i64(<2 x half> %x) {		define <2 x i64> @utesth_f16i64(<2 x half> %x) {
; CHECK-LABEL: utesth_f16i64:		; CHECK-LABEL: utesth_f16i64:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
		; CHECK-NEXT: .cfi_def_cfa_offset 24
		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: .cfi_offset %rbx, -32		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -24		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: .cfi_offset %rbp, -16		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movl %edi, %ebp		; CHECK-NEXT: movaps %xmm1, %xmm0
; CHECK-NEXT: movzwl %si, %edi		; CHECK-NEXT: callq __fixunshfti@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: callq __fixunssfti@PLT
; CHECK-NEXT: movq %rax, %rbx		; CHECK-NEXT: movq %rax, %rbx
; CHECK-NEXT: movq %rdx, %r14		; CHECK-NEXT: movq %rdx, %r14
; CHECK-NEXT: movzwl %bp, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __fixunssfti@PLT		; CHECK-NEXT: callq __fixunshfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: cmovneq %rcx, %rax		; CHECK-NEXT: cmovneq %rcx, %rax
; CHECK-NEXT: testq %r14, %r14		; CHECK-NEXT: testq %r14, %r14
; CHECK-NEXT: cmovneq %rcx, %rbx		; CHECK-NEXT: cmovneq %rcx, %rbx
; CHECK-NEXT: movq %rbx, %xmm1		; CHECK-NEXT: movq %rbx, %xmm1
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: addq $8, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui <2 x half> %x to <2 x i128>		%conv = fptoui <2 x half> %x to <2 x i128>
%0 = icmp ult <2 x i128> %conv, <i128 18446744073709551616, i128 18446744073709551616>		%0 = icmp ult <2 x i128> %conv, <i128 18446744073709551616, i128 18446744073709551616>
%spec.store.select = select <2 x i1> %0, <2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>		%spec.store.select = select <2 x i1> %0, <2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>
%conv6 = trunc <2 x i128> %spec.store.select to <2 x i64>		%conv6 = trunc <2 x i128> %spec.store.select to <2 x i64>
ret <2 x i64> %conv6		ret <2 x i64> %conv6
}		}

define <2 x i64> @ustest_f16i64(<2 x half> %x) {		define <2 x i64> @ustest_f16i64(<2 x half> %x) {
; CHECK-LABEL: ustest_f16i64:		; CHECK-LABEL: ustest_f16i64:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
		; CHECK-NEXT: .cfi_def_cfa_offset 24
		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: .cfi_offset %rbx, -32		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -24		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: .cfi_offset %rbp, -16		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movl %esi, %r14d		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: movzwl %di, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: callq __fixsfti@PLT
; CHECK-NEXT: movq %rax, %rbx		; CHECK-NEXT: movq %rax, %rbx
; CHECK-NEXT: movq %rdx, %rbp		; CHECK-NEXT: movq %rdx, %r14
; CHECK-NEXT: movzwl %r14w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __fixsfti@PLT		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: movl $1, %esi		; CHECK-NEXT: movl $1, %esi
; CHECK-NEXT: cmovgq %rsi, %rdx		; CHECK-NEXT: cmovgq %rsi, %rdx
; CHECK-NEXT: cmovgq %rcx, %rax		; CHECK-NEXT: cmovgq %rcx, %rax
; CHECK-NEXT: testq %rbp, %rbp		; CHECK-NEXT: testq %r14, %r14
; CHECK-NEXT: cmovleq %rbp, %rsi		; CHECK-NEXT: cmovleq %r14, %rsi
; CHECK-NEXT: cmovgq %rcx, %rbx		; CHECK-NEXT: cmovgq %rcx, %rbx
; CHECK-NEXT: movq %rbx, %rdi		; CHECK-NEXT: movq %rbx, %rdi
; CHECK-NEXT: negq %rdi		; CHECK-NEXT: negq %rdi
; CHECK-NEXT: movl $0, %edi		; CHECK-NEXT: movl $0, %edi
; CHECK-NEXT: sbbq %rsi, %rdi		; CHECK-NEXT: sbbq %rsi, %rdi
; CHECK-NEXT: cmovgeq %rcx, %rbx		; CHECK-NEXT: cmovgeq %rcx, %rbx
; CHECK-NEXT: movq %rax, %rsi		; CHECK-NEXT: movq %rax, %rsi
; CHECK-NEXT: negq %rsi		; CHECK-NEXT: negq %rsi
; CHECK-NEXT: movl $0, %esi		; CHECK-NEXT: movl $0, %esi
; CHECK-NEXT: sbbq %rdx, %rsi		; CHECK-NEXT: sbbq %rdx, %rsi
; CHECK-NEXT: cmovgeq %rcx, %rax		; CHECK-NEXT: cmovgeq %rcx, %rax
; CHECK-NEXT: movq %rax, %xmm1		; CHECK-NEXT: movq %rax, %xmm1
; CHECK-NEXT: movq %rbx, %xmm0		; CHECK-NEXT: movq %rbx, %xmm0
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: addq $8, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <2 x half> %x to <2 x i128>		%conv = fptosi <2 x half> %x to <2 x i128>
%0 = icmp slt <2 x i128> %conv, <i128 18446744073709551616, i128 18446744073709551616>		%0 = icmp slt <2 x i128> %conv, <i128 18446744073709551616, i128 18446744073709551616>
%spec.store.select = select <2 x i1> %0, <2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>		%spec.store.select = select <2 x i1> %0, <2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>
%1 = icmp sgt <2 x i128> %spec.store.select, zeroinitializer		%1 = icmp sgt <2 x i128> %spec.store.select, zeroinitializer
%spec.store.select7 = select <2 x i1> %1, <2 x i128> %spec.store.select, <2 x i128> zeroinitializer		%spec.store.select7 = select <2 x i1> %1, <2 x i128> %spec.store.select, <2 x i128> zeroinitializer
▲ Show 20 Lines • Show All 382 Lines • ▼ Show 20 Lines	entry:
%spec.store.select7 = call <4 x i64> @llvm.smax.v4i64(<4 x i64> %spec.store.select, <4 x i64> zeroinitializer)		%spec.store.select7 = call <4 x i64> @llvm.smax.v4i64(<4 x i64> %spec.store.select, <4 x i64> zeroinitializer)
%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>		%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @stest_f16i32_mm(<4 x half> %x) {		define <4 x i32> @stest_f16i32_mm(<4 x half> %x) {
; CHECK-LABEL: stest_f16i32_mm:		; CHECK-LABEL: stest_f16i32_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movaps %xmm3, %xmm0
; CHECK-NEXT: subq $32, %rsp		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 64		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: .cfi_offset %rbx, -32		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: .cfi_offset %r14, -24		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: .cfi_offset %rbp, -16		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: movl %edx, %ebp		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: movl %esi, %ebx		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: movl %edi, %r14d
; CHECK-NEXT: movzwl %cx, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq (%rsp), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r14w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm2		; CHECK-NEXT: movq %rax, %xmm2
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload
; CHECK-NEXT: # xmm2 = xmm2[0],mem[0]		; CHECK-NEXT: # xmm2 = xmm2[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm2, %xmm1		; CHECK-NEXT: movdqa %xmm2, %xmm1
; CHECK-NEXT: pxor %xmm0, %xmm1		; CHECK-NEXT: pxor %xmm0, %xmm1
; CHECK-NEXT: movdqa {{.*#+}} xmm3 = [4294967295,4294967295]		; CHECK-NEXT: movdqa {{.*#+}} xmm3 = [4294967295,4294967295]
; CHECK-NEXT: movdqa %xmm3, %xmm4		; CHECK-NEXT: movdqa %xmm3, %xmm4
; CHECK-NEXT: pcmpgtd %xmm1, %xmm4		; CHECK-NEXT: pcmpgtd %xmm1, %xmm4
; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; CHECK-NEXT: pcmpeqd %xmm3, %xmm1		; CHECK-NEXT: pcmpeqd %xmm3, %xmm1
; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm1[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm1[1,1,3,3]
; CHECK-NEXT: pand %xmm5, %xmm6		; CHECK-NEXT: pand %xmm5, %xmm6
; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,1,3,3]
; CHECK-NEXT: por %xmm6, %xmm1		; CHECK-NEXT: por %xmm6, %xmm1
; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [2147483647,2147483647]		; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [2147483647,2147483647]
; CHECK-NEXT: pand %xmm1, %xmm2		; CHECK-NEXT: pand %xmm1, %xmm2
; CHECK-NEXT: pandn %xmm4, %xmm1		; CHECK-NEXT: pandn %xmm4, %xmm1
; CHECK-NEXT: por %xmm2, %xmm1		; CHECK-NEXT: por %xmm2, %xmm1
; CHECK-NEXT: movdqa (%rsp), %xmm7 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 16-byte Reload
; CHECK-NEXT: movdqa %xmm7, %xmm2		; CHECK-NEXT: movdqa %xmm7, %xmm2
; CHECK-NEXT: pxor %xmm0, %xmm2		; CHECK-NEXT: pxor %xmm0, %xmm2
; CHECK-NEXT: movdqa %xmm3, %xmm5		; CHECK-NEXT: movdqa %xmm3, %xmm5
; CHECK-NEXT: pcmpgtd %xmm2, %xmm5		; CHECK-NEXT: pcmpgtd %xmm2, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; CHECK-NEXT: pcmpeqd %xmm3, %xmm2		; CHECK-NEXT: pcmpeqd %xmm3, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-NEXT: pand %xmm6, %xmm2		; CHECK-NEXT: pand %xmm6, %xmm2
Show All 26 Lines
; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm0[1,1,3,3]
; CHECK-NEXT: pand %xmm6, %xmm4		; CHECK-NEXT: pand %xmm6, %xmm4
; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; CHECK-NEXT: por %xmm4, %xmm0		; CHECK-NEXT: por %xmm4, %xmm0
; CHECK-NEXT: pand %xmm0, %xmm1		; CHECK-NEXT: pand %xmm0, %xmm1
; CHECK-NEXT: pandn %xmm2, %xmm0		; CHECK-NEXT: pandn %xmm2, %xmm0
; CHECK-NEXT: por %xmm1, %xmm0		; CHECK-NEXT: por %xmm1, %xmm0
; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm5[0,2]
; CHECK-NEXT: addq $32, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <4 x half> %x to <4 x i64>		%conv = fptosi <4 x half> %x to <4 x i64>
%spec.store.select = call <4 x i64> @llvm.smin.v4i64(<4 x i64> %conv, <4 x i64> <i64 2147483647, i64 2147483647, i64 2147483647, i64 2147483647>)		%spec.store.select = call <4 x i64> @llvm.smin.v4i64(<4 x i64> %conv, <4 x i64> <i64 2147483647, i64 2147483647, i64 2147483647, i64 2147483647>)
%spec.store.select7 = call <4 x i64> @llvm.smax.v4i64(<4 x i64> %spec.store.select, <4 x i64> <i64 -2147483648, i64 -2147483648, i64 -2147483648, i64 -2147483648>)		%spec.store.select7 = call <4 x i64> @llvm.smax.v4i64(<4 x i64> %spec.store.select, <4 x i64> <i64 -2147483648, i64 -2147483648, i64 -2147483648, i64 -2147483648>)
%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>		%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @utesth_f16i32_mm(<4 x half> %x) {		define <4 x i32> @utesth_f16i32_mm(<4 x half> %x) {
; CHECK-LABEL: utesth_f16i32_mm:		; CHECK-LABEL: utesth_f16i32_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movaps %xmm1, %xmm0
; CHECK-NEXT: subq $32, %rsp		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 64
; CHECK-NEXT: .cfi_offset %rbx, -32
; CHECK-NEXT: .cfi_offset %r14, -24
; CHECK-NEXT: .cfi_offset %rbp, -16
; CHECK-NEXT: movl %ecx, %ebp
; CHECK-NEXT: movl %edx, %r14d
; CHECK-NEXT: movl %edi, %ebx
; CHECK-NEXT: movzwl %si, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: punpcklqdq (%rsp), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r14w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-NEXT: cvttss2si %xmm0, %rcx		; CHECK-NEXT: cvttss2si %xmm0, %rcx
; CHECK-NEXT: movq %rax, %rdx		; CHECK-NEXT: movq %rax, %rdx
; CHECK-NEXT: sarq $63, %rdx		; CHECK-NEXT: sarq $63, %rdx
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rax, %rdx		; CHECK-NEXT: orq %rax, %rdx
; CHECK-NEXT: movq %rdx, %xmm0		; CHECK-NEXT: movq %rdx, %xmm0
Show All 10 Lines
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-NEXT: pand %xmm5, %xmm2		; CHECK-NEXT: pand %xmm5, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm4		; CHECK-NEXT: por %xmm2, %xmm4
; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,4294967295]		; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [4294967295,4294967295]
; CHECK-NEXT: pand %xmm4, %xmm0		; CHECK-NEXT: pand %xmm4, %xmm0
; CHECK-NEXT: pandn %xmm2, %xmm4		; CHECK-NEXT: pandn %xmm2, %xmm4
; CHECK-NEXT: por %xmm0, %xmm4		; CHECK-NEXT: por %xmm0, %xmm4
; CHECK-NEXT: movdqa (%rsp), %xmm6 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm6 # 16-byte Reload
; CHECK-NEXT: pxor %xmm6, %xmm1		; CHECK-NEXT: pxor %xmm6, %xmm1
; CHECK-NEXT: movdqa %xmm3, %xmm0		; CHECK-NEXT: movdqa %xmm3, %xmm0
; CHECK-NEXT: pcmpgtd %xmm1, %xmm0		; CHECK-NEXT: pcmpgtd %xmm1, %xmm0
; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,0,2,2]
; CHECK-NEXT: pcmpeqd %xmm3, %xmm1		; CHECK-NEXT: pcmpeqd %xmm3, %xmm1
; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
; CHECK-NEXT: pand %xmm5, %xmm1		; CHECK-NEXT: pand %xmm5, %xmm1
; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
; CHECK-NEXT: por %xmm1, %xmm0		; CHECK-NEXT: por %xmm1, %xmm0
; CHECK-NEXT: pand %xmm0, %xmm6		; CHECK-NEXT: pand %xmm0, %xmm6
; CHECK-NEXT: pandn %xmm2, %xmm0		; CHECK-NEXT: pandn %xmm2, %xmm0
; CHECK-NEXT: por %xmm6, %xmm0		; CHECK-NEXT: por %xmm6, %xmm0
; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]
; CHECK-NEXT: addq $32, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui <4 x half> %x to <4 x i64>		%conv = fptoui <4 x half> %x to <4 x i64>
%spec.store.select = call <4 x i64> @llvm.umin.v4i64(<4 x i64> %conv, <4 x i64> <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>)		%spec.store.select = call <4 x i64> @llvm.umin.v4i64(<4 x i64> %conv, <4 x i64> <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>)
%conv6 = trunc <4 x i64> %spec.store.select to <4 x i32>		%conv6 = trunc <4 x i64> %spec.store.select to <4 x i32>
ret <4 x i32> %conv6		ret <4 x i32> %conv6
}		}

define <4 x i32> @ustest_f16i32_mm(<4 x half> %x) {		define <4 x i32> @ustest_f16i32_mm(<4 x half> %x) {
; CHECK-LABEL: ustest_f16i32_mm:		; CHECK-LABEL: ustest_f16i32_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 80
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movaps %xmm3, %xmm0
; CHECK-NEXT: subq $32, %rsp		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 64
; CHECK-NEXT: .cfi_offset %rbx, -32
; CHECK-NEXT: .cfi_offset %r14, -24
; CHECK-NEXT: .cfi_offset %rbp, -16
; CHECK-NEXT: movl %edx, %ebp
; CHECK-NEXT: movl %esi, %ebx
; CHECK-NEXT: movl %edi, %r14d
; CHECK-NEXT: movzwl %cx, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq (%rsp), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
		; CHECK-NEXT: cvttss2si %xmm0, %rax
		; CHECK-NEXT: movq %rax, %xmm0
		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r14w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movq %rax, %xmm2		; CHECK-NEXT: movq %rax, %xmm2
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload
; CHECK-NEXT: # xmm2 = xmm2[0],mem[0]		; CHECK-NEXT: # xmm2 = xmm2[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm2, %xmm1		; CHECK-NEXT: movdqa %xmm2, %xmm1
; CHECK-NEXT: pxor %xmm0, %xmm1		; CHECK-NEXT: pxor %xmm0, %xmm1
; CHECK-NEXT: movdqa {{.*#+}} xmm3 = [2147483647,2147483647]		; CHECK-NEXT: movdqa {{.*#+}} xmm3 = [2147483647,2147483647]
; CHECK-NEXT: movdqa %xmm3, %xmm4		; CHECK-NEXT: movdqa %xmm3, %xmm4
; CHECK-NEXT: pcmpgtd %xmm1, %xmm4		; CHECK-NEXT: pcmpgtd %xmm1, %xmm4
; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
; CHECK-NEXT: pcmpeqd %xmm3, %xmm1		; CHECK-NEXT: pcmpeqd %xmm3, %xmm1
; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm1[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm1[1,1,3,3]
; CHECK-NEXT: pand %xmm5, %xmm6		; CHECK-NEXT: pand %xmm5, %xmm6
; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm1 = xmm4[1,1,3,3]
; CHECK-NEXT: por %xmm6, %xmm1		; CHECK-NEXT: por %xmm6, %xmm1
; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [4294967295,4294967295]		; CHECK-NEXT: movdqa {{.*#+}} xmm4 = [4294967295,4294967295]
; CHECK-NEXT: pand %xmm1, %xmm2		; CHECK-NEXT: pand %xmm1, %xmm2
; CHECK-NEXT: pandn %xmm4, %xmm1		; CHECK-NEXT: pandn %xmm4, %xmm1
; CHECK-NEXT: por %xmm2, %xmm1		; CHECK-NEXT: por %xmm2, %xmm1
; CHECK-NEXT: movdqa (%rsp), %xmm7 # 16-byte Reload		; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm7 # 16-byte Reload
; CHECK-NEXT: movdqa %xmm7, %xmm2		; CHECK-NEXT: movdqa %xmm7, %xmm2
; CHECK-NEXT: pxor %xmm0, %xmm2		; CHECK-NEXT: pxor %xmm0, %xmm2
; CHECK-NEXT: movdqa %xmm3, %xmm5		; CHECK-NEXT: movdqa %xmm3, %xmm5
; CHECK-NEXT: pcmpgtd %xmm2, %xmm5		; CHECK-NEXT: pcmpgtd %xmm2, %xmm5
; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]		; CHECK-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
; CHECK-NEXT: pcmpeqd %xmm3, %xmm2		; CHECK-NEXT: pcmpeqd %xmm3, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-NEXT: pand %xmm6, %xmm2		; CHECK-NEXT: pand %xmm6, %xmm2
Show All 19 Lines
; CHECK-NEXT: pcmpgtd %xmm0, %xmm3		; CHECK-NEXT: pcmpgtd %xmm0, %xmm3
; CHECK-NEXT: pcmpeqd %xmm0, %xmm2		; CHECK-NEXT: pcmpeqd %xmm0, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
; CHECK-NEXT: pand %xmm3, %xmm2		; CHECK-NEXT: pand %xmm3, %xmm2
; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]		; CHECK-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
; CHECK-NEXT: por %xmm2, %xmm0		; CHECK-NEXT: por %xmm2, %xmm0
; CHECK-NEXT: pand %xmm1, %xmm0		; CHECK-NEXT: pand %xmm1, %xmm0
; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]		; CHECK-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]
; CHECK-NEXT: addq $32, %rsp		; CHECK-NEXT: addq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <4 x half> %x to <4 x i64>		%conv = fptosi <4 x half> %x to <4 x i64>
%spec.store.select = call <4 x i64> @llvm.smin.v4i64(<4 x i64> %conv, <4 x i64> <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>)		%spec.store.select = call <4 x i64> @llvm.smin.v4i64(<4 x i64> %conv, <4 x i64> <i64 4294967295, i64 4294967295, i64 4294967295, i64 4294967295>)
%spec.store.select7 = call <4 x i64> @llvm.smax.v4i64(<4 x i64> %spec.store.select, <4 x i64> zeroinitializer)		%spec.store.select7 = call <4 x i64> @llvm.smax.v4i64(<4 x i64> %spec.store.select, <4 x i64> zeroinitializer)
%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>		%conv6 = trunc <4 x i64> %spec.store.select7 to <4 x i32>
ret <4 x i32> %conv6		ret <4 x i32> %conv6
▲ Show 20 Lines • Show All 143 Lines • ▼ Show 20 Lines	entry:
%spec.store.select7 = call <4 x i32> @llvm.smax.v4i32(<4 x i32> %spec.store.select, <4 x i32> zeroinitializer)		%spec.store.select7 = call <4 x i32> @llvm.smax.v4i32(<4 x i32> %spec.store.select, <4 x i32> zeroinitializer)
%conv6 = trunc <4 x i32> %spec.store.select7 to <4 x i16>		%conv6 = trunc <4 x i32> %spec.store.select7 to <4 x i16>
ret <4 x i16> %conv6		ret <4 x i16> %conv6
}		}

define <8 x i16> @stest_f16i16_mm(<8 x half> %x) {		define <8 x i16> @stest_f16i16_mm(<8 x half> %x) {
; CHECK-LABEL: stest_f16i16_mm:		; CHECK-LABEL: stest_f16i16_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 144
; CHECK-NEXT: pushq %r15		; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r13		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 40		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r12		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 48		; CHECK-NEXT: movaps %xmm7, %xmm0
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 128
; CHECK-NEXT: .cfi_offset %rbx, -56
; CHECK-NEXT: .cfi_offset %r12, -48
; CHECK-NEXT: .cfi_offset %r13, -40
; CHECK-NEXT: .cfi_offset %r14, -32
; CHECK-NEXT: .cfi_offset %r15, -24
; CHECK-NEXT: .cfi_offset %rbp, -16
; CHECK-NEXT: movl %r9d, %ebp
; CHECK-NEXT: movl %r8d, %ebx
; CHECK-NEXT: movl %ecx, %r13d
; CHECK-NEXT: movl %edx, %r12d
; CHECK-NEXT: movl %esi, %r15d
; CHECK-NEXT: movl %edi, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r14d
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movl %r14d, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r13w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r12w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r15w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: packssdw {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: packssdw {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: addq $72, %rsp		; CHECK-NEXT: addq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: popq %r12
; CHECK-NEXT: .cfi_def_cfa_offset 40
; CHECK-NEXT: popq %r13
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r15
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <8 x half> %x to <8 x i32>		%conv = fptosi <8 x half> %x to <8 x i32>
%spec.store.select = call <8 x i32> @llvm.smin.v8i32(<8 x i32> %conv, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>)		%spec.store.select = call <8 x i32> @llvm.smin.v8i32(<8 x i32> %conv, <8 x i32> <i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767, i32 32767>)
%spec.store.select7 = call <8 x i32> @llvm.smax.v8i32(<8 x i32> %spec.store.select, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>)		%spec.store.select7 = call <8 x i32> @llvm.smax.v8i32(<8 x i32> %spec.store.select, <8 x i32> <i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768, i32 -32768>)
%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>		%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>
ret <8 x i16> %conv6		ret <8 x i16> %conv6
}		}

define <8 x i16> @utesth_f16i16_mm(<8 x half> %x) {		define <8 x i16> @utesth_f16i16_mm(<8 x half> %x) {
; CHECK-LABEL: utesth_f16i16_mm:		; CHECK-LABEL: utesth_f16i16_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 144
; CHECK-NEXT: pushq %r15		; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r13		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 40		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r12		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 48		; CHECK-NEXT: movaps %xmm7, %xmm0
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 128
; CHECK-NEXT: .cfi_offset %rbx, -56
; CHECK-NEXT: .cfi_offset %r12, -48
; CHECK-NEXT: .cfi_offset %r13, -40
; CHECK-NEXT: .cfi_offset %r14, -32
; CHECK-NEXT: .cfi_offset %r15, -24
; CHECK-NEXT: .cfi_offset %rbp, -16
; CHECK-NEXT: movl %r9d, %ebp
; CHECK-NEXT: movl %r8d, %ebx
; CHECK-NEXT: movl %ecx, %r13d
; CHECK-NEXT: movl %edx, %r12d
; CHECK-NEXT: movl %esi, %r15d
; CHECK-NEXT: movl %edi, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r14d
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movl %r14d, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r13w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r12w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r15w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %rax		; CHECK-NEXT: cvttss2si %xmm0, %rax
; CHECK-NEXT: movd %eax, %xmm1		; CHECK-NEXT: movd %eax, %xmm1
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]		; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]		; CHECK-NEXT: movdqa {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
; CHECK-NEXT: movdqa %xmm1, %xmm3		; CHECK-NEXT: movdqa %xmm1, %xmm3
Show All 11 Lines
; CHECK-NEXT: pand %xmm4, %xmm1		; CHECK-NEXT: pand %xmm4, %xmm1
; CHECK-NEXT: pxor %xmm3, %xmm4		; CHECK-NEXT: pxor %xmm3, %xmm4
; CHECK-NEXT: por %xmm1, %xmm4		; CHECK-NEXT: por %xmm1, %xmm4
; CHECK-NEXT: pslld $16, %xmm4		; CHECK-NEXT: pslld $16, %xmm4
; CHECK-NEXT: psrad $16, %xmm4		; CHECK-NEXT: psrad $16, %xmm4
; CHECK-NEXT: pslld $16, %xmm0		; CHECK-NEXT: pslld $16, %xmm0
; CHECK-NEXT: psrad $16, %xmm0		; CHECK-NEXT: psrad $16, %xmm0
; CHECK-NEXT: packssdw %xmm4, %xmm0		; CHECK-NEXT: packssdw %xmm4, %xmm0
; CHECK-NEXT: addq $72, %rsp		; CHECK-NEXT: addq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: popq %r12
; CHECK-NEXT: .cfi_def_cfa_offset 40
; CHECK-NEXT: popq %r13
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r15
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui <8 x half> %x to <8 x i32>		%conv = fptoui <8 x half> %x to <8 x i32>
%spec.store.select = call <8 x i32> @llvm.umin.v8i32(<8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>)		%spec.store.select = call <8 x i32> @llvm.umin.v8i32(<8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>)
%conv6 = trunc <8 x i32> %spec.store.select to <8 x i16>		%conv6 = trunc <8 x i32> %spec.store.select to <8 x i16>
ret <8 x i16> %conv6		ret <8 x i16> %conv6
}		}

define <8 x i16> @ustest_f16i16_mm(<8 x half> %x) {		define <8 x i16> @ustest_f16i16_mm(<8 x half> %x) {
; CHECK-LABEL: ustest_f16i16_mm:		; CHECK-LABEL: ustest_f16i16_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp		; CHECK-NEXT: subq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 144
; CHECK-NEXT: pushq %r15		; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r13		; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 40		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: pushq %r12		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: .cfi_def_cfa_offset 48		; CHECK-NEXT: movaps %xmm3, %xmm0
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: subq $72, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 128
; CHECK-NEXT: .cfi_offset %rbx, -56
; CHECK-NEXT: .cfi_offset %r12, -48
; CHECK-NEXT: .cfi_offset %r13, -40
; CHECK-NEXT: .cfi_offset %r14, -32
; CHECK-NEXT: .cfi_offset %r15, -24
; CHECK-NEXT: .cfi_offset %rbp, -16
; CHECK-NEXT: movl %r9d, %r15d
; CHECK-NEXT: movl %r8d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movl %edx, %ebp
; CHECK-NEXT: movl %esi, %r14d
; CHECK-NEXT: movl %edi, %ebx
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r12d
; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r13d
; CHECK-NEXT: movzwl %cx, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bp, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r14w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %bx, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movl %r13d, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movl %r12d, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl %r15w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-NEXT: callq __extendhfsf2@PLT
; CHECK-NEXT: cvttss2si %xmm0, %eax		; CHECK-NEXT: cvttss2si %xmm0, %eax
; CHECK-NEXT: movd %eax, %xmm0		; CHECK-NEXT: movd %eax, %xmm0
; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [65535,65535,65535,65535]		; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [65535,65535,65535,65535]
; CHECK-NEXT: movdqa %xmm1, %xmm2		; CHECK-NEXT: movdqa %xmm1, %xmm2
Show All 14 Lines
; CHECK-NEXT: movdqa %xmm2, %xmm3		; CHECK-NEXT: movdqa %xmm2, %xmm3
; CHECK-NEXT: pcmpgtd %xmm1, %xmm3		; CHECK-NEXT: pcmpgtd %xmm1, %xmm3
; CHECK-NEXT: pand %xmm2, %xmm3		; CHECK-NEXT: pand %xmm2, %xmm3
; CHECK-NEXT: pslld $16, %xmm3		; CHECK-NEXT: pslld $16, %xmm3
; CHECK-NEXT: psrad $16, %xmm3		; CHECK-NEXT: psrad $16, %xmm3
; CHECK-NEXT: pslld $16, %xmm0		; CHECK-NEXT: pslld $16, %xmm0
; CHECK-NEXT: psrad $16, %xmm0		; CHECK-NEXT: psrad $16, %xmm0
; CHECK-NEXT: packssdw %xmm3, %xmm0		; CHECK-NEXT: packssdw %xmm3, %xmm0
; CHECK-NEXT: addq $72, %rsp		; CHECK-NEXT: addq $136, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 56
; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 48
; CHECK-NEXT: popq %r12
; CHECK-NEXT: .cfi_def_cfa_offset 40
; CHECK-NEXT: popq %r13
; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r15
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <8 x half> %x to <8 x i32>		%conv = fptosi <8 x half> %x to <8 x i32>
%spec.store.select = call <8 x i32> @llvm.smin.v8i32(<8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>)		%spec.store.select = call <8 x i32> @llvm.smin.v8i32(<8 x i32> %conv, <8 x i32> <i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535, i32 65535>)
%spec.store.select7 = call <8 x i32> @llvm.smax.v8i32(<8 x i32> %spec.store.select, <8 x i32> zeroinitializer)		%spec.store.select7 = call <8 x i32> @llvm.smax.v8i32(<8 x i32> %spec.store.select, <8 x i32> zeroinitializer)
%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>		%conv6 = trunc <8 x i32> %spec.store.select7 to <8 x i16>
ret <8 x i16> %conv6		ret <8 x i16> %conv6
▲ Show 20 Lines • Show All 327 Lines • ▼ Show 20 Lines	entry:
%spec.store.select7 = call <2 x i128> @llvm.smax.v2i128(<2 x i128> %spec.store.select, <2 x i128> zeroinitializer)		%spec.store.select7 = call <2 x i128> @llvm.smax.v2i128(<2 x i128> %spec.store.select, <2 x i128> zeroinitializer)
%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>		%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>
ret <2 x i64> %conv6		ret <2 x i64> %conv6
}		}

define <2 x i64> @stest_f16i64_mm(<2 x half> %x) {		define <2 x i64> @stest_f16i64_mm(<2 x half> %x) {
; CHECK-LABEL: stest_f16i64_mm:		; CHECK-LABEL: stest_f16i64_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
		; CHECK-NEXT: .cfi_def_cfa_offset 24
		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: .cfi_offset %rbx, -32		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -24		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: .cfi_offset %rbp, -16		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movl %esi, %ebp		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: movzwl %di, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: callq __fixsfti@PLT
; CHECK-NEXT: movq %rax, %rbx		; CHECK-NEXT: movq %rax, %rbx
; CHECK-NEXT: movq %rdx, %r14		; CHECK-NEXT: movq %rdx, %r14
; CHECK-NEXT: movzwl %bp, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __fixsfti@PLT		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF		; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF
; CHECK-NEXT: cmpq %rcx, %rax		; CHECK-NEXT: cmpq %rcx, %rax
; CHECK-NEXT: movq %rcx, %rsi		; CHECK-NEXT: movq %rcx, %rsi
; CHECK-NEXT: cmovbq %rax, %rsi		; CHECK-NEXT: cmovbq %rax, %rsi
; CHECK-NEXT: xorl %edi, %edi		; CHECK-NEXT: xorl %edi, %edi
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: cmovnsq %rcx, %rax		; CHECK-NEXT: cmovnsq %rcx, %rax
; CHECK-NEXT: cmoveq %rsi, %rax		; CHECK-NEXT: cmoveq %rsi, %rax
; CHECK-NEXT: cmovnsq %rdi, %rdx		; CHECK-NEXT: cmovnsq %rdi, %rdx
; CHECK-NEXT: cmpq %rcx, %rbx		; CHECK-NEXT: cmpq %rcx, %rbx
; CHECK-NEXT: movq %rcx, %rsi		; CHECK-NEXT: movq %rcx, %rsi
; CHECK-NEXT: cmovbq %rbx, %rsi		; CHECK-NEXT: cmovbq %rbx, %rsi
; CHECK-NEXT: testq %r14, %r14		; CHECK-NEXT: testq %r14, %r14
; CHECK-NEXT: cmovsq %rbx, %rcx		; CHECK-NEXT: cmovsq %rbx, %rcx
; CHECK-NEXT: cmoveq %rsi, %rcx		; CHECK-NEXT: cmoveq %rsi, %rcx
; CHECK-NEXT: cmovsq %r14, %rdi		; CHECK-NEXT: cmovsq %r14, %rdi
; CHECK-NEXT: testq %rdi, %rdi		; CHECK-NEXT: testq %rdi, %rdi
; CHECK-NEXT: movabsq $-9223372036854775808, %rbp # imm = 0x8000000000000000		; CHECK-NEXT: movabsq $-9223372036854775808, %rbx # imm = 0x8000000000000000
; CHECK-NEXT: movq %rbp, %rsi		; CHECK-NEXT: movq %rbx, %rsi
; CHECK-NEXT: cmovnsq %rcx, %rsi		; CHECK-NEXT: cmovnsq %rcx, %rsi
; CHECK-NEXT: cmpq %rbp, %rcx		; CHECK-NEXT: cmpq %rbx, %rcx
; CHECK-NEXT: cmovbeq %rbp, %rcx		; CHECK-NEXT: cmovbeq %rbx, %rcx
; CHECK-NEXT: cmpq $-1, %rdi		; CHECK-NEXT: cmpq $-1, %rdi
; CHECK-NEXT: cmovneq %rsi, %rcx		; CHECK-NEXT: cmovneq %rsi, %rcx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: movq %rbp, %rsi		; CHECK-NEXT: movq %rbx, %rsi
; CHECK-NEXT: cmovnsq %rax, %rsi		; CHECK-NEXT: cmovnsq %rax, %rsi
; CHECK-NEXT: cmpq %rbp, %rax		; CHECK-NEXT: cmpq %rbx, %rax
; CHECK-NEXT: cmovbeq %rbp, %rax		; CHECK-NEXT: cmovbeq %rbx, %rax
; CHECK-NEXT: cmpq $-1, %rdx		; CHECK-NEXT: cmpq $-1, %rdx
; CHECK-NEXT: cmovneq %rsi, %rax		; CHECK-NEXT: cmovneq %rsi, %rax
; CHECK-NEXT: movq %rax, %xmm1		; CHECK-NEXT: movq %rax, %xmm1
; CHECK-NEXT: movq %rcx, %xmm0		; CHECK-NEXT: movq %rcx, %xmm0
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: addq $8, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <2 x half> %x to <2 x i128>		%conv = fptosi <2 x half> %x to <2 x i128>
%spec.store.select = call <2 x i128> @llvm.smin.v2i128(<2 x i128> %conv, <2 x i128> <i128 9223372036854775807, i128 9223372036854775807>)		%spec.store.select = call <2 x i128> @llvm.smin.v2i128(<2 x i128> %conv, <2 x i128> <i128 9223372036854775807, i128 9223372036854775807>)
%spec.store.select7 = call <2 x i128> @llvm.smax.v2i128(<2 x i128> %spec.store.select, <2 x i128> <i128 -9223372036854775808, i128 -9223372036854775808>)		%spec.store.select7 = call <2 x i128> @llvm.smax.v2i128(<2 x i128> %spec.store.select, <2 x i128> <i128 -9223372036854775808, i128 -9223372036854775808>)
%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>		%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>
ret <2 x i64> %conv6		ret <2 x i64> %conv6
}		}

define <2 x i64> @utesth_f16i64_mm(<2 x half> %x) {		define <2 x i64> @utesth_f16i64_mm(<2 x half> %x) {
; CHECK-LABEL: utesth_f16i64_mm:		; CHECK-LABEL: utesth_f16i64_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
		; CHECK-NEXT: .cfi_def_cfa_offset 24
		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: .cfi_offset %rbx, -32		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -24		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: .cfi_offset %rbp, -16		; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movl %edi, %r14d		; CHECK-NEXT: movaps %xmm1, %xmm0
; CHECK-NEXT: movzwl %si, %edi		; CHECK-NEXT: callq __fixunshfti@PLT
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: callq __fixunssfti@PLT
; CHECK-NEXT: movq %rax, %rbx		; CHECK-NEXT: movq %rax, %rbx
; CHECK-NEXT: movq %rdx, %rbp		; CHECK-NEXT: movq %rdx, %r14
; CHECK-NEXT: movzwl %r14w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __fixunssfti@PLT		; CHECK-NEXT: callq __fixunshfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: cmovneq %rcx, %rax		; CHECK-NEXT: cmovneq %rcx, %rax
; CHECK-NEXT: cmpq $1, %rdx		; CHECK-NEXT: cmpq $1, %rdx
; CHECK-NEXT: cmoveq %rcx, %rax		; CHECK-NEXT: cmoveq %rcx, %rax
; CHECK-NEXT: testq %rbp, %rbp		; CHECK-NEXT: testq %r14, %r14
; CHECK-NEXT: cmovneq %rcx, %rbx		; CHECK-NEXT: cmovneq %rcx, %rbx
; CHECK-NEXT: cmpq $1, %rbp		; CHECK-NEXT: cmpq $1, %r14
; CHECK-NEXT: cmoveq %rcx, %rbx		; CHECK-NEXT: cmoveq %rcx, %rbx
; CHECK-NEXT: movq %rbx, %xmm1		; CHECK-NEXT: movq %rbx, %xmm1
; CHECK-NEXT: movq %rax, %xmm0		; CHECK-NEXT: movq %rax, %xmm0
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: addq $8, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptoui <2 x half> %x to <2 x i128>		%conv = fptoui <2 x half> %x to <2 x i128>
%spec.store.select = call <2 x i128> @llvm.umin.v2i128(<2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>)		%spec.store.select = call <2 x i128> @llvm.umin.v2i128(<2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>)
%conv6 = trunc <2 x i128> %spec.store.select to <2 x i64>		%conv6 = trunc <2 x i128> %spec.store.select to <2 x i64>
ret <2 x i64> %conv6		ret <2 x i64> %conv6
}		}

define <2 x i64> @ustest_f16i64_mm(<2 x half> %x) {		define <2 x i64> @ustest_f16i64_mm(<2 x half> %x) {
; CHECK-LABEL: ustest_f16i64_mm:		; CHECK-LABEL: ustest_f16i64_mm:
; CHECK: # %bb.0: # %entry		; CHECK: # %bb.0: # %entry
; CHECK-NEXT: pushq %rbp
; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %r14		; CHECK-NEXT: pushq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: pushq %rbx		; CHECK-NEXT: pushq %rbx
		; CHECK-NEXT: .cfi_def_cfa_offset 24
		; CHECK-NEXT: pushq %rax
; CHECK-NEXT: .cfi_def_cfa_offset 32		; CHECK-NEXT: .cfi_def_cfa_offset 32
; CHECK-NEXT: .cfi_offset %rbx, -32		; CHECK-NEXT: .cfi_offset %rbx, -24
; CHECK-NEXT: .cfi_offset %r14, -24		; CHECK-NEXT: .cfi_offset %r14, -16
; CHECK-NEXT: .cfi_offset %rbp, -16		; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-NEXT: movl %esi, %r14d		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: movzwl %di, %edi
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-NEXT: callq __fixsfti@PLT
; CHECK-NEXT: movq %rax, %rbx		; CHECK-NEXT: movq %rax, %rbx
; CHECK-NEXT: movq %rdx, %rbp		; CHECK-NEXT: movq %rdx, %r14
; CHECK-NEXT: movzwl %r14w, %edi		; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
; CHECK-NEXT: callq __fixsfti@PLT		; CHECK-NEXT: callq __fixhfti@PLT
; CHECK-NEXT: xorl %ecx, %ecx		; CHECK-NEXT: xorl %ecx, %ecx
; CHECK-NEXT: testq %rdx, %rdx		; CHECK-NEXT: testq %rdx, %rdx
; CHECK-NEXT: movl $1, %esi		; CHECK-NEXT: movl $1, %esi
; CHECK-NEXT: movl $1, %edi		; CHECK-NEXT: movl $1, %edi
; CHECK-NEXT: cmovleq %rdx, %rdi		; CHECK-NEXT: cmovleq %rdx, %rdi
; CHECK-NEXT: cmovgq %rcx, %rax		; CHECK-NEXT: cmovgq %rcx, %rax
; CHECK-NEXT: cmpq $1, %rdx		; CHECK-NEXT: cmpq $1, %rdx
; CHECK-NEXT: cmoveq %rcx, %rax		; CHECK-NEXT: cmoveq %rcx, %rax
; CHECK-NEXT: testq %rbp, %rbp		; CHECK-NEXT: testq %r14, %r14
; CHECK-NEXT: cmovleq %rbp, %rsi		; CHECK-NEXT: cmovleq %r14, %rsi
; CHECK-NEXT: cmovgq %rcx, %rbx		; CHECK-NEXT: cmovgq %rcx, %rbx
; CHECK-NEXT: cmpq $1, %rbp		; CHECK-NEXT: cmpq $1, %r14
; CHECK-NEXT: cmoveq %rcx, %rbx		; CHECK-NEXT: cmoveq %rcx, %rbx
; CHECK-NEXT: testq %rsi, %rsi		; CHECK-NEXT: testq %rsi, %rsi
; CHECK-NEXT: cmovsq %rcx, %rbx		; CHECK-NEXT: cmovsq %rcx, %rbx
; CHECK-NEXT: testq %rdi, %rdi		; CHECK-NEXT: testq %rdi, %rdi
; CHECK-NEXT: cmovsq %rcx, %rax		; CHECK-NEXT: cmovsq %rcx, %rax
; CHECK-NEXT: movq %rax, %xmm1		; CHECK-NEXT: movq %rax, %xmm1
; CHECK-NEXT: movq %rbx, %xmm0		; CHECK-NEXT: movq %rbx, %xmm0
; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-NEXT: popq %rbx		; CHECK-NEXT: addq $8, %rsp
; CHECK-NEXT: .cfi_def_cfa_offset 24		; CHECK-NEXT: .cfi_def_cfa_offset 24
; CHECK-NEXT: popq %r14		; CHECK-NEXT: popq %rbx
; CHECK-NEXT: .cfi_def_cfa_offset 16		; CHECK-NEXT: .cfi_def_cfa_offset 16
; CHECK-NEXT: popq %rbp		; CHECK-NEXT: popq %r14
; CHECK-NEXT: .cfi_def_cfa_offset 8		; CHECK-NEXT: .cfi_def_cfa_offset 8
; CHECK-NEXT: retq		; CHECK-NEXT: retq
entry:		entry:
%conv = fptosi <2 x half> %x to <2 x i128>		%conv = fptosi <2 x half> %x to <2 x i128>
%spec.store.select = call <2 x i128> @llvm.smin.v2i128(<2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>)		%spec.store.select = call <2 x i128> @llvm.smin.v2i128(<2 x i128> %conv, <2 x i128> <i128 18446744073709551616, i128 18446744073709551616>)
%spec.store.select7 = call <2 x i128> @llvm.smax.v2i128(<2 x i128> %spec.store.select, <2 x i128> zeroinitializer)		%spec.store.select7 = call <2 x i128> @llvm.smax.v2i128(<2 x i128> %spec.store.select, <2 x i128> zeroinitializer)
%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>		%conv6 = trunc <2 x i128> %spec.store.select7 to <2 x i64>
ret <2 x i64> %conv6		ret <2 x i64> %conv6
Show All 20 Lines

llvm/test/CodeGen/X86/fptosi-sat-scalar.ll

	Show First 20 Lines • Show All 2,103 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: movl %ecx, %eax			; X86-X87-NEXT: movl %ecx, %eax
	; X86-X87-NEXT: addl $24, %esp			; X86-X87-NEXT: addl $24, %esp
	; X86-X87-NEXT: popl %ebx			; X86-X87-NEXT: popl %ebx
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_signed_i1_f16:			; X86-SSE-LABEL: test_signed_i1_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: maxss {{[0-9]+}}(%esp), %xmm0			; X86-SSE-NEXT: cvttss2si %xmm0, %ecx
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $255, %eax
				; X86-SSE-NEXT: cmovael %ecx, %eax
				; X86-SSE-NEXT: xorl %ecx, %ecx
	; X86-SSE-NEXT: xorps %xmm1, %xmm1			; X86-SSE-NEXT: xorps %xmm1, %xmm1
	; X86-SSE-NEXT: minss %xmm0, %xmm1			; X86-SSE-NEXT: ucomiss %xmm1, %xmm0
	; X86-SSE-NEXT: cvttss2si %xmm1, %eax			; X86-SSE-NEXT: cmoval %ecx, %eax
				; X86-SSE-NEXT: ucomiss %xmm0, %xmm0
				; X86-SSE-NEXT: cmovpl %ecx, %eax
	; X86-SSE-NEXT: # kill: def $al killed $al killed $eax			; X86-SSE-NEXT: # kill: def $al killed $al killed $eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_signed_i1_f16:			; X64-LABEL: test_signed_i1_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT			; X64-NEXT: cvttss2si %xmm0, %ecx
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; X64-NEXT: maxss %xmm0, %xmm1			; X64-NEXT: movl $255, %eax
				LuoYuankeUnsubmitted Not Done Reply Inline Actions It seems less efficient than previous code on NAN, zero handling, but we can improve later. LuoYuanke: It seems less efficient than previous code on NAN, zero handling, but we can improve later.
				pengfeiAuthorUnsubmitted Done Reply Inline Actions Yes. Added FIXMEs. pengfei: Yes. Added FIXMEs.
	; X64-NEXT: xorps %xmm0, %xmm0			; X64-NEXT: cmovael %ecx, %eax
	; X64-NEXT: minss %xmm1, %xmm0			; X64-NEXT: xorl %ecx, %ecx
	; X64-NEXT: cvttss2si %xmm0, %eax			; X64-NEXT: xorps %xmm1, %xmm1
				; X64-NEXT: ucomiss %xmm1, %xmm0
				; X64-NEXT: cmoval %ecx, %eax
				; X64-NEXT: ucomiss %xmm0, %xmm0
				; X64-NEXT: cmovpl %ecx, %eax
	; X64-NEXT: # kill: def $al killed $al killed $eax			; X64-NEXT: # kill: def $al killed $al killed $eax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i1 @llvm.fptosi.sat.i1.f16(half %f)			%x = call i1 @llvm.fptosi.sat.i1.f16(half %f)
	ret i1 %x			ret i1 %x
	}			}

	define i8 @test_signed_i8_f16(half %f) nounwind {			define i8 @test_signed_i8_f16(half %f) nounwind {
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: .LBB21_6:			; X86-X87-NEXT: .LBB21_6:
	; X86-X87-NEXT: movl %ecx, %eax			; X86-X87-NEXT: movl %ecx, %eax
	; X86-X87-NEXT: addl $12, %esp			; X86-X87-NEXT: addl $12, %esp
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_signed_i8_f16:			; X86-SSE-LABEL: test_signed_i8_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: maxss {{[0-9]+}}(%esp), %xmm0			; X86-SSE-NEXT: cvttss2si %xmm0, %eax
	; X86-SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
	; X86-SSE-NEXT: minss %xmm0, %xmm1			; X86-SSE-NEXT: movl $128, %ecx
	; X86-SSE-NEXT: cvttss2si %xmm1, %eax			; X86-SSE-NEXT: cmovael %eax, %ecx
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $127, %edx
				; X86-SSE-NEXT: cmovbel %ecx, %edx
				; X86-SSE-NEXT: xorl %eax, %eax
				; X86-SSE-NEXT: ucomiss %xmm0, %xmm0
				; X86-SSE-NEXT: cmovnpl %edx, %eax
	; X86-SSE-NEXT: # kill: def $al killed $al killed $eax			; X86-SSE-NEXT: # kill: def $al killed $al killed $eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_signed_i8_f16:			; X64-LABEL: test_signed_i8_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: maxss %xmm0, %xmm1
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: minss %xmm1, %xmm0
	; X64-NEXT: cvttss2si %xmm0, %eax			; X64-NEXT: cvttss2si %xmm0, %eax
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $128, %ecx
				; X64-NEXT: cmovael %eax, %ecx
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $127, %edx
				; X64-NEXT: cmovbel %ecx, %edx
				; X64-NEXT: xorl %eax, %eax
				; X64-NEXT: ucomiss %xmm0, %xmm0
				; X64-NEXT: cmovnpl %edx, %eax
	; X64-NEXT: # kill: def $al killed $al killed $eax			; X64-NEXT: # kill: def $al killed $al killed $eax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i8 @llvm.fptosi.sat.i8.f16(half %f)			%x = call i8 @llvm.fptosi.sat.i8.f16(half %f)
	ret i8 %x			ret i8 %x
	}			}

	define i13 @test_signed_i13_f16(half %f) nounwind {			define i13 @test_signed_i13_f16(half %f) nounwind {
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: .LBB22_6:			; X86-X87-NEXT: .LBB22_6:
	; X86-X87-NEXT: movl %ecx, %eax			; X86-X87-NEXT: movl %ecx, %eax
	; X86-X87-NEXT: addl $12, %esp			; X86-X87-NEXT: addl $12, %esp
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_signed_i13_f16:			; X86-SSE-LABEL: test_signed_i13_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: maxss {{[0-9]+}}(%esp), %xmm0			; X86-SSE-NEXT: cvttss2si %xmm0, %eax
	; X86-SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
	; X86-SSE-NEXT: minss %xmm0, %xmm1			; X86-SSE-NEXT: movl $61440, %ecx # imm = 0xF000
	; X86-SSE-NEXT: cvttss2si %xmm1, %eax			; X86-SSE-NEXT: cmovael %eax, %ecx
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $4095, %edx # imm = 0xFFF
				; X86-SSE-NEXT: cmovbel %ecx, %edx
				; X86-SSE-NEXT: xorl %eax, %eax
				; X86-SSE-NEXT: ucomiss %xmm0, %xmm0
				; X86-SSE-NEXT: cmovnpl %edx, %eax
	; X86-SSE-NEXT: # kill: def $ax killed $ax killed $eax			; X86-SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_signed_i13_f16:			; X64-LABEL: test_signed_i13_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: maxss %xmm0, %xmm1
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: minss %xmm1, %xmm0
	; X64-NEXT: cvttss2si %xmm0, %eax			; X64-NEXT: cvttss2si %xmm0, %eax
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $61440, %ecx # imm = 0xF000
				; X64-NEXT: cmovael %eax, %ecx
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $4095, %edx # imm = 0xFFF
				; X64-NEXT: cmovbel %ecx, %edx
				; X64-NEXT: xorl %eax, %eax
				; X64-NEXT: ucomiss %xmm0, %xmm0
				; X64-NEXT: cmovnpl %edx, %eax
	; X64-NEXT: # kill: def $ax killed $ax killed $eax			; X64-NEXT: # kill: def $ax killed $ax killed $eax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i13 @llvm.fptosi.sat.i13.f16(half %f)			%x = call i13 @llvm.fptosi.sat.i13.f16(half %f)
	ret i13 %x			ret i13 %x
	}			}

	define i16 @test_signed_i16_f16(half %f) nounwind {			define i16 @test_signed_i16_f16(half %f) nounwind {
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: .LBB23_6:			; X86-X87-NEXT: .LBB23_6:
	; X86-X87-NEXT: movl %ecx, %eax			; X86-X87-NEXT: movl %ecx, %eax
	; X86-X87-NEXT: addl $12, %esp			; X86-X87-NEXT: addl $12, %esp
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_signed_i16_f16:			; X86-SSE-LABEL: test_signed_i16_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: maxss {{[0-9]+}}(%esp), %xmm0			; X86-SSE-NEXT: cvttss2si %xmm0, %eax
	; X86-SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
	; X86-SSE-NEXT: minss %xmm0, %xmm1			; X86-SSE-NEXT: movl $32768, %ecx # imm = 0x8000
	; X86-SSE-NEXT: cvttss2si %xmm1, %eax			; X86-SSE-NEXT: cmovael %eax, %ecx
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $32767, %edx # imm = 0x7FFF
				; X86-SSE-NEXT: cmovbel %ecx, %edx
				; X86-SSE-NEXT: xorl %eax, %eax
				; X86-SSE-NEXT: ucomiss %xmm0, %xmm0
				; X86-SSE-NEXT: cmovnpl %edx, %eax
	; X86-SSE-NEXT: # kill: def $ax killed $ax killed $eax			; X86-SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_signed_i16_f16:			; X64-LABEL: test_signed_i16_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: maxss %xmm0, %xmm1
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: minss %xmm1, %xmm0
	; X64-NEXT: cvttss2si %xmm0, %eax			; X64-NEXT: cvttss2si %xmm0, %eax
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $32768, %ecx # imm = 0x8000
				; X64-NEXT: cmovael %eax, %ecx
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $32767, %edx # imm = 0x7FFF
				; X64-NEXT: cmovbel %ecx, %edx
				; X64-NEXT: xorl %eax, %eax
				; X64-NEXT: ucomiss %xmm0, %xmm0
				; X64-NEXT: cmovnpl %edx, %eax
	; X64-NEXT: # kill: def $ax killed $ax killed $eax			; X64-NEXT: # kill: def $ax killed $ax killed $eax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i16 @llvm.fptosi.sat.i16.f16(half %f)			%x = call i16 @llvm.fptosi.sat.i16.f16(half %f)
	ret i16 %x			ret i16 %x
	}			}

	define i19 @test_signed_i19_f16(half %f) nounwind {			define i19 @test_signed_i19_f16(half %f) nounwind {
	▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: .LBB24_6:			; X86-X87-NEXT: .LBB24_6:
	; X86-X87-NEXT: movl %ecx, %eax			; X86-X87-NEXT: movl %ecx, %eax
	; X86-X87-NEXT: addl $12, %esp			; X86-X87-NEXT: addl $12, %esp
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_signed_i19_f16:			; X86-SSE-LABEL: test_signed_i19_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; X86-SSE-NEXT: cvttss2si %xmm0, %eax
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $-262144, %ecx # imm = 0xFFFC0000
				; X86-SSE-NEXT: cmovael %eax, %ecx
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $262143, %edx # imm = 0x3FFFF
				; X86-SSE-NEXT: cmovbel %ecx, %edx
	; X86-SSE-NEXT: xorl %eax, %eax			; X86-SSE-NEXT: xorl %eax, %eax
	; X86-SSE-NEXT: ucomiss %xmm0, %xmm0			; X86-SSE-NEXT: ucomiss %xmm0, %xmm0
	; X86-SSE-NEXT: maxss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0			; X86-SSE-NEXT: cmovnpl %edx, %eax
	; X86-SSE-NEXT: minss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
	; X86-SSE-NEXT: cvttss2si %xmm0, %ecx
	; X86-SSE-NEXT: cmovnpl %ecx, %eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_signed_i19_f16:			; X64-LABEL: test_signed_i19_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT			; X64-NEXT: cvttss2si %xmm0, %eax
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $-262144, %ecx # imm = 0xFFFC0000
				; X64-NEXT: cmovael %eax, %ecx
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $262143, %edx # imm = 0x3FFFF
				; X64-NEXT: cmovbel %ecx, %edx
	; X64-NEXT: xorl %eax, %eax			; X64-NEXT: xorl %eax, %eax
	; X64-NEXT: ucomiss %xmm0, %xmm0			; X64-NEXT: ucomiss %xmm0, %xmm0
	; X64-NEXT: maxss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; X64-NEXT: cmovnpl %edx, %eax
	; X64-NEXT: minss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; X64-NEXT: cvttss2si %xmm0, %ecx
	; X64-NEXT: cmovnpl %ecx, %eax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i19 @llvm.fptosi.sat.i19.f16(half %f)			%x = call i19 @llvm.fptosi.sat.i19.f16(half %f)
	ret i19 %x			ret i19 %x
	}			}

	define i32 @test_signed_i32_f16(half %f) nounwind {			define i32 @test_signed_i32_f16(half %f) nounwind {
	; X86-X87-LABEL: test_signed_i32_f16:			; X86-X87-LABEL: test_signed_i32_f16:
	▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: .LBB25_6:			; X86-X87-NEXT: .LBB25_6:
	; X86-X87-NEXT: movl %ecx, %eax			; X86-X87-NEXT: movl %ecx, %eax
	; X86-X87-NEXT: addl $12, %esp			; X86-X87-NEXT: addl $12, %esp
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_signed_i32_f16:			; X86-SSE-LABEL: test_signed_i32_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: cvttss2si %xmm0, %eax			; X86-SSE-NEXT: cvttss2si %xmm0, %eax
	; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0			; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
	; X86-SSE-NEXT: movl $2147483647, %ecx # imm = 0x7FFFFFFF			; X86-SSE-NEXT: movl $-2147483648, %ecx # imm = 0x80000000
	; X86-SSE-NEXT: cmovbel %eax, %ecx			; X86-SSE-NEXT: cmovael %eax, %ecx
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $2147483647, %edx # imm = 0x7FFFFFFF
				; X86-SSE-NEXT: cmovbel %ecx, %edx
	; X86-SSE-NEXT: xorl %eax, %eax			; X86-SSE-NEXT: xorl %eax, %eax
	; X86-SSE-NEXT: ucomiss %xmm0, %xmm0			; X86-SSE-NEXT: ucomiss %xmm0, %xmm0
	; X86-SSE-NEXT: cmovnpl %ecx, %eax			; X86-SSE-NEXT: cmovnpl %edx, %eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_signed_i32_f16:			; X64-LABEL: test_signed_i32_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: cvttss2si %xmm0, %eax			; X64-NEXT: cvttss2si %xmm0, %eax
	; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; X64-NEXT: movl $2147483647, %ecx # imm = 0x7FFFFFFF			; X64-NEXT: movl $-2147483648, %ecx # imm = 0x80000000
	; X64-NEXT: cmovbel %eax, %ecx			; X64-NEXT: cmovael %eax, %ecx
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $2147483647, %edx # imm = 0x7FFFFFFF
				; X64-NEXT: cmovbel %ecx, %edx
	; X64-NEXT: xorl %eax, %eax			; X64-NEXT: xorl %eax, %eax
	; X64-NEXT: ucomiss %xmm0, %xmm0			; X64-NEXT: ucomiss %xmm0, %xmm0
	; X64-NEXT: cmovnpl %ecx, %eax			; X64-NEXT: cmovnpl %edx, %eax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i32 @llvm.fptosi.sat.i32.f16(half %f)			%x = call i32 @llvm.fptosi.sat.i32.f16(half %f)
	ret i32 %x			ret i32 %x
	}			}

	define i50 @test_signed_i50_f16(half %f) nounwind {			define i50 @test_signed_i50_f16(half %f) nounwind {
	; X86-X87-LABEL: test_signed_i50_f16:			; X86-X87-LABEL: test_signed_i50_f16:
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: popl %esi			; X86-X87-NEXT: popl %esi
	; X86-X87-NEXT: popl %edi			; X86-X87-NEXT: popl %edi
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_signed_i50_f16:			; X86-SSE-LABEL: test_signed_i50_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: pushl %esi			; X86-SSE-NEXT: pushl %esi
	; X86-SSE-NEXT: subl $24, %esp			; X86-SSE-NEXT: subl $24, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)			; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: flds {{[0-9]+}}(%esp)			; X86-SSE-NEXT: flds {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: fnstcw {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fnstcw {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: orl $3072, %eax # imm = 0xC00			; X86-SSE-NEXT: orl $3072, %eax # imm = 0xC00
	; X86-SSE-NEXT: movw %ax, {{[0-9]+}}(%esp)			; X86-SSE-NEXT: movw %ax, {{[0-9]+}}(%esp)
	Show All 16 Lines
	; X86-SSE-NEXT: cmovpl %ecx, %edx			; X86-SSE-NEXT: cmovpl %ecx, %edx
	; X86-SSE-NEXT: addl $24, %esp			; X86-SSE-NEXT: addl $24, %esp
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_signed_i50_f16:			; X64-LABEL: test_signed_i50_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: cvttss2si %xmm0, %rax			; X64-NEXT: cvttss2si %xmm0, %rax
	; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; X64-NEXT: movabsq $-562949953421312, %rcx # imm = 0xFFFE000000000000			; X64-NEXT: movabsq $-562949953421312, %rcx # imm = 0xFFFE000000000000
	; X64-NEXT: cmovaeq %rax, %rcx			; X64-NEXT: cmovaeq %rax, %rcx
	; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; X64-NEXT: movabsq $562949953421311, %rdx # imm = 0x1FFFFFFFFFFFF			; X64-NEXT: movabsq $562949953421311, %rdx # imm = 0x1FFFFFFFFFFFF
	; X64-NEXT: cmovbeq %rcx, %rdx			; X64-NEXT: cmovbeq %rcx, %rdx
	; X64-NEXT: xorl %eax, %eax			; X64-NEXT: xorl %eax, %eax
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: popl %esi			; X86-X87-NEXT: popl %esi
	; X86-X87-NEXT: popl %edi			; X86-X87-NEXT: popl %edi
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_signed_i64_f16:			; X86-SSE-LABEL: test_signed_i64_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: pushl %esi			; X86-SSE-NEXT: pushl %esi
	; X86-SSE-NEXT: subl $24, %esp			; X86-SSE-NEXT: subl $24, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)			; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: flds {{[0-9]+}}(%esp)			; X86-SSE-NEXT: flds {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: fnstcw {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fnstcw {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: orl $3072, %eax # imm = 0xC00			; X86-SSE-NEXT: orl $3072, %eax # imm = 0xC00
	; X86-SSE-NEXT: movw %ax, {{[0-9]+}}(%esp)			; X86-SSE-NEXT: movw %ax, {{[0-9]+}}(%esp)
	Show All 16 Lines
	; X86-SSE-NEXT: cmovpl %ecx, %edx			; X86-SSE-NEXT: cmovpl %ecx, %edx
	; X86-SSE-NEXT: addl $24, %esp			; X86-SSE-NEXT: addl $24, %esp
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_signed_i64_f16:			; X64-LABEL: test_signed_i64_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: cvttss2si %xmm0, %rax			; X64-NEXT: cvttss2si %xmm0, %rax
	; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; X64-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF			; X64-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
	; X64-NEXT: cmovbeq %rax, %rcx			; X64-NEXT: cmovaeq %rax, %rcx
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movabsq $9223372036854775807, %rdx # imm = 0x7FFFFFFFFFFFFFFF
				; X64-NEXT: cmovbeq %rcx, %rdx
	; X64-NEXT: xorl %eax, %eax			; X64-NEXT: xorl %eax, %eax
	; X64-NEXT: ucomiss %xmm0, %xmm0			; X64-NEXT: ucomiss %xmm0, %xmm0
	; X64-NEXT: cmovnpq %rcx, %rax			; X64-NEXT: cmovnpq %rdx, %rax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i64 @llvm.fptosi.sat.i64.f16(half %f)			%x = call i64 @llvm.fptosi.sat.i64.f16(half %f)
	ret i64 %x			ret i64 %x
	}			}

	define i100 @test_signed_i100_f16(half %f) nounwind {			define i100 @test_signed_i100_f16(half %f) nounwind {
	; X86-X87-LABEL: test_signed_i100_f16:			; X86-X87-LABEL: test_signed_i100_f16:
	▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	;			;
	; X86-SSE-LABEL: test_signed_i100_f16:			; X86-SSE-LABEL: test_signed_i100_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: pushl %ebp			; X86-SSE-NEXT: pushl %ebp
	; X86-SSE-NEXT: pushl %ebx			; X86-SSE-NEXT: pushl %ebx
	; X86-SSE-NEXT: pushl %edi			; X86-SSE-NEXT: pushl %edi
	; X86-SSE-NEXT: pushl %esi			; X86-SSE-NEXT: pushl %esi
	; X86-SSE-NEXT: subl $44, %esp			; X86-SSE-NEXT: subl $44, %esp
				; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %esi			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: movw %ax, (%esp)
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: leal {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: leal {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: movl %eax, (%esp)
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; X86-SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)			; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: calll __fixsfti			; X86-SSE-NEXT: calll __fixsfti
	; X86-SSE-NEXT: subl $4, %esp			; X86-SSE-NEXT: subl $4, %esp
	Show All 35 Lines
	; X86-SSE-NEXT: popl %edi			; X86-SSE-NEXT: popl %edi
	; X86-SSE-NEXT: popl %ebx			; X86-SSE-NEXT: popl %ebx
	; X86-SSE-NEXT: popl %ebp			; X86-SSE-NEXT: popl %ebp
	; X86-SSE-NEXT: retl $4			; X86-SSE-NEXT: retl $4
	;			;
	; X64-LABEL: test_signed_i100_f16:			; X64-LABEL: test_signed_i100_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: callq __fixsfti@PLT			; X64-NEXT: callq __fixsfti@PLT
	; X64-NEXT: xorl %ecx, %ecx			; X64-NEXT: xorl %ecx, %ecx
	; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; X64-NEXT: # xmm0 = mem[0],zero,zero,zero			; X64-NEXT: # xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; X64-NEXT: cmovbq %rcx, %rax			; X64-NEXT: cmovbq %rcx, %rax
	; X64-NEXT: movabsq $-34359738368, %rsi # imm = 0xFFFFFFF800000000			; X64-NEXT: movabsq $-34359738368, %rsi # imm = 0xFFFFFFF800000000
	▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
	;			;
	; X86-SSE-LABEL: test_signed_i128_f16:			; X86-SSE-LABEL: test_signed_i128_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: pushl %ebp			; X86-SSE-NEXT: pushl %ebp
	; X86-SSE-NEXT: pushl %ebx			; X86-SSE-NEXT: pushl %ebx
	; X86-SSE-NEXT: pushl %edi			; X86-SSE-NEXT: pushl %edi
	; X86-SSE-NEXT: pushl %esi			; X86-SSE-NEXT: pushl %esi
	; X86-SSE-NEXT: subl $44, %esp			; X86-SSE-NEXT: subl $44, %esp
				; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %esi			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: movw %ax, (%esp)
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: leal {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: leal {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: movl %eax, (%esp)
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; X86-SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)			; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: calll __fixsfti			; X86-SSE-NEXT: calll __fixsfti
	; X86-SSE-NEXT: subl $4, %esp			; X86-SSE-NEXT: subl $4, %esp
	Show All 31 Lines
	; X86-SSE-NEXT: popl %edi			; X86-SSE-NEXT: popl %edi
	; X86-SSE-NEXT: popl %ebx			; X86-SSE-NEXT: popl %ebx
	; X86-SSE-NEXT: popl %ebp			; X86-SSE-NEXT: popl %ebp
	; X86-SSE-NEXT: retl $4			; X86-SSE-NEXT: retl $4
	;			;
	; X64-LABEL: test_signed_i128_f16:			; X64-LABEL: test_signed_i128_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: callq __fixsfti@PLT			; X64-NEXT: callq __fixsfti@PLT
	; X64-NEXT: xorl %ecx, %ecx			; X64-NEXT: xorl %ecx, %ecx
	; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; X64-NEXT: # xmm0 = mem[0],zero,zero,zero			; X64-NEXT: # xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; X64-NEXT: cmovbq %rcx, %rax			; X64-NEXT: cmovbq %rcx, %rax
	; X64-NEXT: movabsq $-9223372036854775808, %rsi # imm = 0x8000000000000000			; X64-NEXT: movabsq $-9223372036854775808, %rsi # imm = 0x8000000000000000
	▲ Show 20 Lines • Show All 1,366 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/fptosi-sat-vector-128.ll

	Show First 20 Lines • Show All 536 Lines • ▼ Show 20 Lines
	declare <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half>)			declare <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half>)
	declare <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half>)			declare <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half>)
	declare <8 x i128> @llvm.fptosi.sat.v8i128.v8f16(<8 x half>)			declare <8 x i128> @llvm.fptosi.sat.v8i128.v8f16(<8 x half>)

	define <8 x i1> @test_signed_v8i1_v8f16(<8 x half> %f) nounwind {			define <8 x i1> @test_signed_v8i1_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i1_v8f16:			; CHECK-LABEL: test_signed_v8i1_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $72, %rsp			; CHECK-NEXT: subq $136, %rsp
	; CHECK-NEXT: movl %r9d, %ebp			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, %ebx			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %ecx, %r13d			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, %r12d			; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %esi, %r15d			; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edi, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r14d			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %edi			; CHECK-NEXT: movaps %xmm7, %xmm0
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: xorps %xmm0, %xmm0
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: movl $65535, %ebp # imm = 0xFFFF
				; CHECK-NEXT: cmovbl %ebp, %eax
				; CHECK-NEXT: xorl %ebx, %ebx
				; CHECK-NEXT: xorps %xmm1, %xmm1
				; CHECK-NEXT: ucomiss %xmm1, %xmm0
				; CHECK-NEXT: cmoval %ebx, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl %r14d, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: xorps %xmm0, %xmm0
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebp, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebx, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bp, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: xorps %xmm0, %xmm0
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebp, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebx, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bx, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: xorps %xmm0, %xmm0
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebp, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebx, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r13w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: xorps %xmm0, %xmm0
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebp, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebx, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r12w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: xorps %xmm0, %xmm0
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebp, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebx, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r15w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: xorps %xmm0, %xmm0
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebp, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebx, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: xorps %xmm0, %xmm0
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebp, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebx, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: addq $72, %rsp			; CHECK-NEXT: addq $136, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> %f)			%x = call <8 x i1> @llvm.fptosi.sat.v8i1.v8f16(<8 x half> %f)
	ret <8 x i1> %x			ret <8 x i1> %x
	}			}

	define <8 x i8> @test_signed_v8i8_v8f16(<8 x half> %f) nounwind {			define <8 x i8> @test_signed_v8i8_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i8_v8f16:			; CHECK-LABEL: test_signed_v8i8_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15			; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12			; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $40, %rsp			; CHECK-NEXT: subq $48, %rsp
	; CHECK-NEXT: movl %r9d, %r13d			; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, %r14d			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %esi, %ebp			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edi, %r15d			; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax			; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax			; CHECK-NEXT: movaps %xmm3, %xmm0
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movzwl %cx, %edi			; CHECK-NEXT: cvttss2si %xmm0, %ebp
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: movl $128, %r14d
	; CHECK-NEXT: maxss %xmm0, %xmm1			; CHECK-NEXT: cmovbl %r14d, %ebp
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: minss %xmm1, %xmm0			; CHECK-NEXT: movl $127, %r12d
	; CHECK-NEXT: cvttss2si %xmm0, %r12d			; CHECK-NEXT: cmoval %r12d, %ebp
	; CHECK-NEXT: shll $8, %r12d			; CHECK-NEXT: xorl %r15d, %r15d
	; CHECK-NEXT: movzwl %r14w, %edi			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: cmovpl %r15d, %ebp
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: shll $8, %ebp
	; CHECK-NEXT: maxss %xmm0, %xmm1			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r12d, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %r15d, %eax
	; CHECK-NEXT: movzbl %al, %ebx			; CHECK-NEXT: movzbl %al, %ebx
	; CHECK-NEXT: orl %r12d, %ebx			; CHECK-NEXT: orl %ebp, %ebx
	; CHECK-NEXT: movzwl %bp, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %ebp			; CHECK-NEXT: cvttss2si %xmm0, %ebp
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %ebp
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r12d, %ebp
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %r15d, %ebp
	; CHECK-NEXT: shll $8, %ebp			; CHECK-NEXT: shll $8, %ebp
	; CHECK-NEXT: movzwl %r15w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r12d, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: movzbl %al, %eax
	; CHECK-NEXT: orl %ebp, %eax			; CHECK-NEXT: orl %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: pinsrw $1, %ebx, %xmm0			; CHECK-NEXT: pinsrw $1, %ebx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r13w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %ebx			; CHECK-NEXT: cvttss2si %xmm0, %ebx
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %ebx
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r12d, %ebx
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %r15d, %ebx
	; CHECK-NEXT: shll $8, %ebx			; CHECK-NEXT: shll $8, %ebx
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r12d, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: movzbl %al, %eax
	; CHECK-NEXT: orl %ebx, %eax			; CHECK-NEXT: orl %ebx, %eax
	; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: pinsrw $2, %eax, %xmm0			; CHECK-NEXT: pinsrw $2, %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %ebx			; CHECK-NEXT: cvttss2si %xmm0, %ebx
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %ebx
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r12d, %ebx
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %r15d, %ebx
	; CHECK-NEXT: shll $8, %ebx			; CHECK-NEXT: shll $8, %ebx
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r12d, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: movzbl %al, %eax
	; CHECK-NEXT: orl %ebx, %eax			; CHECK-NEXT: orl %ebx, %eax
	; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: pinsrw $3, %eax, %xmm0			; CHECK-NEXT: pinsrw $3, %eax, %xmm0
	; CHECK-NEXT: addq $40, %rsp			; CHECK-NEXT: addq $48, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12			; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15			; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> %f)			%x = call <8 x i8> @llvm.fptosi.sat.v8i8.v8f16(<8 x half> %f)
	ret <8 x i8> %x			ret <8 x i8> %x
	}			}

	define <8 x i16> @test_signed_v8i16_v8f16(<8 x half> %f) nounwind {			define <8 x i16> @test_signed_v8i16_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i16_v8f16:			; CHECK-LABEL: test_signed_v8i16_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $72, %rsp			; CHECK-NEXT: subq $128, %rsp
	; CHECK-NEXT: movl %r9d, %ebp			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, %ebx			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %ecx, %r13d			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, %r12d			; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %esi, %r15d			; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edi, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r14d			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %edi			; CHECK-NEXT: movaps %xmm7, %xmm0
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: movl $32768, %r14d # imm = 0x8000
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: movl $32767, %ebp # imm = 0x7FFF
				; CHECK-NEXT: cmoval %ebp, %eax
				; CHECK-NEXT: xorl %ebx, %ebx
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl %r14d, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bp, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bx, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r13w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r12w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r15w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
				; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: addq $72, %rsp			; CHECK-NEXT: addq $128, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> %f)			%x = call <8 x i16> @llvm.fptosi.sat.v8i16.v8f16(<8 x half> %f)
	ret <8 x i16> %x			ret <8 x i16> %x
	}			}

	define <8 x i32> @test_signed_v8i32_v8f16(<8 x half> %f) nounwind {			define <8 x i32> @test_signed_v8i32_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i32_v8f16:			; CHECK-LABEL: test_signed_v8i32_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $88, %rsp			; CHECK-NEXT: subq $128, %rsp
	; CHECK-NEXT: movl %r9d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, %r14d			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %esi, %ebp			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edi, %ebx			; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax			; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r13d			; CHECK-NEXT: movaps %xmm3, %xmm0
	; CHECK-NEXT: movzwl %cx, %edi			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $2147483647, %r15d # imm = 0x7FFFFFFF			; CHECK-NEXT: movl $-2147483648, %r14d # imm = 0x80000000
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
	; CHECK-NEXT: xorl %r12d, %r12d			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: movl $2147483647, %ebp # imm = 0x7FFFFFFF
				; CHECK-NEXT: cmoval %ebp, %eax
				; CHECK-NEXT: xorl %ebx, %ebx
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r12d, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r14w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r12d, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bp, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r12d, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bx, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r12d, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl %r13d, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r12d, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r12d, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r12d, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r15d, %eax			; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpl %r12d, %eax			; CHECK-NEXT: cmovpl %ebx, %eax
	; CHECK-NEXT: movd %eax, %xmm1			; CHECK-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]			; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]			; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: addq $88, %rsp			; CHECK-NEXT: addq $128, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> %f)			%x = call <8 x i32> @llvm.fptosi.sat.v8i32.v8f16(<8 x half> %f)
	ret <8 x i32> %x			ret <8 x i32> %x
	}			}

	define <8 x i64> @test_signed_v8i64_v8f16(<8 x half> %f) nounwind {			define <8 x i64> @test_signed_v8i64_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i64_v8f16:			; CHECK-LABEL: test_signed_v8i64_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15			; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $104, %rsp			; CHECK-NEXT: subq $128, %rsp
	; CHECK-NEXT: movl %r9d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %ecx, %r13d			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %esi, %ebp			; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edi, %ebx			; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r14d			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %edi			; CHECK-NEXT: movaps %xmm1, %xmm0
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $9223372036854775807, %r15 # imm = 0x7FFFFFFFFFFFFFFF			; CHECK-NEXT: movabsq $-9223372036854775808, %r14 # imm = 0x8000000000000000
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovbq %r14, %rax
	; CHECK-NEXT: xorl %r12d, %r12d			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: movabsq $9223372036854775807, %rbx # imm = 0x7FFFFFFFFFFFFFFF
				; CHECK-NEXT: cmovaq %rbx, %rax
				; CHECK-NEXT: xorl %r15d, %r15d
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl %r14d, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovbq %r14, %rax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bp, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovbq %r14, %rax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bx, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovbq %r14, %rax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r13w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovbq %r14, %rax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovbq %r14, %rax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovbq %r14, %rax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm0			; CHECK-NEXT: movq %rax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r15, %rax			; CHECK-NEXT: cmovbq %r14, %rax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovaq %rbx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %r12, %rax			; CHECK-NEXT: cmovpq %r15, %rax
	; CHECK-NEXT: movq %rax, %xmm2			; CHECK-NEXT: movq %rax, %xmm3
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm2 = xmm2[0],mem[0]			; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
	; CHECK-NEXT: addq $104, %rsp			; CHECK-NEXT: addq $128, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15			; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> %f)			%x = call <8 x i64> @llvm.fptosi.sat.v8i64.v8f16(<8 x half> %f)
	ret <8 x i64> %x			ret <8 x i64> %x
	}			}

	define <8 x i128> @test_signed_v8i128_v8f16(<8 x half> %f) nounwind {			define <8 x i128> @test_signed_v8i128_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_signed_v8i128_v8f16:			; CHECK-LABEL: test_signed_v8i128_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15			; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13			; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12			; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $88, %rsp			; CHECK-NEXT: subq $88, %rsp
	; CHECK-NEXT: movl %r9d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %ecx, %r14d			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, %r12d			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movq %rdi, %rbx			; CHECK-NEXT: movq %rdi, %rbx
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl %si, %edi
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: xorl %ebp, %ebp			; CHECK-NEXT: xorl %r12d, %r12d
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %rbp, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000			; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
	; CHECK-NEXT: cmovbq %rcx, %rdx			; CHECK-NEXT: cmovbq %rcx, %rdx
	; CHECK-NEXT: movq %rcx, %r13			; CHECK-NEXT: movq %rcx, %r14
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $9223372036854775807, %r15 # imm = 0x7FFFFFFFFFFFFFFF			; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF
	; CHECK-NEXT: cmovaq %r15, %rdx			; CHECK-NEXT: cmovaq %rcx, %rdx
				; CHECK-NEXT: movq %rcx, %rbp
	; CHECK-NEXT: movq $-1, %rcx			; CHECK-NEXT: movq $-1, %rcx
	; CHECK-NEXT: cmovaq %rcx, %rax			; CHECK-NEXT: cmovaq %rcx, %rax
				; CHECK-NEXT: movq $-1, %r15
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %rbp, %rax			; CHECK-NEXT: cmovpq %r12, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovpq %rbp, %rdx			; CHECK-NEXT: cmovpq %r12, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movzwl %r12w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %rbp, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: cmovbq %r13, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r15, %rdx			; CHECK-NEXT: cmovaq %rbp, %rdx
	; CHECK-NEXT: movq $-1, %rcx			; CHECK-NEXT: cmovaq %r15, %rax
	; CHECK-NEXT: cmovaq %rcx, %rax			; CHECK-NEXT: movq $-1, %r15
	; CHECK-NEXT: movq $-1, %r12
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %rbp, %rax			; CHECK-NEXT: cmovpq %r12, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovpq %rbp, %rdx			; CHECK-NEXT: cmovpq %r12, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movzwl %r14w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %rbp, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: cmovbq %r13, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r15, %rdx			; CHECK-NEXT: cmovaq %rbp, %rdx
	; CHECK-NEXT: cmovaq %r12, %rax			; CHECK-NEXT: cmovaq %r15, %rax
	; CHECK-NEXT: movq $-1, %r14			; CHECK-NEXT: movq $-1, %r15
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %rbp, %rax			; CHECK-NEXT: cmovpq %r12, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovpq %rbp, %rdx			; CHECK-NEXT: cmovpq %r12, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %rbp, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: cmovbq %r13, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r15, %rdx			; CHECK-NEXT: cmovaq %rbp, %rdx
	; CHECK-NEXT: cmovaq %r14, %rax			; CHECK-NEXT: movq %rbp, %r13
	; CHECK-NEXT: movq $-1, %r14			; CHECK-NEXT: cmovaq %r15, %rax
				; CHECK-NEXT: movq $-1, %r15
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %rbp, %rax			; CHECK-NEXT: cmovpq %r12, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovpq %rbp, %rdx			; CHECK-NEXT: cmovpq %r12, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movq %rdx, %r12			; CHECK-NEXT: movq %rdx, %rbp
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %rbp, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: cmovbq %r13, %r12			; CHECK-NEXT: cmovbq %r14, %rbp
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r15, %r12			; CHECK-NEXT: cmovaq %r13, %rbp
	; CHECK-NEXT: cmovaq %r14, %rax			; CHECK-NEXT: cmovaq %r15, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %rbp, %rax			; CHECK-NEXT: cmovpq %r12, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovpq %rbp, %r12			; CHECK-NEXT: cmovpq %r12, %rbp
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movq %rax, %r14			; CHECK-NEXT: movq %rax, %r14
	; CHECK-NEXT: movq %rdx, %r15			; CHECK-NEXT: movq %rdx, %r15
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %rbp, %r14			; CHECK-NEXT: cmovbq %r12, %r14
	; CHECK-NEXT: cmovbq %r13, %r15			; CHECK-NEXT: movabsq $-9223372036854775808, %rax # imm = 0x8000000000000000
				; CHECK-NEXT: cmovbq %rax, %r15
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $9223372036854775807, %rax # imm = 0x7FFFFFFFFFFFFFFF			; CHECK-NEXT: cmovaq %r13, %r15
	; CHECK-NEXT: cmovaq %rax, %r15
	; CHECK-NEXT: movq $-1, %rax			; CHECK-NEXT: movq $-1, %rax
	; CHECK-NEXT: cmovaq %rax, %r14			; CHECK-NEXT: cmovaq %rax, %r14
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %rbp, %r14			; CHECK-NEXT: cmovpq %r12, %r14
	; CHECK-NEXT: cmovpq %rbp, %r15			; CHECK-NEXT: cmovpq %r12, %r15
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movq %rax, %r13			; CHECK-NEXT: movq %rax, %r12
	; CHECK-NEXT: movq %rdx, %rbp			; CHECK-NEXT: movq %rdx, %r13
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $0, %eax			; CHECK-NEXT: movl $0, %eax
	; CHECK-NEXT: cmovbq %rax, %r13			; CHECK-NEXT: cmovbq %rax, %r12
	; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000			; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
	; CHECK-NEXT: cmovbq %rcx, %rbp			; CHECK-NEXT: cmovbq %rcx, %r13
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF			; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF
	; CHECK-NEXT: cmovaq %rcx, %rbp
	; CHECK-NEXT: movq $-1, %rcx
	; CHECK-NEXT: cmovaq %rcx, %r13			; CHECK-NEXT: cmovaq %rcx, %r13
				; CHECK-NEXT: movq $-1, %rcx
				; CHECK-NEXT: cmovaq %rcx, %r12
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
				; CHECK-NEXT: cmovpq %rax, %r12
	; CHECK-NEXT: cmovpq %rax, %r13			; CHECK-NEXT: cmovpq %rax, %r13
	; CHECK-NEXT: cmovpq %rax, %rbp			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixsfti@PLT			; CHECK-NEXT: callq __fixsfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000			; CHECK-NEXT: movabsq $-9223372036854775808, %rcx # imm = 0x8000000000000000
	; CHECK-NEXT: cmovbq %rcx, %rdx			; CHECK-NEXT: cmovbq %rcx, %rdx
	; CHECK-NEXT: movl $0, %esi			; CHECK-NEXT: movl $0, %esi
	; CHECK-NEXT: cmovbq %rsi, %rax			; CHECK-NEXT: cmovbq %rsi, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF			; CHECK-NEXT: movabsq $9223372036854775807, %rcx # imm = 0x7FFFFFFFFFFFFFFF
	; CHECK-NEXT: cmovaq %rcx, %rdx			; CHECK-NEXT: cmovaq %rcx, %rdx
	; CHECK-NEXT: movq $-1, %rcx			; CHECK-NEXT: movq $-1, %rcx
	; CHECK-NEXT: cmovaq %rcx, %rax			; CHECK-NEXT: cmovaq %rcx, %rax
	; CHECK-NEXT: ucomiss %xmm0, %xmm0			; CHECK-NEXT: ucomiss %xmm0, %xmm0
	; CHECK-NEXT: cmovpq %rsi, %rax			; CHECK-NEXT: cmovpq %rsi, %rax
	; CHECK-NEXT: movl $0, %ecx			; CHECK-NEXT: movl $0, %ecx
	; CHECK-NEXT: cmovpq %rcx, %rdx			; CHECK-NEXT: cmovpq %rcx, %rdx
	; CHECK-NEXT: movq %rdx, 120(%rbx)			; CHECK-NEXT: movq %rdx, 120(%rbx)
	; CHECK-NEXT: movq %rax, 112(%rbx)			; CHECK-NEXT: movq %rax, 112(%rbx)
	; CHECK-NEXT: movq %rbp, 104(%rbx)			; CHECK-NEXT: movq %r13, 104(%rbx)
	; CHECK-NEXT: movq %r13, 96(%rbx)			; CHECK-NEXT: movq %r12, 96(%rbx)
	; CHECK-NEXT: movq %r15, 88(%rbx)			; CHECK-NEXT: movq %r15, 88(%rbx)
	; CHECK-NEXT: movq %r14, 80(%rbx)			; CHECK-NEXT: movq %r14, 80(%rbx)
	; CHECK-NEXT: movq %r12, 72(%rbx)			; CHECK-NEXT: movq %rbp, 72(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 64(%rbx)			; CHECK-NEXT: movq %rax, 64(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 56(%rbx)			; CHECK-NEXT: movq %rax, 56(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 48(%rbx)			; CHECK-NEXT: movq %rax, 48(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 40(%rbx)			; CHECK-NEXT: movq %rax, 40(%rbx)
	Show All 22 Lines

llvm/test/CodeGen/X86/fptoui-sat-scalar.ll

	Show First 20 Lines • Show All 1,916 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: movl %ecx, %eax			; X86-X87-NEXT: movl %ecx, %eax
	; X86-X87-NEXT: .LBB20_5:			; X86-X87-NEXT: .LBB20_5:
	; X86-X87-NEXT: addl $12, %esp			; X86-X87-NEXT: addl $12, %esp
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_unsigned_i1_f16:			; X86-SSE-LABEL: test_unsigned_i1_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: xorps %xmm0, %xmm0			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: maxss {{[0-9]+}}(%esp), %xmm0			; X86-SSE-NEXT: cvttss2si %xmm0, %eax
	; X86-SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-SSE-NEXT: xorl %ecx, %ecx
	; X86-SSE-NEXT: minss %xmm0, %xmm1			; X86-SSE-NEXT: xorps %xmm1, %xmm1
	; X86-SSE-NEXT: cvttss2si %xmm1, %eax			; X86-SSE-NEXT: ucomiss %xmm1, %xmm0
				; X86-SSE-NEXT: cmovael %eax, %ecx
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $1, %eax
				; X86-SSE-NEXT: cmovbel %ecx, %eax
	; X86-SSE-NEXT: # kill: def $al killed $al killed $eax			; X86-SSE-NEXT: # kill: def $al killed $al killed $eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_unsigned_i1_f16:			; X64-LABEL: test_unsigned_i1_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: xorps %xmm1, %xmm1
	; X64-NEXT: maxss %xmm0, %xmm1
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: minss %xmm1, %xmm0
	; X64-NEXT: cvttss2si %xmm0, %eax			; X64-NEXT: cvttss2si %xmm0, %eax
				; X64-NEXT: xorl %ecx, %ecx
				; X64-NEXT: xorps %xmm1, %xmm1
				; X64-NEXT: ucomiss %xmm1, %xmm0
				; X64-NEXT: cmovael %eax, %ecx
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $1, %eax
				; X64-NEXT: cmovbel %ecx, %eax
	; X64-NEXT: # kill: def $al killed $al killed $eax			; X64-NEXT: # kill: def $al killed $al killed $eax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i1 @llvm.fptoui.sat.i1.f16(half %f)			%x = call i1 @llvm.fptoui.sat.i1.f16(half %f)
	ret i1 %x			ret i1 %x
	}			}

	define i8 @test_unsigned_i8_f16(half %f) nounwind {			define i8 @test_unsigned_i8_f16(half %f) nounwind {
	Show All 36 Lines
	; X86-X87-NEXT: movl %ecx, %eax			; X86-X87-NEXT: movl %ecx, %eax
	; X86-X87-NEXT: .LBB21_5:			; X86-X87-NEXT: .LBB21_5:
	; X86-X87-NEXT: addl $12, %esp			; X86-X87-NEXT: addl $12, %esp
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_unsigned_i8_f16:			; X86-SSE-LABEL: test_unsigned_i8_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: xorps %xmm0, %xmm0			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: maxss {{[0-9]+}}(%esp), %xmm0			; X86-SSE-NEXT: cvttss2si %xmm0, %eax
	; X86-SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-SSE-NEXT: xorl %ecx, %ecx
	; X86-SSE-NEXT: minss %xmm0, %xmm1			; X86-SSE-NEXT: xorps %xmm1, %xmm1
	; X86-SSE-NEXT: cvttss2si %xmm1, %eax			; X86-SSE-NEXT: ucomiss %xmm1, %xmm0
				; X86-SSE-NEXT: cmovael %eax, %ecx
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $255, %eax
				; X86-SSE-NEXT: cmovbel %ecx, %eax
	; X86-SSE-NEXT: # kill: def $al killed $al killed $eax			; X86-SSE-NEXT: # kill: def $al killed $al killed $eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_unsigned_i8_f16:			; X64-LABEL: test_unsigned_i8_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: xorps %xmm1, %xmm1
	; X64-NEXT: maxss %xmm0, %xmm1
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: minss %xmm1, %xmm0
	; X64-NEXT: cvttss2si %xmm0, %eax			; X64-NEXT: cvttss2si %xmm0, %eax
				; X64-NEXT: xorl %ecx, %ecx
				; X64-NEXT: xorps %xmm1, %xmm1
				; X64-NEXT: ucomiss %xmm1, %xmm0
				; X64-NEXT: cmovael %eax, %ecx
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $255, %eax
				; X64-NEXT: cmovbel %ecx, %eax
	; X64-NEXT: # kill: def $al killed $al killed $eax			; X64-NEXT: # kill: def $al killed $al killed $eax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i8 @llvm.fptoui.sat.i8.f16(half %f)			%x = call i8 @llvm.fptoui.sat.i8.f16(half %f)
	ret i8 %x			ret i8 %x
	}			}

	define i13 @test_unsigned_i13_f16(half %f) nounwind {			define i13 @test_unsigned_i13_f16(half %f) nounwind {
	Show All 35 Lines
	; X86-X87-NEXT: .LBB22_4:			; X86-X87-NEXT: .LBB22_4:
	; X86-X87-NEXT: # kill: def $ax killed $ax killed $eax			; X86-X87-NEXT: # kill: def $ax killed $ax killed $eax
	; X86-X87-NEXT: addl $12, %esp			; X86-X87-NEXT: addl $12, %esp
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_unsigned_i13_f16:			; X86-SSE-LABEL: test_unsigned_i13_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: xorps %xmm0, %xmm0			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: maxss {{[0-9]+}}(%esp), %xmm0			; X86-SSE-NEXT: cvttss2si %xmm0, %eax
	; X86-SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-SSE-NEXT: xorl %ecx, %ecx
	; X86-SSE-NEXT: minss %xmm0, %xmm1			; X86-SSE-NEXT: xorps %xmm1, %xmm1
	; X86-SSE-NEXT: cvttss2si %xmm1, %eax			; X86-SSE-NEXT: ucomiss %xmm1, %xmm0
				; X86-SSE-NEXT: cmovael %eax, %ecx
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $8191, %eax # imm = 0x1FFF
				; X86-SSE-NEXT: cmovbel %ecx, %eax
	; X86-SSE-NEXT: # kill: def $ax killed $ax killed $eax			; X86-SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_unsigned_i13_f16:			; X64-LABEL: test_unsigned_i13_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: xorps %xmm1, %xmm1
	; X64-NEXT: maxss %xmm0, %xmm1
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: minss %xmm1, %xmm0
	; X64-NEXT: cvttss2si %xmm0, %eax			; X64-NEXT: cvttss2si %xmm0, %eax
				; X64-NEXT: xorl %ecx, %ecx
				; X64-NEXT: xorps %xmm1, %xmm1
				; X64-NEXT: ucomiss %xmm1, %xmm0
				; X64-NEXT: cmovael %eax, %ecx
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $8191, %eax # imm = 0x1FFF
				; X64-NEXT: cmovbel %ecx, %eax
	; X64-NEXT: # kill: def $ax killed $ax killed $eax			; X64-NEXT: # kill: def $ax killed $ax killed $eax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i13 @llvm.fptoui.sat.i13.f16(half %f)			%x = call i13 @llvm.fptoui.sat.i13.f16(half %f)
	ret i13 %x			ret i13 %x
	}			}

	define i16 @test_unsigned_i16_f16(half %f) nounwind {			define i16 @test_unsigned_i16_f16(half %f) nounwind {
	Show All 35 Lines
	; X86-X87-NEXT: .LBB23_4:			; X86-X87-NEXT: .LBB23_4:
	; X86-X87-NEXT: # kill: def $ax killed $ax killed $eax			; X86-X87-NEXT: # kill: def $ax killed $ax killed $eax
	; X86-X87-NEXT: addl $12, %esp			; X86-X87-NEXT: addl $12, %esp
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_unsigned_i16_f16:			; X86-SSE-LABEL: test_unsigned_i16_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: xorps %xmm0, %xmm0			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: maxss {{[0-9]+}}(%esp), %xmm0			; X86-SSE-NEXT: cvttss2si %xmm0, %eax
	; X86-SSE-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-SSE-NEXT: xorl %ecx, %ecx
	; X86-SSE-NEXT: minss %xmm0, %xmm1			; X86-SSE-NEXT: xorps %xmm1, %xmm1
	; X86-SSE-NEXT: cvttss2si %xmm1, %eax			; X86-SSE-NEXT: ucomiss %xmm1, %xmm0
				; X86-SSE-NEXT: cmovael %eax, %ecx
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $65535, %eax # imm = 0xFFFF
				; X86-SSE-NEXT: cmovbel %ecx, %eax
	; X86-SSE-NEXT: # kill: def $ax killed $ax killed $eax			; X86-SSE-NEXT: # kill: def $ax killed $ax killed $eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_unsigned_i16_f16:			; X64-LABEL: test_unsigned_i16_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: xorps %xmm1, %xmm1
	; X64-NEXT: maxss %xmm0, %xmm1
	; X64-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: minss %xmm1, %xmm0
	; X64-NEXT: cvttss2si %xmm0, %eax			; X64-NEXT: cvttss2si %xmm0, %eax
				; X64-NEXT: xorl %ecx, %ecx
				; X64-NEXT: xorps %xmm1, %xmm1
				; X64-NEXT: ucomiss %xmm1, %xmm0
				; X64-NEXT: cmovael %eax, %ecx
				; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $65535, %eax # imm = 0xFFFF
				; X64-NEXT: cmovbel %ecx, %eax
	; X64-NEXT: # kill: def $ax killed $ax killed $eax			; X64-NEXT: # kill: def $ax killed $ax killed $eax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i16 @llvm.fptoui.sat.i16.f16(half %f)			%x = call i16 @llvm.fptoui.sat.i16.f16(half %f)
	ret i16 %x			ret i16 %x
	}			}

	define i19 @test_unsigned_i19_f16(half %f) nounwind {			define i19 @test_unsigned_i19_f16(half %f) nounwind {
	Show All 35 Lines
	; X86-X87-NEXT: movl %ecx, %eax			; X86-X87-NEXT: movl %ecx, %eax
	; X86-X87-NEXT: .LBB24_4:			; X86-X87-NEXT: .LBB24_4:
	; X86-X87-NEXT: addl $28, %esp			; X86-X87-NEXT: addl $28, %esp
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_unsigned_i19_f16:			; X86-SSE-LABEL: test_unsigned_i19_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: xorps %xmm1, %xmm1
	; X86-SSE-NEXT: maxss %xmm1, %xmm0
	; X86-SSE-NEXT: minss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
	; X86-SSE-NEXT: cvttss2si %xmm0, %eax			; X86-SSE-NEXT: cvttss2si %xmm0, %eax
				; X86-SSE-NEXT: movl %eax, %ecx
				; X86-SSE-NEXT: sarl $31, %ecx
				; X86-SSE-NEXT: movaps %xmm0, %xmm1
				; X86-SSE-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm1
				; X86-SSE-NEXT: cvttss2si %xmm1, %edx
				; X86-SSE-NEXT: andl %ecx, %edx
				; X86-SSE-NEXT: orl %eax, %edx
				; X86-SSE-NEXT: xorl %ecx, %ecx
				; X86-SSE-NEXT: xorps %xmm1, %xmm1
				; X86-SSE-NEXT: ucomiss %xmm1, %xmm0
				; X86-SSE-NEXT: cmovael %edx, %ecx
				; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
				; X86-SSE-NEXT: movl $524287, %eax # imm = 0x7FFFF
				; X86-SSE-NEXT: cmovbel %ecx, %eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_unsigned_i19_f16:			; X64-LABEL: test_unsigned_i19_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT			; X64-NEXT: cvttss2si %xmm0, %rax
				; X64-NEXT: xorl %ecx, %ecx
	; X64-NEXT: xorps %xmm1, %xmm1			; X64-NEXT: xorps %xmm1, %xmm1
	; X64-NEXT: maxss %xmm1, %xmm0			; X64-NEXT: ucomiss %xmm1, %xmm0
	; X64-NEXT: minss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; X64-NEXT: cmovael %eax, %ecx
	; X64-NEXT: cvttss2si %xmm0, %eax			; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; X64-NEXT: movl $524287, %eax # imm = 0x7FFFF
				; X64-NEXT: cmovbel %ecx, %eax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i19 @llvm.fptoui.sat.i19.f16(half %f)			%x = call i19 @llvm.fptoui.sat.i19.f16(half %f)
	ret i19 %x			ret i19 %x
	}			}

	define i32 @test_unsigned_i32_f16(half %f) nounwind {			define i32 @test_unsigned_i32_f16(half %f) nounwind {
	; X86-X87-LABEL: test_unsigned_i32_f16:			; X86-X87-LABEL: test_unsigned_i32_f16:
	Show All 34 Lines
	; X86-X87-NEXT: movl %ecx, %eax			; X86-X87-NEXT: movl %ecx, %eax
	; X86-X87-NEXT: .LBB25_4:			; X86-X87-NEXT: .LBB25_4:
	; X86-X87-NEXT: addl $28, %esp			; X86-X87-NEXT: addl $28, %esp
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_unsigned_i32_f16:			; X86-SSE-LABEL: test_unsigned_i32_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $12, %esp			; X86-SSE-NEXT: subl $12, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: cvttss2si %xmm0, %eax			; X86-SSE-NEXT: cvttss2si %xmm0, %eax
	; X86-SSE-NEXT: movl %eax, %ecx			; X86-SSE-NEXT: movl %eax, %ecx
	; X86-SSE-NEXT: sarl $31, %ecx			; X86-SSE-NEXT: sarl $31, %ecx
	; X86-SSE-NEXT: movaps %xmm0, %xmm1			; X86-SSE-NEXT: movaps %xmm0, %xmm1
	; X86-SSE-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm1			; X86-SSE-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm1
	; X86-SSE-NEXT: cvttss2si %xmm1, %edx			; X86-SSE-NEXT: cvttss2si %xmm1, %edx
	; X86-SSE-NEXT: andl %ecx, %edx			; X86-SSE-NEXT: andl %ecx, %edx
	; X86-SSE-NEXT: orl %eax, %edx			; X86-SSE-NEXT: orl %eax, %edx
	; X86-SSE-NEXT: xorl %ecx, %ecx			; X86-SSE-NEXT: xorl %ecx, %ecx
	; X86-SSE-NEXT: xorps %xmm1, %xmm1			; X86-SSE-NEXT: xorps %xmm1, %xmm1
	; X86-SSE-NEXT: ucomiss %xmm1, %xmm0			; X86-SSE-NEXT: ucomiss %xmm1, %xmm0
	; X86-SSE-NEXT: cmovael %edx, %ecx			; X86-SSE-NEXT: cmovael %edx, %ecx
	; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0			; X86-SSE-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
	; X86-SSE-NEXT: movl $-1, %eax			; X86-SSE-NEXT: movl $-1, %eax
	; X86-SSE-NEXT: cmovbel %ecx, %eax			; X86-SSE-NEXT: cmovbel %ecx, %eax
	; X86-SSE-NEXT: addl $12, %esp			; X86-SSE-NEXT: addl $12, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_unsigned_i32_f16:			; X64-LABEL: test_unsigned_i32_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: cvttss2si %xmm0, %rax			; X64-NEXT: cvttss2si %xmm0, %rax
	; X64-NEXT: xorl %ecx, %ecx			; X64-NEXT: xorl %ecx, %ecx
	; X64-NEXT: xorps %xmm1, %xmm1			; X64-NEXT: xorps %xmm1, %xmm1
	; X64-NEXT: ucomiss %xmm1, %xmm0			; X64-NEXT: ucomiss %xmm1, %xmm0
	; X64-NEXT: cmovael %eax, %ecx			; X64-NEXT: cmovael %eax, %ecx
	; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; X64-NEXT: movl $-1, %eax			; X64-NEXT: movl $-1, %eax
	; X64-NEXT: cmovbel %ecx, %eax			; X64-NEXT: cmovbel %ecx, %eax
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: addl $24, %esp			; X86-X87-NEXT: addl $24, %esp
	; X86-X87-NEXT: popl %esi			; X86-X87-NEXT: popl %esi
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_unsigned_i50_f16:			; X86-SSE-LABEL: test_unsigned_i50_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: pushl %esi			; X86-SSE-NEXT: pushl %esi
	; X86-SSE-NEXT: subl $24, %esp			; X86-SSE-NEXT: subl $24, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: ucomiss %xmm2, %xmm0			; X86-SSE-NEXT: ucomiss %xmm2, %xmm0
	; X86-SSE-NEXT: xorps %xmm1, %xmm1			; X86-SSE-NEXT: xorps %xmm1, %xmm1
	; X86-SSE-NEXT: jae .LBB26_2			; X86-SSE-NEXT: jae .LBB26_2
	; X86-SSE-NEXT: # %bb.1:			; X86-SSE-NEXT: # %bb.1:
	; X86-SSE-NEXT: xorps %xmm2, %xmm2			; X86-SSE-NEXT: xorps %xmm2, %xmm2
	Show All 27 Lines
	; X86-SSE-NEXT: cmovbel %esi, %eax			; X86-SSE-NEXT: cmovbel %esi, %eax
	; X86-SSE-NEXT: addl $24, %esp			; X86-SSE-NEXT: addl $24, %esp
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_unsigned_i50_f16:			; X64-LABEL: test_unsigned_i50_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: cvttss2si %xmm0, %rax			; X64-NEXT: cvttss2si %xmm0, %rax
				; X64-NEXT: movq %rax, %rcx
				; X64-NEXT: sarq $63, %rcx
				; X64-NEXT: movaps %xmm0, %xmm1
				; X64-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
				; X64-NEXT: cvttss2si %xmm1, %rdx
				; X64-NEXT: andq %rcx, %rdx
				; X64-NEXT: orq %rax, %rdx
	; X64-NEXT: xorl %ecx, %ecx			; X64-NEXT: xorl %ecx, %ecx
	; X64-NEXT: xorps %xmm1, %xmm1			; X64-NEXT: xorps %xmm1, %xmm1
	; X64-NEXT: ucomiss %xmm1, %xmm0			; X64-NEXT: ucomiss %xmm1, %xmm0
	; X64-NEXT: cmovaeq %rax, %rcx			; X64-NEXT: cmovaeq %rdx, %rcx
	; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; X64-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; X64-NEXT: movabsq $1125899906842623, %rax # imm = 0x3FFFFFFFFFFFF			; X64-NEXT: movabsq $1125899906842623, %rax # imm = 0x3FFFFFFFFFFFF
	; X64-NEXT: cmovbeq %rcx, %rax			; X64-NEXT: cmovbeq %rcx, %rax
	; X64-NEXT: popq %rcx			; X64-NEXT: popq %rcx
	; X64-NEXT: retq			; X64-NEXT: retq
	%x = call i50 @llvm.fptoui.sat.i50.f16(half %f)			%x = call i50 @llvm.fptoui.sat.i50.f16(half %f)
	ret i50 %x			ret i50 %x
	}			}
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: addl $20, %esp			; X86-X87-NEXT: addl $20, %esp
	; X86-X87-NEXT: popl %esi			; X86-X87-NEXT: popl %esi
	; X86-X87-NEXT: popl %edi			; X86-X87-NEXT: popl %edi
	; X86-X87-NEXT: retl			; X86-X87-NEXT: retl
	;			;
	; X86-SSE-LABEL: test_unsigned_i64_f16:			; X86-SSE-LABEL: test_unsigned_i64_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: subl $28, %esp			; X86-SSE-NEXT: subl $28, %esp
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: movw %ax, (%esp)
				; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: ucomiss %xmm2, %xmm0			; X86-SSE-NEXT: ucomiss %xmm2, %xmm0
	; X86-SSE-NEXT: xorps %xmm1, %xmm1			; X86-SSE-NEXT: xorps %xmm1, %xmm1
	; X86-SSE-NEXT: jae .LBB27_2			; X86-SSE-NEXT: jae .LBB27_2
	; X86-SSE-NEXT: # %bb.1:			; X86-SSE-NEXT: # %bb.1:
	; X86-SSE-NEXT: xorps %xmm2, %xmm2			; X86-SSE-NEXT: xorps %xmm2, %xmm2
	Show All 25 Lines
	; X86-SSE-NEXT: cmoval %ecx, %edx			; X86-SSE-NEXT: cmoval %ecx, %edx
	; X86-SSE-NEXT: cmoval %ecx, %eax			; X86-SSE-NEXT: cmoval %ecx, %eax
	; X86-SSE-NEXT: addl $28, %esp			; X86-SSE-NEXT: addl $28, %esp
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	;			;
	; X64-LABEL: test_unsigned_i64_f16:			; X64-LABEL: test_unsigned_i64_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: cvttss2si %xmm0, %rax			; X64-NEXT: cvttss2si %xmm0, %rax
	; X64-NEXT: movq %rax, %rcx			; X64-NEXT: movq %rax, %rcx
	; X64-NEXT: sarq $63, %rcx			; X64-NEXT: sarq $63, %rcx
	; X64-NEXT: movaps %xmm0, %xmm1			; X64-NEXT: movaps %xmm0, %xmm1
	; X64-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; X64-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; X64-NEXT: cvttss2si %xmm1, %rdx			; X64-NEXT: cvttss2si %xmm1, %rdx
	; X64-NEXT: andq %rcx, %rdx			; X64-NEXT: andq %rcx, %rdx
	; X64-NEXT: orq %rax, %rdx			; X64-NEXT: orq %rax, %rdx
	▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: retl $4			; X86-X87-NEXT: retl $4
	;			;
	; X86-SSE-LABEL: test_unsigned_i100_f16:			; X86-SSE-LABEL: test_unsigned_i100_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: pushl %ebx			; X86-SSE-NEXT: pushl %ebx
	; X86-SSE-NEXT: pushl %edi			; X86-SSE-NEXT: pushl %edi
	; X86-SSE-NEXT: pushl %esi			; X86-SSE-NEXT: pushl %esi
	; X86-SSE-NEXT: subl $32, %esp			; X86-SSE-NEXT: subl $32, %esp
				; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %esi			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: movw %ax, (%esp)
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: leal {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: leal {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: movl %eax, (%esp)
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; X86-SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)			; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: calll __fixunssfti			; X86-SSE-NEXT: calll __fixunssfti
	; X86-SSE-NEXT: subl $4, %esp			; X86-SSE-NEXT: subl $4, %esp
	Show All 30 Lines
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: popl %edi			; X86-SSE-NEXT: popl %edi
	; X86-SSE-NEXT: popl %ebx			; X86-SSE-NEXT: popl %ebx
	; X86-SSE-NEXT: retl $4			; X86-SSE-NEXT: retl $4
	;			;
	; X64-LABEL: test_unsigned_i100_f16:			; X64-LABEL: test_unsigned_i100_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: callq __fixunssfti@PLT			; X64-NEXT: callq __fixunssfti@PLT
	; X64-NEXT: xorl %ecx, %ecx			; X64-NEXT: xorl %ecx, %ecx
	; X64-NEXT: xorps %xmm0, %xmm0			; X64-NEXT: xorps %xmm0, %xmm0
	; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload			; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
	; X64-NEXT: # xmm1 = mem[0],zero,zero,zero			; X64-NEXT: # xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: ucomiss %xmm0, %xmm1			; X64-NEXT: ucomiss %xmm0, %xmm1
	; X64-NEXT: cmovbq %rcx, %rdx			; X64-NEXT: cmovbq %rcx, %rdx
	▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines
	; X86-X87-NEXT: retl $4			; X86-X87-NEXT: retl $4
	;			;
	; X86-SSE-LABEL: test_unsigned_i128_f16:			; X86-SSE-LABEL: test_unsigned_i128_f16:
	; X86-SSE: # %bb.0:			; X86-SSE: # %bb.0:
	; X86-SSE-NEXT: pushl %ebx			; X86-SSE-NEXT: pushl %ebx
	; X86-SSE-NEXT: pushl %edi			; X86-SSE-NEXT: pushl %edi
	; X86-SSE-NEXT: pushl %esi			; X86-SSE-NEXT: pushl %esi
	; X86-SSE-NEXT: subl $32, %esp			; X86-SSE-NEXT: subl $32, %esp
				; X86-SSE-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %esi			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %esi
	; X86-SSE-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: pextrw $0, %xmm0, %eax
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: movw %ax, (%esp)
	; X86-SSE-NEXT: calll __gnu_h2f_ieee			; X86-SSE-NEXT: calll __extendhfsf2
	; X86-SSE-NEXT: leal {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: leal {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movl %eax, (%esp)			; X86-SSE-NEXT: movl %eax, (%esp)
	; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)			; X86-SSE-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; X86-SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)			; X86-SSE-NEXT: movss %xmm0, {{[0-9]+}}(%esp)
	; X86-SSE-NEXT: calll __fixunssfti			; X86-SSE-NEXT: calll __fixunssfti
	; X86-SSE-NEXT: subl $4, %esp			; X86-SSE-NEXT: subl $4, %esp
	Show All 28 Lines
	; X86-SSE-NEXT: popl %esi			; X86-SSE-NEXT: popl %esi
	; X86-SSE-NEXT: popl %edi			; X86-SSE-NEXT: popl %edi
	; X86-SSE-NEXT: popl %ebx			; X86-SSE-NEXT: popl %ebx
	; X86-SSE-NEXT: retl $4			; X86-SSE-NEXT: retl $4
	;			;
	; X64-LABEL: test_unsigned_i128_f16:			; X64-LABEL: test_unsigned_i128_f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rax			; X64-NEXT: pushq %rax
	; X64-NEXT: movzwl %di, %edi			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: callq __fixunssfti@PLT			; X64-NEXT: callq __fixunssfti@PLT
	; X64-NEXT: xorl %ecx, %ecx			; X64-NEXT: xorl %ecx, %ecx
	; X64-NEXT: xorps %xmm0, %xmm0			; X64-NEXT: xorps %xmm0, %xmm0
	; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload			; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
	; X64-NEXT: # xmm1 = mem[0],zero,zero,zero			; X64-NEXT: # xmm1 = mem[0],zero,zero,zero
	; X64-NEXT: ucomiss %xmm0, %xmm1			; X64-NEXT: ucomiss %xmm0, %xmm1
	; X64-NEXT: cmovbq %rcx, %rdx			; X64-NEXT: cmovbq %rcx, %rdx
	▲ Show 20 Lines • Show All 1,233 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/fptoui-sat-vector-128.ll

	Show First 20 Lines • Show All 535 Lines • ▼ Show 20 Lines
	declare <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half>)			declare <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half>)
	declare <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half>)			declare <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half>)
	declare <8 x i128> @llvm.fptoui.sat.v8i128.v8f16(<8 x half>)			declare <8 x i128> @llvm.fptoui.sat.v8i128.v8f16(<8 x half>)

	define <8 x i1> @test_unsigned_v8i1_v8f16(<8 x half> %f) nounwind {			define <8 x i1> @test_unsigned_v8i1_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i1_v8f16:			; CHECK-LABEL: test_unsigned_v8i1_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $72, %rsp			; CHECK-NEXT: subq $136, %rsp
	; CHECK-NEXT: movl %r9d, %ebp			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, %ebx			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %ecx, %r13d			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, %r12d			; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %esi, %r15d			; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edi, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r14d			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %edi			; CHECK-NEXT: movaps %xmm7, %xmm0
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: xorl %ebx, %ebx
				; CHECK-NEXT: xorps %xmm1, %xmm1
				; CHECK-NEXT: ucomiss %xmm1, %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: movl $1, %ebp
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl %r14d, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bp, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bx, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r13w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r12w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r15w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: addq $72, %rsp			; CHECK-NEXT: addq $136, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> %f)			%x = call <8 x i1> @llvm.fptoui.sat.v8i1.v8f16(<8 x half> %f)
	ret <8 x i1> %x			ret <8 x i1> %x
	}			}

	define <8 x i8> @test_unsigned_v8i8_v8f16(<8 x half> %f) nounwind {			define <8 x i8> @test_unsigned_v8i8_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i8_v8f16:			; CHECK-LABEL: test_unsigned_v8i8_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15			; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $40, %rsp			; CHECK-NEXT: subq $56, %rsp
	; CHECK-NEXT: movl %r9d, %r13d			; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, %r14d			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %esi, %ebp			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edi, %r15d			; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax			; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax			; CHECK-NEXT: movaps %xmm3, %xmm0
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movzwl %cx, %edi			; CHECK-NEXT: cvttss2si %xmm0, %ebp
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: xorl %r14d, %r14d
	; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %r12d
	; CHECK-NEXT: shll $8, %r12d
	; CHECK-NEXT: movzwl %r14w, %edi
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: maxss %xmm0, %xmm1			; CHECK-NEXT: ucomiss %xmm1, %xmm0
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: cmovbl %r14d, %ebp
	; CHECK-NEXT: minss %xmm1, %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: movl $255, %r15d
				; CHECK-NEXT: cmoval %r15d, %ebp
				; CHECK-NEXT: shll $8, %ebp
				; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
				; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r15d, %eax
	; CHECK-NEXT: movzbl %al, %ebx			; CHECK-NEXT: movzbl %al, %ebx
	; CHECK-NEXT: orl %r12d, %ebx			; CHECK-NEXT: orl %ebp, %ebx
	; CHECK-NEXT: movzwl %bp, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %ebp			; CHECK-NEXT: cvttss2si %xmm0, %ebp
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %ebp
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r15d, %ebp
	; CHECK-NEXT: shll $8, %ebp			; CHECK-NEXT: shll $8, %ebp
	; CHECK-NEXT: movzwl %r15w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: movzbl %al, %eax
	; CHECK-NEXT: orl %ebp, %eax			; CHECK-NEXT: orl %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: pinsrw $1, %ebx, %xmm0			; CHECK-NEXT: pinsrw $1, %ebx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r13w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %ebx			; CHECK-NEXT: cvttss2si %xmm0, %ebx
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %ebx
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r15d, %ebx
	; CHECK-NEXT: shll $8, %ebx			; CHECK-NEXT: shll $8, %ebx
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: movzbl %al, %eax
	; CHECK-NEXT: orl %ebx, %eax			; CHECK-NEXT: orl %ebx, %eax
	; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: pinsrw $2, %eax, %xmm0			; CHECK-NEXT: pinsrw $2, %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %ebx			; CHECK-NEXT: cvttss2si %xmm0, %ebx
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %ebx
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r15d, %ebx
	; CHECK-NEXT: shll $8, %ebx			; CHECK-NEXT: shll $8, %ebx
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %r14d, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %r15d, %eax
	; CHECK-NEXT: movzbl %al, %eax			; CHECK-NEXT: movzbl %al, %eax
	; CHECK-NEXT: orl %ebx, %eax			; CHECK-NEXT: orl %ebx, %eax
	; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: pinsrw $3, %eax, %xmm0			; CHECK-NEXT: pinsrw $3, %eax, %xmm0
	; CHECK-NEXT: addq $40, %rsp			; CHECK-NEXT: addq $56, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15			; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> %f)			%x = call <8 x i8> @llvm.fptoui.sat.v8i8.v8f16(<8 x half> %f)
	ret <8 x i8> %x			ret <8 x i8> %x
	}			}

	define <8 x i16> @test_unsigned_v8i16_v8f16(<8 x half> %f) nounwind {			define <8 x i16> @test_unsigned_v8i16_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i16_v8f16:			; CHECK-LABEL: test_unsigned_v8i16_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $72, %rsp			; CHECK-NEXT: subq $136, %rsp
	; CHECK-NEXT: movl %r9d, %ebp			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, %ebx			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %ecx, %r13d			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, %r12d			; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %esi, %r15d			; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edi, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r14d			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %edi			; CHECK-NEXT: movaps %xmm7, %xmm0
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: xorl %ebx, %ebx
				; CHECK-NEXT: xorps %xmm1, %xmm1
				; CHECK-NEXT: ucomiss %xmm1, %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: movl $65535, %ebp # imm = 0xFFFF
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl %r14d, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bp, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bx, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r13w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r12w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r15w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: maxss %xmm0, %xmm1
	; CHECK-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: minss %xmm1, %xmm0
	; CHECK-NEXT: cvttss2si %xmm0, %eax			; CHECK-NEXT: cvttss2si %xmm0, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmovbl %ebx, %eax
				; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
				; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklwd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1],xmm0[2],mem[2],xmm0[3],mem[3]
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: addq $72, %rsp			; CHECK-NEXT: addq $136, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> %f)			%x = call <8 x i16> @llvm.fptoui.sat.v8i16.v8f16(<8 x half> %f)
	ret <8 x i16> %x			ret <8 x i16> %x
	}			}

	define <8 x i32> @test_unsigned_v8i32_v8f16(<8 x half> %f) nounwind {			define <8 x i32> @test_unsigned_v8i32_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i32_v8f16:			; CHECK-LABEL: test_unsigned_v8i32_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $88, %rsp			; CHECK-NEXT: subq $136, %rsp
	; CHECK-NEXT: movl %r9d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, %r14d			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %esi, %ebp			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edi, %ebx			; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax			; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r13d			; CHECK-NEXT: movaps %xmm3, %xmm0
	; CHECK-NEXT: movzwl %cx, %edi			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: xorl %r15d, %r15d			; CHECK-NEXT: xorl %ebx, %ebx
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: ucomiss %xmm1, %xmm0			; CHECK-NEXT: ucomiss %xmm1, %xmm0
	; CHECK-NEXT: cmovbl %r15d, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $-1, %r12d			; CHECK-NEXT: movl $-1, %ebp
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r14w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r15d, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bp, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r15d, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bx, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r15d, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl %r13d, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r15d, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r15d, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r15d, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm0			; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: cvttss2si %xmm0, %rax			; CHECK-NEXT: cvttss2si %xmm0, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbl %r15d, %eax			; CHECK-NEXT: cmovbl %ebx, %eax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmoval %r12d, %eax			; CHECK-NEXT: cmoval %ebp, %eax
	; CHECK-NEXT: movd %eax, %xmm1			; CHECK-NEXT: movd %eax, %xmm1
	; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload			; CHECK-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]			; CHECK-NEXT: # xmm1 = xmm1[0],mem[0],xmm1[1],mem[1]
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]			; CHECK-NEXT: # xmm1 = xmm1[0],mem[0]
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: addq $88, %rsp			; CHECK-NEXT: addq $136, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> %f)			%x = call <8 x i32> @llvm.fptoui.sat.v8i32.v8f16(<8 x half> %f)
	ret <8 x i32> %x			ret <8 x i32> %x
	}			}

	define <8 x i64> @test_unsigned_v8i64_v8f16(<8 x half> %f) nounwind {			define <8 x i64> @test_unsigned_v8i64_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i64_v8f16:			; CHECK-LABEL: test_unsigned_v8i64_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $104, %rsp			; CHECK-NEXT: subq $136, %rsp
	; CHECK-NEXT: movl %r9d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %ecx, %r13d			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %esi, %ebp			; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edi, %ebx			; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %r14d			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %edi			; CHECK-NEXT: movaps %xmm1, %xmm0
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movaps %xmm0, %xmm1			; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: xorl %r15d, %r15d			; CHECK-NEXT: xorl %r14d, %r14d
	; CHECK-NEXT: xorps %xmm1, %xmm1			; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: ucomiss %xmm1, %xmm0			; CHECK-NEXT: ucomiss %xmm1, %xmm0
	; CHECK-NEXT: cmovbq %r15, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movq $-1, %r12			; CHECK-NEXT: movq $-1, %rbx
	; CHECK-NEXT: cmovaq %r12, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movl %r14d, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
				; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r15, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r12, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bp, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
				; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r15, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r12, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %bx, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
				; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r15, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r12, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl %r13w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
				; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r15, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r12, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
				; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r15, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r12, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: # xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
				; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r15, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r12, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm0			; CHECK-NEXT: movq %rdx, %xmm0
	; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; CHECK-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movdqa %xmm0, %xmm1			; CHECK-NEXT: callq __extendhfsf2@PLT
				; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: cvttss2si %xmm1, %rax			; CHECK-NEXT: cvttss2si %xmm1, %rax
	; CHECK-NEXT: cvttss2si %xmm0, %rcx			; CHECK-NEXT: cvttss2si %xmm0, %rcx
	; CHECK-NEXT: movq %rcx, %rdx			; CHECK-NEXT: movq %rcx, %rdx
	; CHECK-NEXT: sarq $63, %rdx			; CHECK-NEXT: sarq $63, %rdx
	; CHECK-NEXT: andq %rax, %rdx			; CHECK-NEXT: andq %rax, %rdx
	; CHECK-NEXT: orq %rcx, %rdx			; CHECK-NEXT: orq %rcx, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r15, %rdx			; CHECK-NEXT: cmovbq %r14, %rdx
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %r12, %rdx			; CHECK-NEXT: cmovaq %rbx, %rdx
	; CHECK-NEXT: movq %rdx, %xmm2			; CHECK-NEXT: movq %rdx, %xmm3
	; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Folded Reload			; CHECK-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Folded Reload
	; CHECK-NEXT: # xmm2 = xmm2[0],mem[0]			; CHECK-NEXT: # xmm3 = xmm3[0],mem[0]
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Reload
	; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm3 # 16-byte Reload			; CHECK-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm2 # 16-byte Reload
	; CHECK-NEXT: addq $104, %rsp			; CHECK-NEXT: addq $136, %rsp
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: popq %r12
	; CHECK-NEXT: popq %r13
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
	; CHECK-NEXT: popq %r15
	; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%x = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> %f)			%x = call <8 x i64> @llvm.fptoui.sat.v8i64.v8f16(<8 x half> %f)
	ret <8 x i64> %x			ret <8 x i64> %x
	}			}

	define <8 x i128> @test_unsigned_v8i128_v8f16(<8 x half> %f) nounwind {			define <8 x i128> @test_unsigned_v8i128_v8f16(<8 x half> %f) nounwind {
	; CHECK-LABEL: test_unsigned_v8i128_v8f16:			; CHECK-LABEL: test_unsigned_v8i128_v8f16:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: pushq %r15			; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: pushq %r13			; CHECK-NEXT: pushq %r13
	; CHECK-NEXT: pushq %r12			; CHECK-NEXT: pushq %r12
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: subq $88, %rsp			; CHECK-NEXT: subq $88, %rsp
	; CHECK-NEXT: movl %r9d, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %r8d, %r15d			; CHECK-NEXT: movss %xmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %ecx, %r14d			; CHECK-NEXT: movss %xmm5, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %edx, %r12d			; CHECK-NEXT: movss %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: movss %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movq %rdi, %rbx			; CHECK-NEXT: movq %rdi, %rbx
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl {{[0-9]+}}(%rsp), %eax
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movzwl %si, %edi
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: xorl %r13d, %r13d			; CHECK-NEXT: xorl %r12d, %r12d
	; CHECK-NEXT: xorps %xmm0, %xmm0			; CHECK-NEXT: xorps %xmm0, %xmm0
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 4-byte Reload
	; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss %xmm0, %xmm1			; CHECK-NEXT: ucomiss %xmm0, %xmm1
	; CHECK-NEXT: cmovbq %r13, %rdx			; CHECK-NEXT: cmovbq %r12, %rdx
	; CHECK-NEXT: cmovbq %r13, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; CHECK-NEXT: movq $-1, %rbp			; CHECK-NEXT: movq $-1, %r13
	; CHECK-NEXT: cmovaq %rbp, %rax			; CHECK-NEXT: cmovaq %r13, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovaq %rbp, %rdx			; CHECK-NEXT: cmovaq %r13, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movzwl %r12w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r13, %rdx			; CHECK-NEXT: cmovbq %r12, %rdx
	; CHECK-NEXT: cmovbq %r13, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbp, %rax			; CHECK-NEXT: cmovaq %r13, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovaq %rbp, %rdx			; CHECK-NEXT: cmovaq %r13, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movzwl %r14w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r13, %rdx			; CHECK-NEXT: cmovbq %r12, %rdx
	; CHECK-NEXT: cmovbq %r13, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbp, %rax			; CHECK-NEXT: cmovaq %r13, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovaq %rbp, %rdx			; CHECK-NEXT: cmovaq %r13, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movzwl %r15w, %edi			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r13, %rdx			; CHECK-NEXT: cmovbq %r12, %rdx
	; CHECK-NEXT: cmovbq %r13, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbp, %rax			; CHECK-NEXT: cmovaq %r13, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovaq %rbp, %rdx			; CHECK-NEXT: cmovaq %r13, %rdx
	; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 2-byte Folded Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movq %rdx, %r12			; CHECK-NEXT: movq %rdx, %rbp
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r13, %r12			; CHECK-NEXT: cmovbq %r12, %rbp
	; CHECK-NEXT: cmovbq %r13, %rax			; CHECK-NEXT: cmovbq %r12, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbp, %rax			; CHECK-NEXT: cmovaq %r13, %rax
	; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: cmovaq %rbp, %r12			; CHECK-NEXT: cmovaq %r13, %rbp
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movq %rax, %r14			; CHECK-NEXT: movq %rax, %r14
	; CHECK-NEXT: movq %rdx, %r15			; CHECK-NEXT: movq %rdx, %r15
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovbq %r13, %r15			; CHECK-NEXT: cmovbq %r12, %r15
	; CHECK-NEXT: cmovbq %r13, %r14			; CHECK-NEXT: cmovbq %r12, %r14
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: cmovaq %rbp, %r14			; CHECK-NEXT: cmovaq %r13, %r14
	; CHECK-NEXT: cmovaq %rbp, %r15			; CHECK-NEXT: cmovaq %r13, %r15
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movq %rax, %r13			; CHECK-NEXT: movq %rax, %r12
	; CHECK-NEXT: movq %rdx, %rbp			; CHECK-NEXT: movq %rdx, %r13
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $0, %eax			; CHECK-NEXT: movl $0, %eax
	; CHECK-NEXT: cmovbq %rax, %rbp
	; CHECK-NEXT: cmovbq %rax, %r13			; CHECK-NEXT: cmovbq %rax, %r13
				; CHECK-NEXT: cmovbq %rax, %r12
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movq $-1, %rax			; CHECK-NEXT: movq $-1, %rax
				; CHECK-NEXT: cmovaq %rax, %r12
	; CHECK-NEXT: cmovaq %rax, %r13			; CHECK-NEXT: cmovaq %rax, %r13
	; CHECK-NEXT: cmovaq %rax, %rbp			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %edi # 4-byte Reload			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: callq __gnu_h2f_ieee@PLT			; CHECK-NEXT: callq __extendhfsf2@PLT
	; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: callq __fixunssfti@PLT			; CHECK-NEXT: callq __fixunssfti@PLT
	; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movl $0, %ecx			; CHECK-NEXT: movl $0, %ecx
	; CHECK-NEXT: cmovbq %rcx, %rdx			; CHECK-NEXT: cmovbq %rcx, %rdx
	; CHECK-NEXT: cmovbq %rcx, %rax			; CHECK-NEXT: cmovbq %rcx, %rax
	; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0			; CHECK-NEXT: ucomiss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; CHECK-NEXT: movq $-1, %rcx			; CHECK-NEXT: movq $-1, %rcx
	; CHECK-NEXT: cmovaq %rcx, %rax			; CHECK-NEXT: cmovaq %rcx, %rax
	; CHECK-NEXT: cmovaq %rcx, %rdx			; CHECK-NEXT: cmovaq %rcx, %rdx
	; CHECK-NEXT: movq %rdx, 120(%rbx)			; CHECK-NEXT: movq %rdx, 120(%rbx)
	; CHECK-NEXT: movq %rax, 112(%rbx)			; CHECK-NEXT: movq %rax, 112(%rbx)
	; CHECK-NEXT: movq %rbp, 104(%rbx)			; CHECK-NEXT: movq %r13, 104(%rbx)
	; CHECK-NEXT: movq %r13, 96(%rbx)			; CHECK-NEXT: movq %r12, 96(%rbx)
	; CHECK-NEXT: movq %r15, 88(%rbx)			; CHECK-NEXT: movq %r15, 88(%rbx)
	; CHECK-NEXT: movq %r14, 80(%rbx)			; CHECK-NEXT: movq %r14, 80(%rbx)
	; CHECK-NEXT: movq %r12, 72(%rbx)			; CHECK-NEXT: movq %rbp, 72(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 64(%rbx)			; CHECK-NEXT: movq %rax, 64(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 56(%rbx)			; CHECK-NEXT: movq %rax, 56(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 48(%rbx)			; CHECK-NEXT: movq %rax, 48(%rbx)
	; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; CHECK-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; CHECK-NEXT: movq %rax, 40(%rbx)			; CHECK-NEXT: movq %rax, 40(%rbx)
	Show All 22 Lines

llvm/test/CodeGen/X86/freeze.ll

Show All 32 Lines	; X86ASM-NEXT: retq
ret float %t1		ret float %t1
}		}

define half @freeze_half() {		define half @freeze_half() {
; X86ASM-LABEL: freeze_half:		; X86ASM-LABEL: freeze_half:
; X86ASM: # %bb.0:		; X86ASM: # %bb.0:
; X86ASM-NEXT: pushq %rax		; X86ASM-NEXT: pushq %rax
; X86ASM-NEXT: .cfi_def_cfa_offset 16		; X86ASM-NEXT: .cfi_def_cfa_offset 16
; X86ASM-NEXT: xorl %edi, %edi		; X86ASM-NEXT: callq __extendhfsf2@PLT
; X86ASM-NEXT: callq __gnu_h2f_ieee@PLT
; X86ASM-NEXT: callq __gnu_f2h_ieee@PLT
; X86ASM-NEXT: movzwl %ax, %edi
; X86ASM-NEXT: callq __gnu_h2f_ieee@PLT
; X86ASM-NEXT: addss %xmm0, %xmm0		; X86ASM-NEXT: addss %xmm0, %xmm0
; X86ASM-NEXT: callq __gnu_f2h_ieee@PLT		; X86ASM-NEXT: callq __truncsfhf2@PLT
; X86ASM-NEXT: popq %rcx		; X86ASM-NEXT: popq %rax
; X86ASM-NEXT: .cfi_def_cfa_offset 8		; X86ASM-NEXT: .cfi_def_cfa_offset 8
; X86ASM-NEXT: retq		; X86ASM-NEXT: retq
%y1 = freeze half undef		%y1 = freeze half undef
%t1 = fadd half %y1, %y1		%t1 = fadd half %y1, %y1
ret half %t1		ret half %t1
}		}

define <2 x i32> @freeze_ivec() {		define <2 x i32> @freeze_ivec() {
▲ Show 20 Lines • Show All 91 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/half-constrained.ll

	Show All 30 Lines
	; X32-F16C-NEXT: wait			; X32-F16C-NEXT: wait
	; X32-F16C-NEXT: popl %eax			; X32-F16C-NEXT: popl %eax
	; X32-F16C-NEXT: retl			; X32-F16C-NEXT: retl
	;			;
	; X64-NOF16C-LABEL: half_to_float:			; X64-NOF16C-LABEL: half_to_float:
	; X64-NOF16C: ## %bb.0:			; X64-NOF16C: ## %bb.0:
	; X64-NOF16C-NEXT: pushq %rax			; X64-NOF16C-NEXT: pushq %rax
	; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16			; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16
	; X64-NOF16C-NEXT: movzwl _a(%rip), %edi			; X64-NOF16C-NEXT: pinsrw $0, _a(%rip), %xmm0
	; X64-NOF16C-NEXT: callq ___extendhfsf2			; X64-NOF16C-NEXT: callq ___extendhfsf2
	; X64-NOF16C-NEXT: popq %rax			; X64-NOF16C-NEXT: popq %rax
	; X64-NOF16C-NEXT: retq			; X64-NOF16C-NEXT: retq
	;			;
	; X64-F16C-LABEL: half_to_float:			; X64-F16C-LABEL: half_to_float:
	; X64-F16C: ## %bb.0:			; X64-F16C: ## %bb.0:
	; X64-F16C-NEXT: movzwl _a(%rip), %eax			; X64-F16C-NEXT: movzwl _a(%rip), %eax
	; X64-F16C-NEXT: vmovd %eax, %xmm0			; X64-F16C-NEXT: vmovd %eax, %xmm0
	Show All 28 Lines
	; X32-F16C-NEXT: wait			; X32-F16C-NEXT: wait
	; X32-F16C-NEXT: addl $12, %esp			; X32-F16C-NEXT: addl $12, %esp
	; X32-F16C-NEXT: retl			; X32-F16C-NEXT: retl
	;			;
	; X64-NOF16C-LABEL: half_to_double:			; X64-NOF16C-LABEL: half_to_double:
	; X64-NOF16C: ## %bb.0:			; X64-NOF16C: ## %bb.0:
	; X64-NOF16C-NEXT: pushq %rax			; X64-NOF16C-NEXT: pushq %rax
	; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16			; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16
	; X64-NOF16C-NEXT: movzwl _a(%rip), %edi			; X64-NOF16C-NEXT: pinsrw $0, _a(%rip), %xmm0
	; X64-NOF16C-NEXT: callq ___extendhfsf2			; X64-NOF16C-NEXT: callq ___extendhfdf2
	; X64-NOF16C-NEXT: cvtss2sd %xmm0, %xmm0
	; X64-NOF16C-NEXT: popq %rax			; X64-NOF16C-NEXT: popq %rax
	; X64-NOF16C-NEXT: retq			; X64-NOF16C-NEXT: retq
	;			;
	; X64-F16C-LABEL: half_to_double:			; X64-F16C-LABEL: half_to_double:
	; X64-F16C: ## %bb.0:			; X64-F16C: ## %bb.0:
	; X64-F16C-NEXT: movzwl _a(%rip), %eax			; X64-F16C-NEXT: movzwl _a(%rip), %eax
	; X64-F16C-NEXT: vmovd %eax, %xmm0			; X64-F16C-NEXT: vmovd %eax, %xmm0
	; X64-F16C-NEXT: vcvtph2ps %xmm0, %xmm0			; X64-F16C-NEXT: vcvtph2ps %xmm0, %xmm0
	Show All 12 Lines
	; X32-NOF16C-NEXT: movzwl _a, %eax			; X32-NOF16C-NEXT: movzwl _a, %eax
	; X32-NOF16C-NEXT: movl %eax, (%esp)			; X32-NOF16C-NEXT: movl %eax, (%esp)
	; X32-NOF16C-NEXT: calll ___extendhfsf2			; X32-NOF16C-NEXT: calll ___extendhfsf2
	; X32-NOF16C-NEXT: addl $12, %esp			; X32-NOF16C-NEXT: addl $12, %esp
	; X32-NOF16C-NEXT: retl			; X32-NOF16C-NEXT: retl
	;			;
	; X32-F16C-LABEL: half_to_fp80:			; X32-F16C-LABEL: half_to_fp80:
	; X32-F16C: ## %bb.0:			; X32-F16C: ## %bb.0:
	; X32-F16C-NEXT: pushl %eax			; X32-F16C-NEXT: subl $12, %esp
	; X32-F16C-NEXT: .cfi_def_cfa_offset 8			; X32-F16C-NEXT: .cfi_def_cfa_offset 16
	; X32-F16C-NEXT: movzwl _a, %eax			; X32-F16C-NEXT: vpinsrw $0, _a, %xmm0, %xmm0
	; X32-F16C-NEXT: vmovd %eax, %xmm0			; X32-F16C-NEXT: vpextrw $0, %xmm0, (%esp)
	; X32-F16C-NEXT: vcvtph2ps %xmm0, %xmm0			; X32-F16C-NEXT: calll ___extendhfxf2
	; X32-F16C-NEXT: vmovss %xmm0, (%esp)			; X32-F16C-NEXT: addl $12, %esp
	; X32-F16C-NEXT: flds (%esp)
	; X32-F16C-NEXT: wait
	; X32-F16C-NEXT: popl %eax
	; X32-F16C-NEXT: retl			; X32-F16C-NEXT: retl
	;			;
	; X64-NOF16C-LABEL: half_to_fp80:			; X64-NOF16C-LABEL: half_to_fp80:
	; X64-NOF16C: ## %bb.0:			; X64-NOF16C: ## %bb.0:
	; X64-NOF16C-NEXT: pushq %rax			; X64-NOF16C-NEXT: pushq %rax
	; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16			; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16
	; X64-NOF16C-NEXT: movzwl _a(%rip), %edi			; X64-NOF16C-NEXT: pinsrw $0, _a(%rip), %xmm0
	; X64-NOF16C-NEXT: callq ___extendhfsf2			; X64-NOF16C-NEXT: callq ___extendhfxf2
	; X64-NOF16C-NEXT: movss %xmm0, {{[0-9]+}}(%rsp)
	; X64-NOF16C-NEXT: flds {{[0-9]+}}(%rsp)
	; X64-NOF16C-NEXT: wait
	; X64-NOF16C-NEXT: popq %rax			; X64-NOF16C-NEXT: popq %rax
	; X64-NOF16C-NEXT: retq			; X64-NOF16C-NEXT: retq
	;			;
	; X64-F16C-LABEL: half_to_fp80:			; X64-F16C-LABEL: half_to_fp80:
	; X64-F16C: ## %bb.0:			; X64-F16C: ## %bb.0:
	; X64-F16C-NEXT: movzwl _a(%rip), %eax			; X64-F16C-NEXT: pushq %rax
	; X64-F16C-NEXT: vmovd %eax, %xmm0			; X64-F16C-NEXT: .cfi_def_cfa_offset 16
	; X64-F16C-NEXT: vcvtph2ps %xmm0, %xmm0			; X64-F16C-NEXT: vpinsrw $0, _a(%rip), %xmm0, %xmm0
	; X64-F16C-NEXT: vmovss %xmm0, -{{[0-9]+}}(%rsp)			; X64-F16C-NEXT: callq ___extendhfxf2
	; X64-F16C-NEXT: flds -{{[0-9]+}}(%rsp)			; X64-F16C-NEXT: popq %rax
	; X64-F16C-NEXT: wait
	; X64-F16C-NEXT: retq			; X64-F16C-NEXT: retq
	%1 = load half, half* @a, align 2			%1 = load half, half* @a, align 2
	%2 = tail call x86_fp80 @llvm.experimental.constrained.fpext.f80.f16(half %1, metadata !"fpexcept.strict") #0			%2 = tail call x86_fp80 @llvm.experimental.constrained.fpext.f80.f16(half %1, metadata !"fpexcept.strict") #0
	ret x86_fp80 %2			ret x86_fp80 %2
	}			}

	define void @float_to_half(float %0) strictfp {			define void @float_to_half(float %0) strictfp {
	; X32-NOF16C-LABEL: float_to_half:			; X32-NOF16C-LABEL: float_to_half:
	; X32-NOF16C: ## %bb.0:			; X32-NOF16C: ## %bb.0:
	; X32-NOF16C-NEXT: subl $12, %esp			; X32-NOF16C-NEXT: subl $12, %esp
	; X32-NOF16C-NEXT: .cfi_def_cfa_offset 16			; X32-NOF16C-NEXT: .cfi_def_cfa_offset 16
	; X32-NOF16C-NEXT: flds {{[0-9]+}}(%esp)			; X32-NOF16C-NEXT: flds {{[0-9]+}}(%esp)
	; X32-NOF16C-NEXT: fstps (%esp)			; X32-NOF16C-NEXT: fstps (%esp)
	; X32-NOF16C-NEXT: wait			; X32-NOF16C-NEXT: wait
	; X32-NOF16C-NEXT: calll ___truncsfhf2			; X32-NOF16C-NEXT: calll ___truncsfhf2
	; X32-NOF16C-NEXT: movw %ax, _a			; X32-NOF16C-NEXT: movw %ax, _a
	; X32-NOF16C-NEXT: addl $12, %esp			; X32-NOF16C-NEXT: addl $12, %esp
	; X32-NOF16C-NEXT: retl			; X32-NOF16C-NEXT: retl
	;			;
	; X32-F16C-LABEL: float_to_half:			; X32-F16C-LABEL: float_to_half:
	; X32-F16C: ## %bb.0:			; X32-F16C: ## %bb.0:
	; X32-F16C-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-F16C-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; X32-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; X32-F16C-NEXT: vpextrw $0, %xmm0, _a			; X32-F16C-NEXT: vmovd %xmm0, %eax
				; X32-F16C-NEXT: movw %ax, _a
	; X32-F16C-NEXT: retl			; X32-F16C-NEXT: retl
	;			;
	; X64-NOF16C-LABEL: float_to_half:			; X64-NOF16C-LABEL: float_to_half:
	; X64-NOF16C: ## %bb.0:			; X64-NOF16C: ## %bb.0:
	; X64-NOF16C-NEXT: pushq %rax			; X64-NOF16C-NEXT: pushq %rax
	; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16			; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16
	; X64-NOF16C-NEXT: callq ___truncsfhf2			; X64-NOF16C-NEXT: callq ___truncsfhf2
				; X64-NOF16C-NEXT: pextrw $0, %xmm0, %eax
	; X64-NOF16C-NEXT: movw %ax, _a(%rip)			; X64-NOF16C-NEXT: movw %ax, _a(%rip)
	; X64-NOF16C-NEXT: popq %rax			; X64-NOF16C-NEXT: popq %rax
	; X64-NOF16C-NEXT: retq			; X64-NOF16C-NEXT: retq
	;			;
	; X64-F16C-LABEL: float_to_half:			; X64-F16C-LABEL: float_to_half:
	; X64-F16C: ## %bb.0:			; X64-F16C: ## %bb.0:
	; X64-F16C-NEXT: vxorps %xmm1, %xmm1, %xmm1			; X64-F16C-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; X64-F16C-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]			; X64-F16C-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]
	; X64-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; X64-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; X64-F16C-NEXT: vpextrw $0, %xmm0, _a(%rip)			; X64-F16C-NEXT: vmovd %xmm0, %eax
				; X64-F16C-NEXT: movw %ax, _a(%rip)
	; X64-F16C-NEXT: retq			; X64-F16C-NEXT: retq
	%2 = tail call half @llvm.experimental.constrained.fptrunc.f16.f32(float %0, metadata !"round.tonearest", metadata !"fpexcept.strict") #0			%2 = tail call half @llvm.experimental.constrained.fptrunc.f16.f32(float %0, metadata !"round.tonearest", metadata !"fpexcept.strict") #0
	store half %2, half* @a, align 2			store half %2, half* @a, align 2
	ret void			ret void
	}			}

	define void @double_to_half(double %0) strictfp {			define void @double_to_half(double %0) strictfp {
	; X32-NOF16C-LABEL: double_to_half:			; X32-NOF16C-LABEL: double_to_half:
	; X32-NOF16C: ## %bb.0:			; X32-NOF16C: ## %bb.0:
	; X32-NOF16C-NEXT: subl $12, %esp			; X32-NOF16C-NEXT: subl $12, %esp
	; X32-NOF16C-NEXT: .cfi_def_cfa_offset 16			; X32-NOF16C-NEXT: .cfi_def_cfa_offset 16
	; X32-NOF16C-NEXT: fldl {{[0-9]+}}(%esp)			; X32-NOF16C-NEXT: fldl {{[0-9]+}}(%esp)
	; X32-NOF16C-NEXT: fstpl (%esp)			; X32-NOF16C-NEXT: fstpl (%esp)
	; X32-NOF16C-NEXT: wait			; X32-NOF16C-NEXT: wait
	; X32-NOF16C-NEXT: calll ___truncdfhf2			; X32-NOF16C-NEXT: calll ___truncdfhf2
	; X32-NOF16C-NEXT: movw %ax, _a			; X32-NOF16C-NEXT: movw %ax, _a
	; X32-NOF16C-NEXT: addl $12, %esp			; X32-NOF16C-NEXT: addl $12, %esp
	; X32-NOF16C-NEXT: retl			; X32-NOF16C-NEXT: retl
	;			;
	; X32-F16C-LABEL: double_to_half:			; X32-F16C-LABEL: double_to_half:
	; X32-F16C: ## %bb.0:			; X32-F16C: ## %bb.0:
	; X32-F16C-NEXT: subl $12, %esp
	; X32-F16C-NEXT: .cfi_def_cfa_offset 16
	; X32-F16C-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; X32-F16C-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; X32-F16C-NEXT: vmovsd %xmm0, (%esp)			; X32-F16C-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; X32-F16C-NEXT: calll ___truncdfhf2			; X32-F16C-NEXT: vxorps %xmm1, %xmm1, %xmm1
				; X32-F16C-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]
				; X32-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; X32-F16C-NEXT: vmovd %xmm0, %eax
	; X32-F16C-NEXT: movw %ax, _a			; X32-F16C-NEXT: movw %ax, _a
	; X32-F16C-NEXT: addl $12, %esp
	; X32-F16C-NEXT: retl			; X32-F16C-NEXT: retl
	;			;
	; X64-NOF16C-LABEL: double_to_half:			; X64-NOF16C-LABEL: double_to_half:
	; X64-NOF16C: ## %bb.0:			; X64-NOF16C: ## %bb.0:
	; X64-NOF16C-NEXT: pushq %rax			; X64-NOF16C-NEXT: pushq %rax
	; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16			; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16
	; X64-NOF16C-NEXT: callq ___truncdfhf2			; X64-NOF16C-NEXT: callq ___truncdfhf2
				; X64-NOF16C-NEXT: pextrw $0, %xmm0, %eax
	; X64-NOF16C-NEXT: movw %ax, _a(%rip)			; X64-NOF16C-NEXT: movw %ax, _a(%rip)
	; X64-NOF16C-NEXT: popq %rax			; X64-NOF16C-NEXT: popq %rax
	; X64-NOF16C-NEXT: retq			; X64-NOF16C-NEXT: retq
	;			;
	; X64-F16C-LABEL: double_to_half:			; X64-F16C-LABEL: double_to_half:
	; X64-F16C: ## %bb.0:			; X64-F16C: ## %bb.0:
	; X64-F16C-NEXT: pushq %rax			; X64-F16C-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; X64-F16C-NEXT: .cfi_def_cfa_offset 16			; X64-F16C-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; X64-F16C-NEXT: callq ___truncdfhf2			; X64-F16C-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]
				; X64-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; X64-F16C-NEXT: vmovd %xmm0, %eax
	; X64-F16C-NEXT: movw %ax, _a(%rip)			; X64-F16C-NEXT: movw %ax, _a(%rip)
	; X64-F16C-NEXT: popq %rax
	; X64-F16C-NEXT: retq			; X64-F16C-NEXT: retq
	%2 = tail call half @llvm.experimental.constrained.fptrunc.f16.f64(double %0, metadata !"round.tonearest", metadata !"fpexcept.strict") #0			%2 = tail call half @llvm.experimental.constrained.fptrunc.f16.f64(double %0, metadata !"round.tonearest", metadata !"fpexcept.strict") #0
	store half %2, half* @a, align 2			store half %2, half* @a, align 2
	ret void			ret void
	}			}

	define void @fp80_to_half(x86_fp80 %0) strictfp {			define void @fp80_to_half(x86_fp80 %0) strictfp {
	; X32-NOF16C-LABEL: fp80_to_half:			; X32-NOF16C-LABEL: fp80_to_half:
	Show All 11 Lines
	; X32-F16C-LABEL: fp80_to_half:			; X32-F16C-LABEL: fp80_to_half:
	; X32-F16C: ## %bb.0:			; X32-F16C: ## %bb.0:
	; X32-F16C-NEXT: subl $28, %esp			; X32-F16C-NEXT: subl $28, %esp
	; X32-F16C-NEXT: .cfi_def_cfa_offset 32			; X32-F16C-NEXT: .cfi_def_cfa_offset 32
	; X32-F16C-NEXT: fldt {{[0-9]+}}(%esp)			; X32-F16C-NEXT: fldt {{[0-9]+}}(%esp)
	; X32-F16C-NEXT: fstpt (%esp)			; X32-F16C-NEXT: fstpt (%esp)
	; X32-F16C-NEXT: wait			; X32-F16C-NEXT: wait
	; X32-F16C-NEXT: calll ___truncxfhf2			; X32-F16C-NEXT: calll ___truncxfhf2
	; X32-F16C-NEXT: movw %ax, _a			; X32-F16C-NEXT: vpextrw $0, %xmm0, _a
	; X32-F16C-NEXT: addl $28, %esp			; X32-F16C-NEXT: addl $28, %esp
	; X32-F16C-NEXT: retl			; X32-F16C-NEXT: retl
	;			;
	; X64-NOF16C-LABEL: fp80_to_half:			; X64-NOF16C-LABEL: fp80_to_half:
	; X64-NOF16C: ## %bb.0:			; X64-NOF16C: ## %bb.0:
	; X64-NOF16C-NEXT: subq $24, %rsp			; X64-NOF16C-NEXT: subq $24, %rsp
	; X64-NOF16C-NEXT: .cfi_def_cfa_offset 32			; X64-NOF16C-NEXT: .cfi_def_cfa_offset 32
	; X64-NOF16C-NEXT: fldt {{[0-9]+}}(%rsp)			; X64-NOF16C-NEXT: fldt {{[0-9]+}}(%rsp)
	; X64-NOF16C-NEXT: fstpt (%rsp)			; X64-NOF16C-NEXT: fstpt (%rsp)
	; X64-NOF16C-NEXT: wait			; X64-NOF16C-NEXT: wait
	; X64-NOF16C-NEXT: callq ___truncxfhf2			; X64-NOF16C-NEXT: callq ___truncxfhf2
				; X64-NOF16C-NEXT: pextrw $0, %xmm0, %eax
	; X64-NOF16C-NEXT: movw %ax, _a(%rip)			; X64-NOF16C-NEXT: movw %ax, _a(%rip)
	; X64-NOF16C-NEXT: addq $24, %rsp			; X64-NOF16C-NEXT: addq $24, %rsp
	; X64-NOF16C-NEXT: retq			; X64-NOF16C-NEXT: retq
	;			;
	; X64-F16C-LABEL: fp80_to_half:			; X64-F16C-LABEL: fp80_to_half:
	; X64-F16C: ## %bb.0:			; X64-F16C: ## %bb.0:
	; X64-F16C-NEXT: subq $24, %rsp			; X64-F16C-NEXT: subq $24, %rsp
	; X64-F16C-NEXT: .cfi_def_cfa_offset 32			; X64-F16C-NEXT: .cfi_def_cfa_offset 32
	; X64-F16C-NEXT: fldt {{[0-9]+}}(%rsp)			; X64-F16C-NEXT: fldt {{[0-9]+}}(%rsp)
	; X64-F16C-NEXT: fstpt (%rsp)			; X64-F16C-NEXT: fstpt (%rsp)
	; X64-F16C-NEXT: wait			; X64-F16C-NEXT: wait
	; X64-F16C-NEXT: callq ___truncxfhf2			; X64-F16C-NEXT: callq ___truncxfhf2
	; X64-F16C-NEXT: movw %ax, _a(%rip)			; X64-F16C-NEXT: vpextrw $0, %xmm0, _a(%rip)
	; X64-F16C-NEXT: addq $24, %rsp			; X64-F16C-NEXT: addq $24, %rsp
	; X64-F16C-NEXT: retq			; X64-F16C-NEXT: retq
	%2 = tail call half @llvm.experimental.constrained.fptrunc.f16.f80(x86_fp80 %0, metadata !"round.tonearest", metadata !"fpexcept.strict") #0			%2 = tail call half @llvm.experimental.constrained.fptrunc.f16.f80(x86_fp80 %0, metadata !"round.tonearest", metadata !"fpexcept.strict") #0
	store half %2, half* @a, align 2			store half %2, half* @a, align 2
	ret void			ret void
	}			}

	define void @add() strictfp {			define void @add() strictfp {
	Show All 25 Lines
	; X32-F16C-NEXT: vcvtph2ps %xmm0, %xmm0			; X32-F16C-NEXT: vcvtph2ps %xmm0, %xmm0
	; X32-F16C-NEXT: movzwl _b, %eax			; X32-F16C-NEXT: movzwl _b, %eax
	; X32-F16C-NEXT: vmovd %eax, %xmm1			; X32-F16C-NEXT: vmovd %eax, %xmm1
	; X32-F16C-NEXT: vcvtph2ps %xmm1, %xmm1			; X32-F16C-NEXT: vcvtph2ps %xmm1, %xmm1
	; X32-F16C-NEXT: vaddss %xmm1, %xmm0, %xmm0			; X32-F16C-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; X32-F16C-NEXT: vxorps %xmm1, %xmm1, %xmm1			; X32-F16C-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; X32-F16C-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]			; X32-F16C-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]
	; X32-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; X32-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; X32-F16C-NEXT: vpextrw $0, %xmm0, _c			; X32-F16C-NEXT: vmovd %xmm0, %eax
				; X32-F16C-NEXT: movw %ax, _c
	; X32-F16C-NEXT: retl			; X32-F16C-NEXT: retl
	;			;
	; X64-NOF16C-LABEL: add:			; X64-NOF16C-LABEL: add:
	; X64-NOF16C: ## %bb.0:			; X64-NOF16C: ## %bb.0:
	; X64-NOF16C-NEXT: pushq %rax			; X64-NOF16C-NEXT: pushq %rax
	; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16			; X64-NOF16C-NEXT: .cfi_def_cfa_offset 16
	; X64-NOF16C-NEXT: movzwl _a(%rip), %edi			; X64-NOF16C-NEXT: pinsrw $0, _a(%rip), %xmm0
	; X64-NOF16C-NEXT: callq ___extendhfsf2			; X64-NOF16C-NEXT: callq ___extendhfsf2
	; X64-NOF16C-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 4-byte Spill			; X64-NOF16C-NEXT: movd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) ## 4-byte Folded Spill
	; X64-NOF16C-NEXT: movzwl _b(%rip), %edi			; X64-NOF16C-NEXT: pinsrw $0, _b(%rip), %xmm0
	; X64-NOF16C-NEXT: callq ___extendhfsf2			; X64-NOF16C-NEXT: callq ___extendhfsf2
	; X64-NOF16C-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 4-byte Folded Reload			; X64-NOF16C-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 ## 4-byte Folded Reload
	; X64-NOF16C-NEXT: callq ___truncsfhf2			; X64-NOF16C-NEXT: callq ___truncsfhf2
				; X64-NOF16C-NEXT: pextrw $0, %xmm0, %eax
	; X64-NOF16C-NEXT: movw %ax, _c(%rip)			; X64-NOF16C-NEXT: movw %ax, _c(%rip)
	; X64-NOF16C-NEXT: popq %rax			; X64-NOF16C-NEXT: popq %rax
	; X64-NOF16C-NEXT: retq			; X64-NOF16C-NEXT: retq
	;			;
	; X64-F16C-LABEL: add:			; X64-F16C-LABEL: add:
	; X64-F16C: ## %bb.0:			; X64-F16C: ## %bb.0:
	; X64-F16C-NEXT: movzwl _a(%rip), %eax			; X64-F16C-NEXT: movzwl _a(%rip), %eax
	; X64-F16C-NEXT: vmovd %eax, %xmm0			; X64-F16C-NEXT: vmovd %eax, %xmm0
	; X64-F16C-NEXT: vcvtph2ps %xmm0, %xmm0			; X64-F16C-NEXT: vcvtph2ps %xmm0, %xmm0
	; X64-F16C-NEXT: movzwl _b(%rip), %eax			; X64-F16C-NEXT: movzwl _b(%rip), %eax
	; X64-F16C-NEXT: vmovd %eax, %xmm1			; X64-F16C-NEXT: vmovd %eax, %xmm1
	; X64-F16C-NEXT: vcvtph2ps %xmm1, %xmm1			; X64-F16C-NEXT: vcvtph2ps %xmm1, %xmm1
	; X64-F16C-NEXT: vaddss %xmm1, %xmm0, %xmm0			; X64-F16C-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; X64-F16C-NEXT: vxorps %xmm1, %xmm1, %xmm1			; X64-F16C-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; X64-F16C-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]			; X64-F16C-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]
	; X64-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; X64-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; X64-F16C-NEXT: vpextrw $0, %xmm0, _c(%rip)			; X64-F16C-NEXT: vmovd %xmm0, %eax
				; X64-F16C-NEXT: movw %ax, _c(%rip)
	; X64-F16C-NEXT: retq			; X64-F16C-NEXT: retq
	%1 = load half, half* @a, align 2			%1 = load half, half* @a, align 2
	%2 = tail call float @llvm.experimental.constrained.fpext.f32.f16(half %1, metadata !"fpexcept.strict") #0			%2 = tail call float @llvm.experimental.constrained.fpext.f32.f16(half %1, metadata !"fpexcept.strict") #0
	%3 = load half, half* @b, align 2			%3 = load half, half* @b, align 2
	%4 = tail call float @llvm.experimental.constrained.fpext.f32.f16(half %3, metadata !"fpexcept.strict") #0			%4 = tail call float @llvm.experimental.constrained.fpext.f32.f16(half %3, metadata !"fpexcept.strict") #0
	%5 = tail call float @llvm.experimental.constrained.fadd.f32(float %2, float %4, metadata !"round.tonearest", metadata !"fpexcept.strict") #0			%5 = tail call float @llvm.experimental.constrained.fadd.f32(float %2, float %4, metadata !"round.tonearest", metadata !"fpexcept.strict") #0
	%6 = tail call half @llvm.experimental.constrained.fptrunc.f16.f32(float %5, metadata !"round.tonearest", metadata !"fpexcept.strict") #0			%6 = tail call half @llvm.experimental.constrained.fptrunc.f16.f32(float %5, metadata !"round.tonearest", metadata !"fpexcept.strict") #0
	store half %6, half* @c, align 2			store half %6, half* @c, align 2
	Show All 13 Lines

llvm/test/CodeGen/X86/half.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=-f16c -fixup-byte-word-insts=1 \		; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=-f16c -fixup-byte-word-insts=1 \
; RUN: \| FileCheck %s -check-prefixes=CHECK,CHECK-LIBCALL,BWON,BWON-NOF16C		; RUN: \| FileCheck %s -check-prefixes=CHECK,CHECK-LIBCALL,BWON
; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=-f16c -fixup-byte-word-insts=0 \		; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=-f16c -fixup-byte-word-insts=0 \
; RUN: \| FileCheck %s -check-prefixes=CHECK,CHECK-LIBCALL,BWOFF		; RUN: \| FileCheck %s -check-prefixes=CHECK,CHECK-LIBCALL,BWOFF
; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+f16c -fixup-byte-word-insts=1 \		; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+f16c -fixup-byte-word-insts=1 \
; RUN: \| FileCheck %s -check-prefixes=CHECK,BWON,BWON-F16C		; RUN: \| FileCheck %s -check-prefixes=CHECK,BWON,BWON-F16C
; RUN: llc < %s -mtriple=i686-unknown-linux-gnu -mattr +sse2 -fixup-byte-word-insts=0 \		; RUN: llc < %s -mtriple=i686-unknown-linux-gnu -mattr +sse2 -fixup-byte-word-insts=0 \
; RUN: \| FileCheck %s -check-prefixes=CHECK-I686		; RUN: \| FileCheck %s -check-prefixes=CHECK-I686

define void @test_load_store(half* %in, half* %out) #0 {		define void @test_load_store(half* %in, half* %out) #0 {
; BWON-LABEL: test_load_store:		; CHECK-LIBCALL-LABEL: test_load_store:
; BWON: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; BWON-NEXT: movzwl (%rdi), %eax		; CHECK-LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
; BWON-NEXT: movw %ax, (%rsi)		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; BWON-NEXT: retq		; CHECK-LIBCALL-NEXT: movw %ax, (%rsi)
		; CHECK-LIBCALL-NEXT: retq
;		;
; BWOFF-LABEL: test_load_store:		; BWON-F16C-LABEL: test_load_store:
; BWOFF: # %bb.0:		; BWON-F16C: # %bb.0:
; BWOFF-NEXT: movw (%rdi), %ax		; BWON-F16C-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm0
; BWOFF-NEXT: movw %ax, (%rsi)		; BWON-F16C-NEXT: vpextrw $0, %xmm0, (%rsi)
; BWOFF-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_load_store:		; CHECK-I686-LABEL: test_load_store:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %ecx		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %ecx
; CHECK-I686-NEXT: movw (%ecx), %cx		; CHECK-I686-NEXT: pinsrw $0, (%ecx), %xmm0
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %ecx
; CHECK-I686-NEXT: movw %cx, (%eax)		; CHECK-I686-NEXT: movw %cx, (%eax)
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%val = load half, half* %in		%val = load half, half* %in
store half %val, half* %out		store half %val, half* %out
ret void		ret void
}		}

define i16 @test_bitcast_from_half(half* %addr) #0 {		define i16 @test_bitcast_from_half(half* %addr) #0 {
Show All 32 Lines	; CHECK-I686-NEXT: retl
%val_fp = bitcast i16 %in to half		%val_fp = bitcast i16 %in to half
store half %val_fp, half* %addr		store half %val_fp, half* %addr
ret void		ret void
}		}

define float @test_extend32(half* %addr) #0 {		define float @test_extend32(half* %addr) #0 {
; CHECK-LIBCALL-LABEL: test_extend32:		; CHECK-LIBCALL-LABEL: test_extend32:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: movzwl (%rdi), %edi		; CHECK-LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
; CHECK-LIBCALL-NEXT: jmp __gnu_h2f_ieee@PLT # TAILCALL		; CHECK-LIBCALL-NEXT: jmp __extendhfsf2@PLT # TAILCALL
;		;
; BWON-F16C-LABEL: test_extend32:		; BWON-F16C-LABEL: test_extend32:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: movzwl (%rdi), %eax		; BWON-F16C-NEXT: movzwl (%rdi), %eax
; BWON-F16C-NEXT: vmovd %eax, %xmm0		; BWON-F16C-NEXT: vmovd %eax, %xmm0
; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0		; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_extend32:		; CHECK-I686-LABEL: test_extend32:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: subl $12, %esp		; CHECK-I686-NEXT: subl $12, %esp
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: movzwl (%eax), %eax		; CHECK-I686-NEXT: pinsrw $0, (%eax), %xmm0
; CHECK-I686-NEXT: movl %eax, (%esp)		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: movw %ax, (%esp)
		; CHECK-I686-NEXT: calll __extendhfsf2
; CHECK-I686-NEXT: addl $12, %esp		; CHECK-I686-NEXT: addl $12, %esp
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%val16 = load half, half* %addr		%val16 = load half, half* %addr
%val32 = fpext half %val16 to float		%val32 = fpext half %val16 to float
ret float %val32		ret float %val32
}		}

define double @test_extend64(half* %addr) #0 {		define double @test_extend64(half* %addr) #0 {
; CHECK-LIBCALL-LABEL: test_extend64:		; CHECK-LIBCALL-LABEL: test_extend64:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: pushq %rax		; CHECK-LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
; CHECK-LIBCALL-NEXT: movzwl (%rdi), %edi		; CHECK-LIBCALL-NEXT: jmp __extendhfdf2@PLT # TAILCALL
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-LIBCALL-NEXT: cvtss2sd %xmm0, %xmm0
; CHECK-LIBCALL-NEXT: popq %rax
; CHECK-LIBCALL-NEXT: retq
;		;
; BWON-F16C-LABEL: test_extend64:		; BWON-F16C-LABEL: test_extend64:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: movzwl (%rdi), %eax		; BWON-F16C-NEXT: movzwl (%rdi), %eax
; BWON-F16C-NEXT: vmovd %eax, %xmm0		; BWON-F16C-NEXT: vmovd %eax, %xmm0
; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0		; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0
; BWON-F16C-NEXT: vcvtss2sd %xmm0, %xmm0, %xmm0		; BWON-F16C-NEXT: vcvtss2sd %xmm0, %xmm0, %xmm0
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_extend64:		; CHECK-I686-LABEL: test_extend64:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: subl $12, %esp		; CHECK-I686-NEXT: subl $12, %esp
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: movzwl (%eax), %eax		; CHECK-I686-NEXT: pinsrw $0, (%eax), %xmm0
; CHECK-I686-NEXT: movl %eax, (%esp)		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: movw %ax, (%esp)
		; CHECK-I686-NEXT: calll __extendhfdf2
; CHECK-I686-NEXT: addl $12, %esp		; CHECK-I686-NEXT: addl $12, %esp
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%val16 = load half, half* %addr		%val16 = load half, half* %addr
%val32 = fpext half %val16 to double		%val32 = fpext half %val16 to double
ret double %val32		ret double %val32
}		}

define void @test_trunc32(float %in, half* %addr) #0 {		define void @test_trunc32(float %in, half* %addr) #0 {
; CHECK-LIBCALL-LABEL: test_trunc32:		; CHECK-LIBCALL-LABEL: test_trunc32:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: pushq %rbx		; CHECK-LIBCALL-NEXT: pushq %rbx
; CHECK-LIBCALL-NEXT: movq %rdi, %rbx		; CHECK-LIBCALL-NEXT: movq %rdi, %rbx
; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee@PLT		; CHECK-LIBCALL-NEXT: callq __truncsfhf2@PLT
		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; CHECK-LIBCALL-NEXT: movw %ax, (%rbx)		; CHECK-LIBCALL-NEXT: movw %ax, (%rbx)
; CHECK-LIBCALL-NEXT: popq %rbx		; CHECK-LIBCALL-NEXT: popq %rbx
; CHECK-LIBCALL-NEXT: retq		; CHECK-LIBCALL-NEXT: retq
;		;
; BWON-F16C-LABEL: test_trunc32:		; BWON-F16C-LABEL: test_trunc32:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0		; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; BWON-F16C-NEXT: vpextrw $0, %xmm0, (%rdi)		; BWON-F16C-NEXT: vmovd %xmm0, %eax
		; BWON-F16C-NEXT: movw %ax, (%rdi)
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_trunc32:		; CHECK-I686-LABEL: test_trunc32:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: pushl %esi		; CHECK-I686-NEXT: pushl %esi
; CHECK-I686-NEXT: subl $8, %esp		; CHECK-I686-NEXT: subl $8, %esp
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %esi		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %esi
; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; CHECK-I686-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; CHECK-I686-NEXT: movss %xmm0, (%esp)		; CHECK-I686-NEXT: movd %xmm0, (%esp)
; CHECK-I686-NEXT: calll __gnu_f2h_ieee		; CHECK-I686-NEXT: calll __truncsfhf2
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: movw %ax, (%esi)		; CHECK-I686-NEXT: movw %ax, (%esi)
; CHECK-I686-NEXT: addl $8, %esp		; CHECK-I686-NEXT: addl $8, %esp
; CHECK-I686-NEXT: popl %esi		; CHECK-I686-NEXT: popl %esi
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%val16 = fptrunc float %in to half		%val16 = fptrunc float %in to half
store half %val16, half* %addr		store half %val16, half* %addr
ret void		ret void
}		}

define void @test_trunc64(double %in, half* %addr) #0 {		define void @test_trunc64(double %in, half* %addr) #0 {
; CHECK-LABEL: test_trunc64:		; CHECK-LIBCALL-LABEL: test_trunc64:
; CHECK: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-NEXT: pushq %rbx		; CHECK-LIBCALL-NEXT: pushq %rbx
; CHECK-NEXT: movq %rdi, %rbx		; CHECK-LIBCALL-NEXT: movq %rdi, %rbx
; CHECK-NEXT: callq __truncdfhf2@PLT		; CHECK-LIBCALL-NEXT: callq __truncdfhf2@PLT
; CHECK-NEXT: movw %ax, (%rbx)		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; CHECK-NEXT: popq %rbx		; CHECK-LIBCALL-NEXT: movw %ax, (%rbx)
; CHECK-NEXT: retq		; CHECK-LIBCALL-NEXT: popq %rbx
		; CHECK-LIBCALL-NEXT: retq
		;
		; BWON-F16C-LABEL: test_trunc64:
		; BWON-F16C: # %bb.0:
		; BWON-F16C-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
		; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
		; BWON-F16C-NEXT: vmovd %xmm0, %eax
		; BWON-F16C-NEXT: movw %ax, (%rdi)
		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_trunc64:		; CHECK-I686-LABEL: test_trunc64:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: pushl %esi		; CHECK-I686-NEXT: pushl %esi
; CHECK-I686-NEXT: subl $8, %esp		; CHECK-I686-NEXT: subl $8, %esp
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %esi		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %esi
; CHECK-I686-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; CHECK-I686-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; CHECK-I686-NEXT: movsd %xmm0, (%esp)		; CHECK-I686-NEXT: movq %xmm0, (%esp)
; CHECK-I686-NEXT: calll __truncdfhf2		; CHECK-I686-NEXT: calll __truncdfhf2
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: movw %ax, (%esi)		; CHECK-I686-NEXT: movw %ax, (%esi)
; CHECK-I686-NEXT: addl $8, %esp		; CHECK-I686-NEXT: addl $8, %esp
; CHECK-I686-NEXT: popl %esi		; CHECK-I686-NEXT: popl %esi
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%val16 = fptrunc double %in to half		%val16 = fptrunc double %in to half
store half %val16, half* %addr		store half %val16, half* %addr
ret void		ret void
}		}

define i64 @test_fptosi_i64(half* %p) #0 {		define i64 @test_fptosi_i64(half* %p) #0 {
; CHECK-LIBCALL-LABEL: test_fptosi_i64:		; CHECK-LIBCALL-LABEL: test_fptosi_i64:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: pushq %rax		; CHECK-LIBCALL-NEXT: pushq %rax
; CHECK-LIBCALL-NEXT: movzwl (%rdi), %edi		; CHECK-LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-LIBCALL-NEXT: callq __extendhfsf2@PLT
; CHECK-LIBCALL-NEXT: cvttss2si %xmm0, %rax		; CHECK-LIBCALL-NEXT: cvttss2si %xmm0, %rax
; CHECK-LIBCALL-NEXT: popq %rcx		; CHECK-LIBCALL-NEXT: popq %rcx
; CHECK-LIBCALL-NEXT: retq		; CHECK-LIBCALL-NEXT: retq
;		;
; BWON-F16C-LABEL: test_fptosi_i64:		; BWON-F16C-LABEL: test_fptosi_i64:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: movzwl (%rdi), %eax		; BWON-F16C-NEXT: movzwl (%rdi), %eax
; BWON-F16C-NEXT: vmovd %eax, %xmm0		; BWON-F16C-NEXT: vmovd %eax, %xmm0
; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0		; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0
; BWON-F16C-NEXT: vcvttss2si %xmm0, %rax		; BWON-F16C-NEXT: vcvttss2si %xmm0, %rax
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_fptosi_i64:		; CHECK-I686-LABEL: test_fptosi_i64:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: subl $28, %esp		; CHECK-I686-NEXT: subl $12, %esp
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: movzwl (%eax), %eax
; CHECK-I686-NEXT: movl %eax, (%esp)
; CHECK-I686-NEXT: calll __gnu_h2f_ieee
; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: flds {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fnstcw {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movzwl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: orl $3072, %eax # imm = 0xC00
; CHECK-I686-NEXT: movw %ax, {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fldcw {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fistpll {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fldcw {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %edx		; CHECK-I686-NEXT: pinsrw $0, (%eax), %xmm0
; CHECK-I686-NEXT: addl $28, %esp		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
		; CHECK-I686-NEXT: movw %ax, (%esp)
		; CHECK-I686-NEXT: calll __fixhfdi
		; CHECK-I686-NEXT: addl $12, %esp
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%a = load half, half* %p, align 2		%a = load half, half* %p, align 2
%r = fptosi half %a to i64		%r = fptosi half %a to i64
ret i64 %r		ret i64 %r
}		}

define void @test_sitofp_i64(i64 %a, half* %p) #0 {		define void @test_sitofp_i64(i64 %a, half* %p) #0 {
; CHECK-LIBCALL-LABEL: test_sitofp_i64:		; CHECK-LIBCALL-LABEL: test_sitofp_i64:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: pushq %rbx		; CHECK-LIBCALL-NEXT: pushq %rbx
; CHECK-LIBCALL-NEXT: movq %rsi, %rbx		; CHECK-LIBCALL-NEXT: movq %rsi, %rbx
; CHECK-LIBCALL-NEXT: cvtsi2ss %rdi, %xmm0		; CHECK-LIBCALL-NEXT: callq __floatdihf@PLT
; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee@PLT		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; CHECK-LIBCALL-NEXT: movw %ax, (%rbx)		; CHECK-LIBCALL-NEXT: movw %ax, (%rbx)
; CHECK-LIBCALL-NEXT: popq %rbx		; CHECK-LIBCALL-NEXT: popq %rbx
; CHECK-LIBCALL-NEXT: retq		; CHECK-LIBCALL-NEXT: retq
;		;
; BWON-F16C-LABEL: test_sitofp_i64:		; BWON-F16C-LABEL: test_sitofp_i64:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: vcvtsi2ss %rdi, %xmm0, %xmm0		; BWON-F16C-NEXT: pushq %rbx
; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0		; BWON-F16C-NEXT: movq %rsi, %rbx
; BWON-F16C-NEXT: vpextrw $0, %xmm0, (%rsi)		; BWON-F16C-NEXT: callq __floatdihf@PLT
		; BWON-F16C-NEXT: vpextrw $0, %xmm0, (%rbx)
		; BWON-F16C-NEXT: popq %rbx
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_sitofp_i64:		; CHECK-I686-LABEL: test_sitofp_i64:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: pushl %esi		; CHECK-I686-NEXT: pushl %esi
; CHECK-I686-NEXT: subl $24, %esp		; CHECK-I686-NEXT: subl $8, %esp
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %esi		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %esi
; CHECK-I686-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; CHECK-I686-NEXT: subl $8, %esp
; CHECK-I686-NEXT: movlps %xmm0, {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: pushl {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fildll {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: pushl {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: calll __floatdihf
; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; CHECK-I686-NEXT: addl $16, %esp
; CHECK-I686-NEXT: movss %xmm0, (%esp)		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: calll __gnu_f2h_ieee
; CHECK-I686-NEXT: movw %ax, (%esi)		; CHECK-I686-NEXT: movw %ax, (%esi)
; CHECK-I686-NEXT: addl $24, %esp		; CHECK-I686-NEXT: addl $8, %esp
; CHECK-I686-NEXT: popl %esi		; CHECK-I686-NEXT: popl %esi
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%r = sitofp i64 %a to half		%r = sitofp i64 %a to half
store half %r, half* %p		store half %r, half* %p
ret void		ret void
}		}

define i64 @test_fptoui_i64(half* %p) #0 {		define i64 @test_fptoui_i64(half* %p) #0 {
; CHECK-LIBCALL-LABEL: test_fptoui_i64:		; CHECK-LIBCALL-LABEL: test_fptoui_i64:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: pushq %rax		; CHECK-LIBCALL-NEXT: pushq %rax
; CHECK-LIBCALL-NEXT: movzwl (%rdi), %edi		; CHECK-LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-LIBCALL-NEXT: callq __extendhfsf2@PLT
; CHECK-LIBCALL-NEXT: cvttss2si %xmm0, %rcx		; CHECK-LIBCALL-NEXT: cvttss2si %xmm0, %rcx
; CHECK-LIBCALL-NEXT: movq %rcx, %rdx		; CHECK-LIBCALL-NEXT: movq %rcx, %rdx
; CHECK-LIBCALL-NEXT: sarq $63, %rdx		; CHECK-LIBCALL-NEXT: sarq $63, %rdx
; CHECK-LIBCALL-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0		; CHECK-LIBCALL-NEXT: subss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
; CHECK-LIBCALL-NEXT: cvttss2si %xmm0, %rax		; CHECK-LIBCALL-NEXT: cvttss2si %xmm0, %rax
; CHECK-LIBCALL-NEXT: andq %rdx, %rax		; CHECK-LIBCALL-NEXT: andq %rdx, %rax
; CHECK-LIBCALL-NEXT: orq %rcx, %rax		; CHECK-LIBCALL-NEXT: orq %rcx, %rax
; CHECK-LIBCALL-NEXT: popq %rcx		; CHECK-LIBCALL-NEXT: popq %rcx
Show All 10 Lines
; BWON-F16C-NEXT: vsubss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0		; BWON-F16C-NEXT: vsubss {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
; BWON-F16C-NEXT: vcvttss2si %xmm0, %rax		; BWON-F16C-NEXT: vcvttss2si %xmm0, %rax
; BWON-F16C-NEXT: andq %rdx, %rax		; BWON-F16C-NEXT: andq %rdx, %rax
; BWON-F16C-NEXT: orq %rcx, %rax		; BWON-F16C-NEXT: orq %rcx, %rax
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_fptoui_i64:		; CHECK-I686-LABEL: test_fptoui_i64:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: subl $28, %esp		; CHECK-I686-NEXT: subl $12, %esp
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: movzwl (%eax), %eax
; CHECK-I686-NEXT: movl %eax, (%esp)
; CHECK-I686-NEXT: calll __gnu_h2f_ieee
; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; CHECK-I686-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; CHECK-I686-NEXT: ucomiss %xmm1, %xmm0
; CHECK-I686-NEXT: jae .LBB9_2
; CHECK-I686-NEXT: # %bb.1:
; CHECK-I686-NEXT: xorps %xmm1, %xmm1
; CHECK-I686-NEXT: .LBB9_2:
; CHECK-I686-NEXT: subss %xmm1, %xmm0
; CHECK-I686-NEXT: movss %xmm0, {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: setae %al
; CHECK-I686-NEXT: flds {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fnstcw {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movzwl {{[0-9]+}}(%esp), %ecx
; CHECK-I686-NEXT: orl $3072, %ecx # imm = 0xC00
; CHECK-I686-NEXT: movw %cx, {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fldcw {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fistpll {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fldcw {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movzbl %al, %edx
; CHECK-I686-NEXT: shll $31, %edx
; CHECK-I686-NEXT: xorl {{[0-9]+}}(%esp), %edx
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: addl $28, %esp		; CHECK-I686-NEXT: pinsrw $0, (%eax), %xmm0
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
		; CHECK-I686-NEXT: movw %ax, (%esp)
		; CHECK-I686-NEXT: calll __fixunshfdi
		; CHECK-I686-NEXT: addl $12, %esp
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%a = load half, half* %p, align 2		%a = load half, half* %p, align 2
%r = fptoui half %a to i64		%r = fptoui half %a to i64
ret i64 %r		ret i64 %r
}		}

define void @test_uitofp_i64(i64 %a, half* %p) #0 {		define void @test_uitofp_i64(i64 %a, half* %p) #0 {
; CHECK-LIBCALL-LABEL: test_uitofp_i64:		; CHECK-LIBCALL-LABEL: test_uitofp_i64:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: pushq %rbx		; CHECK-LIBCALL-NEXT: pushq %rbx
; CHECK-LIBCALL-NEXT: movq %rsi, %rbx		; CHECK-LIBCALL-NEXT: movq %rsi, %rbx
; CHECK-LIBCALL-NEXT: testq %rdi, %rdi		; CHECK-LIBCALL-NEXT: callq __floatundihf@PLT
; CHECK-LIBCALL-NEXT: js .LBB10_1		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; CHECK-LIBCALL-NEXT: # %bb.2:
; CHECK-LIBCALL-NEXT: cvtsi2ss %rdi, %xmm0
; CHECK-LIBCALL-NEXT: jmp .LBB10_3
; CHECK-LIBCALL-NEXT: .LBB10_1:
; CHECK-LIBCALL-NEXT: movq %rdi, %rax
; CHECK-LIBCALL-NEXT: shrq %rax
; CHECK-LIBCALL-NEXT: andl $1, %edi
; CHECK-LIBCALL-NEXT: orq %rax, %rdi
; CHECK-LIBCALL-NEXT: cvtsi2ss %rdi, %xmm0
; CHECK-LIBCALL-NEXT: addss %xmm0, %xmm0
; CHECK-LIBCALL-NEXT: .LBB10_3:
; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee@PLT
; CHECK-LIBCALL-NEXT: movw %ax, (%rbx)		; CHECK-LIBCALL-NEXT: movw %ax, (%rbx)
; CHECK-LIBCALL-NEXT: popq %rbx		; CHECK-LIBCALL-NEXT: popq %rbx
; CHECK-LIBCALL-NEXT: retq		; CHECK-LIBCALL-NEXT: retq
;		;
; BWON-F16C-LABEL: test_uitofp_i64:		; BWON-F16C-LABEL: test_uitofp_i64:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: testq %rdi, %rdi		; BWON-F16C-NEXT: pushq %rbx
; BWON-F16C-NEXT: js .LBB10_1		; BWON-F16C-NEXT: movq %rsi, %rbx
; BWON-F16C-NEXT: # %bb.2:		; BWON-F16C-NEXT: callq __floatundihf@PLT
; BWON-F16C-NEXT: vcvtsi2ss %rdi, %xmm0, %xmm0		; BWON-F16C-NEXT: vpextrw $0, %xmm0, (%rbx)
; BWON-F16C-NEXT: jmp .LBB10_3		; BWON-F16C-NEXT: popq %rbx
; BWON-F16C-NEXT: .LBB10_1:
; BWON-F16C-NEXT: movq %rdi, %rax
; BWON-F16C-NEXT: shrq %rax
; BWON-F16C-NEXT: andl $1, %edi
; BWON-F16C-NEXT: orq %rax, %rdi
; BWON-F16C-NEXT: vcvtsi2ss %rdi, %xmm0, %xmm0
; BWON-F16C-NEXT: vaddss %xmm0, %xmm0, %xmm0
; BWON-F16C-NEXT: .LBB10_3:
; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; BWON-F16C-NEXT: vpextrw $0, %xmm0, (%rsi)
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_uitofp_i64:		; CHECK-I686-LABEL: test_uitofp_i64:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: pushl %esi		; CHECK-I686-NEXT: pushl %esi
; CHECK-I686-NEXT: subl $24, %esp		; CHECK-I686-NEXT: subl $8, %esp
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %esi		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %esi
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax		; CHECK-I686-NEXT: subl $8, %esp
; CHECK-I686-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; CHECK-I686-NEXT: pushl {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movlps %xmm0, {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: pushl {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: shrl $31, %eax		; CHECK-I686-NEXT: calll __floatundihf
; CHECK-I686-NEXT: fildll {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: addl $16, %esp
; CHECK-I686-NEXT: fadds {{\.?LCPI[0-9]+_[0-9]+}}(,%eax,4)		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: fstps (%esp)
; CHECK-I686-NEXT: calll __gnu_f2h_ieee
; CHECK-I686-NEXT: movw %ax, (%esi)		; CHECK-I686-NEXT: movw %ax, (%esi)
; CHECK-I686-NEXT: addl $24, %esp		; CHECK-I686-NEXT: addl $8, %esp
; CHECK-I686-NEXT: popl %esi		; CHECK-I686-NEXT: popl %esi
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%r = uitofp i64 %a to half		%r = uitofp i64 %a to half
store half %r, half* %p		store half %r, half* %p
ret void		ret void
}		}

define <4 x float> @test_extend32_vec4(<4 x half>* %p) #0 {		define <4 x float> @test_extend32_vec4(<4 x half>* %p) #0 {
; CHECK-LIBCALL-LABEL: test_extend32_vec4:		; CHECK-LIBCALL-LABEL: test_extend32_vec4:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: subq $88, %rsp		; CHECK-LIBCALL-NEXT: subq $72, %rsp
; CHECK-LIBCALL-NEXT: movl (%rdi), %eax		; CHECK-LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
; CHECK-LIBCALL-NEXT: movl 4(%rdi), %ecx
; CHECK-LIBCALL-NEXT: movl %eax, (%rsp)
; CHECK-LIBCALL-NEXT: movl %ecx, {{[0-9]+}}(%rsp)
; CHECK-LIBCALL-NEXT: movaps (%rsp), %xmm0
; CHECK-LIBCALL-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-LIBCALL-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm0
; CHECK-LIBCALL-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-LIBCALL-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-LIBCALL-NEXT: pextrw $1, %xmm0, %edi		; CHECK-LIBCALL-NEXT: pinsrw $0, 2(%rdi), %xmm0
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-LIBCALL-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-LIBCALL-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-LIBCALL-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-LIBCALL-NEXT: pinsrw $0, 4(%rdi), %xmm0
; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %edi		; CHECK-LIBCALL-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-LIBCALL-NEXT: pinsrw $0, 6(%rdi), %xmm0
; CHECK-LIBCALL-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-LIBCALL-NEXT: callq __extendhfsf2@PLT
; CHECK-LIBCALL-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-LIBCALL-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-LIBCALL-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-LIBCALL-NEXT: pextrw $1, %xmm0, %edi
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-LIBCALL-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-LIBCALL-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-LIBCALL-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-LIBCALL-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %edi		; CHECK-LIBCALL-NEXT: callq __extendhfsf2@PLT
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-LIBCALL-NEXT: unpcklps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-LIBCALL-NEXT: punpckldq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-LIBCALL-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]		; CHECK-LIBCALL-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
; CHECK-LIBCALL-NEXT: punpcklqdq {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload		; CHECK-LIBCALL-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill
		; CHECK-LIBCALL-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-LIBCALL-NEXT: callq __extendhfsf2@PLT
		; CHECK-LIBCALL-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
		; CHECK-LIBCALL-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-LIBCALL-NEXT: callq __extendhfsf2@PLT
		; CHECK-LIBCALL-NEXT: unpcklps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
		; CHECK-LIBCALL-NEXT: # xmm0 = xmm0[0],mem[0],xmm0[1],mem[1]
		; CHECK-LIBCALL-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-LIBCALL-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-LIBCALL-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-LIBCALL-NEXT: addq $88, %rsp		; CHECK-LIBCALL-NEXT: addq $72, %rsp
; CHECK-LIBCALL-NEXT: retq		; CHECK-LIBCALL-NEXT: retq
;		;
; BWON-F16C-LABEL: test_extend32_vec4:		; BWON-F16C-LABEL: test_extend32_vec4:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: vcvtph2ps (%rdi), %xmm0		; BWON-F16C-NEXT: vcvtph2ps (%rdi), %xmm0
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_extend32_vec4:		; CHECK-I686-LABEL: test_extend32_vec4:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: subl $124, %esp		; CHECK-I686-NEXT: pushl %esi
		; CHECK-I686-NEXT: subl $88, %esp
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: movl (%eax), %ecx		; CHECK-I686-NEXT: pinsrw $0, (%eax), %xmm0
; CHECK-I686-NEXT: movl 4(%eax), %eax		; CHECK-I686-NEXT: movdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movl %eax, {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: pinsrw $0, 6(%eax), %xmm0
; CHECK-I686-NEXT: movl %ecx, {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movaps {{[0-9]+}}(%esp), %xmm0
; CHECK-I686-NEXT: movaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movdqa {{[0-9]+}}(%esp), %xmm0
; CHECK-I686-NEXT: movdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill		; CHECK-I686-NEXT: movdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: pextrw $1, %xmm0, %eax		; CHECK-I686-NEXT: pinsrw $0, 4(%eax), %xmm0
; CHECK-I686-NEXT: movl %eax, (%esp)		; CHECK-I686-NEXT: pinsrw $0, 2(%eax), %xmm1
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: pextrw $0, %xmm1, %eax
		; CHECK-I686-NEXT: movw %ax, (%esp)
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %esi
		; CHECK-I686-NEXT: calll __extendhfsf2
; CHECK-I686-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill		; CHECK-I686-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
		; CHECK-I686-NEXT: movw %si, (%esp)
; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax		; CHECK-I686-NEXT: pextrw $0, %xmm0, %esi
; CHECK-I686-NEXT: movl %eax, (%esp)		; CHECK-I686-NEXT: calll __extendhfsf2
; CHECK-I686-NEXT: calll __gnu_h2f_ieee
; CHECK-I686-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill		; CHECK-I686-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
		; CHECK-I686-NEXT: movw %si, (%esp)
; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: pextrw $1, %xmm0, %eax		; CHECK-I686-NEXT: pextrw $0, %xmm0, %esi
; CHECK-I686-NEXT: movl %eax, (%esp)		; CHECK-I686-NEXT: calll __extendhfsf2
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: movw %si, (%esp)
; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: movl %eax, (%esp)
; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload		; CHECK-I686-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload
; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload		; CHECK-I686-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload
; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: calll __extendhfsf2
; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; CHECK-I686-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; CHECK-I686-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; CHECK-I686-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]		; CHECK-I686-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; CHECK-I686-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; CHECK-I686-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; CHECK-I686-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; CHECK-I686-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; CHECK-I686-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; CHECK-I686-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; CHECK-I686-NEXT: addl $124, %esp		; CHECK-I686-NEXT: addl $88, %esp
		; CHECK-I686-NEXT: popl %esi
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%a = load <4 x half>, <4 x half>* %p, align 8		%a = load <4 x half>, <4 x half>* %p, align 8
%b = fpext <4 x half> %a to <4 x float>		%b = fpext <4 x half> %a to <4 x float>
ret <4 x float> %b		ret <4 x float> %b
}		}

define <4 x double> @test_extend64_vec4(<4 x half>* %p) #0 {		define <4 x double> @test_extend64_vec4(<4 x half>* %p) #0 {
; CHECK-LIBCALL-LABEL: test_extend64_vec4:		; CHECK-LIBCALL-LABEL: test_extend64_vec4:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: pushq %rbp		; CHECK-LIBCALL-NEXT: subq $72, %rsp
; CHECK-LIBCALL-NEXT: pushq %r14		; CHECK-LIBCALL-NEXT: pinsrw $0, 4(%rdi), %xmm0
; CHECK-LIBCALL-NEXT: pushq %rbx		; CHECK-LIBCALL-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-LIBCALL-NEXT: subq $32, %rsp		; CHECK-LIBCALL-NEXT: pinsrw $0, 6(%rdi), %xmm0
; CHECK-LIBCALL-NEXT: movzwl 4(%rdi), %r14d		; CHECK-LIBCALL-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-LIBCALL-NEXT: movzwl 6(%rdi), %ebp		; CHECK-LIBCALL-NEXT: pinsrw $0, (%rdi), %xmm0
; CHECK-LIBCALL-NEXT: movzwl (%rdi), %ebx		; CHECK-LIBCALL-NEXT: movdqa %xmm0, (%rsp) # 16-byte Spill
; CHECK-LIBCALL-NEXT: movzwl 2(%rdi), %edi		; CHECK-LIBCALL-NEXT: pinsrw $0, 2(%rdi), %xmm0
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-LIBCALL-NEXT: callq __extendhfdf2@PLT
; CHECK-LIBCALL-NEXT: cvtss2sd %xmm0, %xmm0		; CHECK-LIBCALL-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-LIBCALL-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-LIBCALL-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-LIBCALL-NEXT: movl %ebx, %edi		; CHECK-LIBCALL-NEXT: callq __extendhfdf2@PLT
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-LIBCALL-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
; CHECK-LIBCALL-NEXT: cvtss2sd %xmm0, %xmm0
; CHECK-LIBCALL-NEXT: unpcklpd (%rsp), %xmm0 # 16-byte Folded Reload
; CHECK-LIBCALL-NEXT: # xmm0 = xmm0[0],mem[0]		; CHECK-LIBCALL-NEXT: # xmm0 = xmm0[0],mem[0]
; CHECK-LIBCALL-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-LIBCALL-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill
; CHECK-LIBCALL-NEXT: movl %ebp, %edi		; CHECK-LIBCALL-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-LIBCALL-NEXT: callq __extendhfdf2@PLT
; CHECK-LIBCALL-NEXT: cvtss2sd %xmm0, %xmm0
; CHECK-LIBCALL-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-LIBCALL-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-LIBCALL-NEXT: movl %r14d, %edi		; CHECK-LIBCALL-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-LIBCALL-NEXT: callq __extendhfdf2@PLT
; CHECK-LIBCALL-NEXT: cvtss2sd %xmm0, %xmm1		; CHECK-LIBCALL-NEXT: movaps %xmm0, %xmm1
; CHECK-LIBCALL-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload		; CHECK-LIBCALL-NEXT: unpcklpd {{[-0-9]+}}(%r{{[sb]}}p), %xmm1 # 16-byte Folded Reload
; CHECK-LIBCALL-NEXT: # xmm1 = xmm1[0],mem[0]		; CHECK-LIBCALL-NEXT: # xmm1 = xmm1[0],mem[0]
; CHECK-LIBCALL-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload		; CHECK-LIBCALL-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; CHECK-LIBCALL-NEXT: addq $32, %rsp		; CHECK-LIBCALL-NEXT: addq $72, %rsp
; CHECK-LIBCALL-NEXT: popq %rbx
; CHECK-LIBCALL-NEXT: popq %r14
; CHECK-LIBCALL-NEXT: popq %rbp
; CHECK-LIBCALL-NEXT: retq		; CHECK-LIBCALL-NEXT: retq
;		;
; BWON-F16C-LABEL: test_extend64_vec4:		; BWON-F16C-LABEL: test_extend64_vec4:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: vcvtph2ps (%rdi), %xmm0		; BWON-F16C-NEXT: vcvtph2ps (%rdi), %xmm0
; BWON-F16C-NEXT: vcvtps2pd %xmm0, %ymm0		; BWON-F16C-NEXT: vcvtps2pd %xmm0, %ymm0
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_extend64_vec4:		; CHECK-I686-LABEL: test_extend64_vec4:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: pushl %ebx
; CHECK-I686-NEXT: pushl %edi
; CHECK-I686-NEXT: pushl %esi		; CHECK-I686-NEXT: pushl %esi
; CHECK-I686-NEXT: subl $64, %esp		; CHECK-I686-NEXT: subl $104, %esp
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: movzwl 6(%eax), %esi		; CHECK-I686-NEXT: pinsrw $0, 6(%eax), %xmm0
; CHECK-I686-NEXT: movzwl (%eax), %edi		; CHECK-I686-NEXT: movdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movzwl 2(%eax), %ebx		; CHECK-I686-NEXT: pinsrw $0, (%eax), %xmm0
; CHECK-I686-NEXT: movzwl 4(%eax), %eax		; CHECK-I686-NEXT: movdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movl %eax, (%esp)		; CHECK-I686-NEXT: pinsrw $0, 2(%eax), %xmm0
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: pinsrw $0, 4(%eax), %xmm1
		; CHECK-I686-NEXT: pextrw $0, %xmm1, %eax
		; CHECK-I686-NEXT: movw %ax, (%esp)
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %esi
		; CHECK-I686-NEXT: calll __extendhfdf2
; CHECK-I686-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill		; CHECK-I686-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
; CHECK-I686-NEXT: movl %ebx, (%esp)		; CHECK-I686-NEXT: movw %si, (%esp)
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %esi
		; CHECK-I686-NEXT: calll __extendhfdf2
; CHECK-I686-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill		; CHECK-I686-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
; CHECK-I686-NEXT: movl %edi, (%esp)		; CHECK-I686-NEXT: movw %si, (%esp)
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: movl %esi, (%esp)		; CHECK-I686-NEXT: pextrw $0, %xmm0, %esi
		; CHECK-I686-NEXT: calll __extendhfdf2
		; CHECK-I686-NEXT: movw %si, (%esp)
; CHECK-I686-NEXT: fstpl {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: fstpl {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload		; CHECK-I686-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload
; CHECK-I686-NEXT: fstpl {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: fstpl {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload		; CHECK-I686-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload
; CHECK-I686-NEXT: fstpl {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: fstpl {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: calll __extendhfdf2
; CHECK-I686-NEXT: fstpl {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: fstpl {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero		; CHECK-I686-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; CHECK-I686-NEXT: movhps {{.*#+}} xmm0 = xmm0[0,1],mem[0,1]		; CHECK-I686-NEXT: movhps {{.*#+}} xmm0 = xmm0[0,1],mem[0,1]
; CHECK-I686-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero		; CHECK-I686-NEXT: movsd {{.*#+}} xmm1 = mem[0],zero
; CHECK-I686-NEXT: movhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]		; CHECK-I686-NEXT: movhps {{.*#+}} xmm1 = xmm1[0,1],mem[0,1]
; CHECK-I686-NEXT: addl $64, %esp		; CHECK-I686-NEXT: addl $104, %esp
; CHECK-I686-NEXT: popl %esi		; CHECK-I686-NEXT: popl %esi
; CHECK-I686-NEXT: popl %edi
; CHECK-I686-NEXT: popl %ebx
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%a = load <4 x half>, <4 x half>* %p, align 8		%a = load <4 x half>, <4 x half>* %p, align 8
%b = fpext <4 x half> %a to <4 x double>		%b = fpext <4 x half> %a to <4 x double>
ret <4 x double> %b		ret <4 x double> %b
}		}

define void @test_trunc32_vec4(<4 x float> %a, <4 x half>* %p) #0 {		define void @test_trunc32_vec4(<4 x float> %a, <4 x half>* %p) #0 {
; BWON-NOF16C-LABEL: test_trunc32_vec4:		; CHECK-LIBCALL-LABEL: test_trunc32_vec4:
; BWON-NOF16C: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; BWON-NOF16C-NEXT: pushq %rbp		; CHECK-LIBCALL-NEXT: pushq %rbx
; BWON-NOF16C-NEXT: pushq %r15		; CHECK-LIBCALL-NEXT: subq $64, %rsp
; BWON-NOF16C-NEXT: pushq %r14		; CHECK-LIBCALL-NEXT: movq %rdi, %rbx
; BWON-NOF16C-NEXT: pushq %rbx		; CHECK-LIBCALL-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill
; BWON-NOF16C-NEXT: subq $24, %rsp		; CHECK-LIBCALL-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; BWON-NOF16C-NEXT: movq %rdi, %rbx		; CHECK-LIBCALL-NEXT: callq __truncsfhf2@PLT
; BWON-NOF16C-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill		; CHECK-LIBCALL-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; BWON-NOF16C-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]		; CHECK-LIBCALL-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: callq __gnu_f2h_ieee@PLT		; CHECK-LIBCALL-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; BWON-NOF16C-NEXT: movl %eax, %r14d		; CHECK-LIBCALL-NEXT: callq __truncsfhf2@PLT
; BWON-NOF16C-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload		; CHECK-LIBCALL-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; BWON-NOF16C-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]		; CHECK-LIBCALL-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: callq __gnu_f2h_ieee@PLT		; CHECK-LIBCALL-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; BWON-NOF16C-NEXT: movl %eax, %r15d		; CHECK-LIBCALL-NEXT: callq __truncsfhf2@PLT
; BWON-NOF16C-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload		; CHECK-LIBCALL-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; BWON-NOF16C-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]		; CHECK-LIBCALL-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: callq __gnu_f2h_ieee@PLT		; CHECK-LIBCALL-NEXT: callq __truncsfhf2@PLT
; BWON-NOF16C-NEXT: movl %eax, %ebp		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; BWON-NOF16C-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload		; CHECK-LIBCALL-NEXT: movw %ax, (%rbx)
; BWON-NOF16C-NEXT: callq __gnu_f2h_ieee@PLT		; CHECK-LIBCALL-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: movw %ax, (%rbx)		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; BWON-NOF16C-NEXT: movw %bp, 6(%rbx)		; CHECK-LIBCALL-NEXT: movw %ax, 6(%rbx)
; BWON-NOF16C-NEXT: movw %r15w, 4(%rbx)		; CHECK-LIBCALL-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: movw %r14w, 2(%rbx)		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; BWON-NOF16C-NEXT: addq $24, %rsp		; CHECK-LIBCALL-NEXT: movw %ax, 4(%rbx)
; BWON-NOF16C-NEXT: popq %rbx		; CHECK-LIBCALL-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: popq %r14		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; BWON-NOF16C-NEXT: popq %r15		; CHECK-LIBCALL-NEXT: movw %ax, 2(%rbx)
; BWON-NOF16C-NEXT: popq %rbp		; CHECK-LIBCALL-NEXT: addq $64, %rsp
; BWON-NOF16C-NEXT: retq		; CHECK-LIBCALL-NEXT: popq %rbx
;		; CHECK-LIBCALL-NEXT: retq
; BWOFF-LABEL: test_trunc32_vec4:
; BWOFF: # %bb.0:
; BWOFF-NEXT: pushq %rbp
; BWOFF-NEXT: pushq %r15
; BWOFF-NEXT: pushq %r14
; BWOFF-NEXT: pushq %rbx
; BWOFF-NEXT: subq $24, %rsp
; BWOFF-NEXT: movq %rdi, %rbx
; BWOFF-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill
; BWOFF-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,1,1,1]
; BWOFF-NEXT: callq __gnu_f2h_ieee@PLT
; BWOFF-NEXT: movw %ax, %r14w
; BWOFF-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; BWOFF-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; BWOFF-NEXT: callq __gnu_f2h_ieee@PLT
; BWOFF-NEXT: movw %ax, %r15w
; BWOFF-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; BWOFF-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; BWOFF-NEXT: callq __gnu_f2h_ieee@PLT
; BWOFF-NEXT: movw %ax, %bp
; BWOFF-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; BWOFF-NEXT: callq __gnu_f2h_ieee@PLT
; BWOFF-NEXT: movw %ax, (%rbx)
; BWOFF-NEXT: movw %bp, 6(%rbx)
; BWOFF-NEXT: movw %r15w, 4(%rbx)
; BWOFF-NEXT: movw %r14w, 2(%rbx)
; BWOFF-NEXT: addq $24, %rsp
; BWOFF-NEXT: popq %rbx
; BWOFF-NEXT: popq %r14
; BWOFF-NEXT: popq %r15
; BWOFF-NEXT: popq %rbp
; BWOFF-NEXT: retq
;		;
; BWON-F16C-LABEL: test_trunc32_vec4:		; BWON-F16C-LABEL: test_trunc32_vec4:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, (%rdi)		; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, (%rdi)
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_trunc32_vec4:		; CHECK-I686-LABEL: test_trunc32_vec4:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: pushl %ebp
; CHECK-I686-NEXT: pushl %ebx
; CHECK-I686-NEXT: pushl %edi
; CHECK-I686-NEXT: pushl %esi		; CHECK-I686-NEXT: pushl %esi
; CHECK-I686-NEXT: subl $44, %esp		; CHECK-I686-NEXT: subl $88, %esp
; CHECK-I686-NEXT: movaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill		; CHECK-I686-NEXT: movaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %ebp		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %esi
; CHECK-I686-NEXT: movaps %xmm0, %xmm1		; CHECK-I686-NEXT: movaps %xmm0, %xmm1
; CHECK-I686-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]		; CHECK-I686-NEXT: shufps {{.*#+}} xmm1 = xmm1[1,1],xmm0[1,1]
; CHECK-I686-NEXT: movss %xmm1, (%esp)		; CHECK-I686-NEXT: movss %xmm1, (%esp)
; CHECK-I686-NEXT: calll __gnu_f2h_ieee		; CHECK-I686-NEXT: calll __truncsfhf2
; CHECK-I686-NEXT: movw %ax, %si		; CHECK-I686-NEXT: movaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-I686-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]		; CHECK-I686-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; CHECK-I686-NEXT: movss %xmm0, (%esp)		; CHECK-I686-NEXT: movss %xmm0, (%esp)
; CHECK-I686-NEXT: calll __gnu_f2h_ieee		; CHECK-I686-NEXT: calll __truncsfhf2
; CHECK-I686-NEXT: movw %ax, %di		; CHECK-I686-NEXT: movaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-I686-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]		; CHECK-I686-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,3,3,3]
; CHECK-I686-NEXT: movss %xmm0, (%esp)		; CHECK-I686-NEXT: movss %xmm0, (%esp)
; CHECK-I686-NEXT: calll __gnu_f2h_ieee		; CHECK-I686-NEXT: calll __truncsfhf2
; CHECK-I686-NEXT: movw %ax, %bx		; CHECK-I686-NEXT: movaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: movss %xmm0, (%esp)		; CHECK-I686-NEXT: movd %xmm0, (%esp)
; CHECK-I686-NEXT: calll __gnu_f2h_ieee		; CHECK-I686-NEXT: calll __truncsfhf2
; CHECK-I686-NEXT: movw %ax, (%ebp)		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: movw %bx, 6(%ebp)		; CHECK-I686-NEXT: movw %ax, (%esi)
; CHECK-I686-NEXT: movw %di, 4(%ebp)		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: movw %si, 2(%ebp)		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: addl $44, %esp		; CHECK-I686-NEXT: movw %ax, 6(%esi)
		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
		; CHECK-I686-NEXT: movw %ax, 4(%esi)
		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
		; CHECK-I686-NEXT: movw %ax, 2(%esi)
		; CHECK-I686-NEXT: addl $88, %esp
; CHECK-I686-NEXT: popl %esi		; CHECK-I686-NEXT: popl %esi
; CHECK-I686-NEXT: popl %edi
; CHECK-I686-NEXT: popl %ebx
; CHECK-I686-NEXT: popl %ebp
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%v = fptrunc <4 x float> %a to <4 x half>		%v = fptrunc <4 x float> %a to <4 x half>
store <4 x half> %v, <4 x half>* %p		store <4 x half> %v, <4 x half>* %p
ret void		ret void
}		}

define void @test_trunc64_vec4(<4 x double> %a, <4 x half>* %p) #0 {		define void @test_trunc64_vec4(<4 x double> %a, <4 x half>* %p) #0 {
; BWON-NOF16C-LABEL: test_trunc64_vec4:		; CHECK-LIBCALL-LABEL: test_trunc64_vec4:
; BWON-NOF16C: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; BWON-NOF16C-NEXT: pushq %rbp		; CHECK-LIBCALL-NEXT: pushq %rbx
; BWON-NOF16C-NEXT: pushq %r15		; CHECK-LIBCALL-NEXT: subq $64, %rsp
; BWON-NOF16C-NEXT: pushq %r14		; CHECK-LIBCALL-NEXT: movq %rdi, %rbx
; BWON-NOF16C-NEXT: pushq %rbx		; CHECK-LIBCALL-NEXT: movaps %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; BWON-NOF16C-NEXT: subq $40, %rsp		; CHECK-LIBCALL-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill
; BWON-NOF16C-NEXT: movq %rdi, %rbx		; CHECK-LIBCALL-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; BWON-NOF16C-NEXT: movaps %xmm1, (%rsp) # 16-byte Spill		; CHECK-LIBCALL-NEXT: callq __truncdfhf2@PLT
; BWON-NOF16C-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill		; CHECK-LIBCALL-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; BWON-NOF16C-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]		; CHECK-LIBCALL-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: callq __truncdfhf2@PLT		; CHECK-LIBCALL-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; BWON-NOF16C-NEXT: movl %eax, %r14d		; CHECK-LIBCALL-NEXT: callq __truncdfhf2@PLT
; BWON-NOF16C-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload		; CHECK-LIBCALL-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; BWON-NOF16C-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]		; CHECK-LIBCALL-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: callq __truncdfhf2@PLT		; CHECK-LIBCALL-NEXT: callq __truncdfhf2@PLT
; BWON-NOF16C-NEXT: movl %eax, %r15d		; CHECK-LIBCALL-NEXT: movaps %xmm0, (%rsp) # 16-byte Spill
; BWON-NOF16C-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-LIBCALL-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: callq __truncdfhf2@PLT		; CHECK-LIBCALL-NEXT: callq __truncdfhf2@PLT
; BWON-NOF16C-NEXT: movl %eax, %ebp		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; BWON-NOF16C-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload		; CHECK-LIBCALL-NEXT: movw %ax, 4(%rbx)
; BWON-NOF16C-NEXT: callq __truncdfhf2@PLT		; CHECK-LIBCALL-NEXT: movdqa (%rsp), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: movw %ax, 4(%rbx)		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; BWON-NOF16C-NEXT: movw %bp, (%rbx)		; CHECK-LIBCALL-NEXT: movw %ax, (%rbx)
; BWON-NOF16C-NEXT: movw %r15w, 6(%rbx)		; CHECK-LIBCALL-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: movw %r14w, 2(%rbx)		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; BWON-NOF16C-NEXT: addq $40, %rsp		; CHECK-LIBCALL-NEXT: movw %ax, 6(%rbx)
; BWON-NOF16C-NEXT: popq %rbx		; CHECK-LIBCALL-NEXT: movdqa {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; BWON-NOF16C-NEXT: popq %r14		; CHECK-LIBCALL-NEXT: pextrw $0, %xmm0, %eax
; BWON-NOF16C-NEXT: popq %r15		; CHECK-LIBCALL-NEXT: movw %ax, 2(%rbx)
; BWON-NOF16C-NEXT: popq %rbp		; CHECK-LIBCALL-NEXT: addq $64, %rsp
; BWON-NOF16C-NEXT: retq		; CHECK-LIBCALL-NEXT: popq %rbx
;		; CHECK-LIBCALL-NEXT: retq
; BWOFF-LABEL: test_trunc64_vec4:
; BWOFF: # %bb.0:
; BWOFF-NEXT: pushq %rbp
; BWOFF-NEXT: pushq %r15
; BWOFF-NEXT: pushq %r14
; BWOFF-NEXT: pushq %rbx
; BWOFF-NEXT: subq $40, %rsp
; BWOFF-NEXT: movq %rdi, %rbx
; BWOFF-NEXT: movaps %xmm1, (%rsp) # 16-byte Spill
; BWOFF-NEXT: movaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; BWOFF-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; BWOFF-NEXT: callq __truncdfhf2@PLT
; BWOFF-NEXT: movw %ax, %r14w
; BWOFF-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; BWOFF-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; BWOFF-NEXT: callq __truncdfhf2@PLT
; BWOFF-NEXT: movw %ax, %r15w
; BWOFF-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
; BWOFF-NEXT: callq __truncdfhf2@PLT
; BWOFF-NEXT: movw %ax, %bp
; BWOFF-NEXT: movaps (%rsp), %xmm0 # 16-byte Reload
; BWOFF-NEXT: callq __truncdfhf2@PLT
; BWOFF-NEXT: movw %ax, 4(%rbx)
; BWOFF-NEXT: movw %bp, (%rbx)
; BWOFF-NEXT: movw %r15w, 6(%rbx)
; BWOFF-NEXT: movw %r14w, 2(%rbx)
; BWOFF-NEXT: addq $40, %rsp
; BWOFF-NEXT: popq %rbx
; BWOFF-NEXT: popq %r14
; BWOFF-NEXT: popq %r15
; BWOFF-NEXT: popq %rbp
; BWOFF-NEXT: retq
;		;
; BWON-F16C-LABEL: test_trunc64_vec4:		; BWON-F16C-LABEL: test_trunc64_vec4:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: pushq %rbp		; BWON-F16C-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
; BWON-F16C-NEXT: pushq %r15		; BWON-F16C-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
; BWON-F16C-NEXT: pushq %r14		; BWON-F16C-NEXT: vcvtps2ph $4, %xmm1, %xmm1
; BWON-F16C-NEXT: pushq %rbx		; BWON-F16C-NEXT: vmovd %xmm1, %eax
; BWON-F16C-NEXT: subq $56, %rsp		; BWON-F16C-NEXT: vextractf128 $1, %ymm0, %xmm1
; BWON-F16C-NEXT: movq %rdi, %rbx		; BWON-F16C-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
; BWON-F16C-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill		; BWON-F16C-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
; BWON-F16C-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; BWON-F16C-NEXT: vcvtps2ph $4, %xmm2, %xmm2
; BWON-F16C-NEXT: vzeroupper		; BWON-F16C-NEXT: vmovd %xmm2, %ecx
; BWON-F16C-NEXT: callq __truncdfhf2@PLT		; BWON-F16C-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; BWON-F16C-NEXT: movl %eax, %r14d		; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; BWON-F16C-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload		; BWON-F16C-NEXT: vmovd %xmm0, %edx
; BWON-F16C-NEXT: vextractf128 $1, %ymm0, %xmm0		; BWON-F16C-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
; BWON-F16C-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill		; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; BWON-F16C-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]		; BWON-F16C-NEXT: vmovd %xmm0, %esi
; BWON-F16C-NEXT: vzeroupper		; BWON-F16C-NEXT: movw %si, 4(%rdi)
; BWON-F16C-NEXT: callq __truncdfhf2@PLT		; BWON-F16C-NEXT: movw %dx, (%rdi)
; BWON-F16C-NEXT: movl %eax, %r15d		; BWON-F16C-NEXT: movw %cx, 6(%rdi)
; BWON-F16C-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload		; BWON-F16C-NEXT: movw %ax, 2(%rdi)
; BWON-F16C-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
; BWON-F16C-NEXT: vzeroupper		; BWON-F16C-NEXT: vzeroupper
; BWON-F16C-NEXT: callq __truncdfhf2@PLT
; BWON-F16C-NEXT: movl %eax, %ebp
; BWON-F16C-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload
; BWON-F16C-NEXT: callq __truncdfhf2@PLT
; BWON-F16C-NEXT: movw %ax, 4(%rbx)
; BWON-F16C-NEXT: movw %bp, (%rbx)
; BWON-F16C-NEXT: movw %r15w, 6(%rbx)
; BWON-F16C-NEXT: movw %r14w, 2(%rbx)
; BWON-F16C-NEXT: addq $56, %rsp
; BWON-F16C-NEXT: popq %rbx
; BWON-F16C-NEXT: popq %r14
; BWON-F16C-NEXT: popq %r15
; BWON-F16C-NEXT: popq %rbp
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_trunc64_vec4:		; CHECK-I686-LABEL: test_trunc64_vec4:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: pushl %ebp
; CHECK-I686-NEXT: pushl %ebx
; CHECK-I686-NEXT: pushl %edi
; CHECK-I686-NEXT: pushl %esi		; CHECK-I686-NEXT: pushl %esi
; CHECK-I686-NEXT: subl $60, %esp		; CHECK-I686-NEXT: subl $88, %esp
; CHECK-I686-NEXT: movaps %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill		; CHECK-I686-NEXT: movaps %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill		; CHECK-I686-NEXT: movaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %ebp		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %esi
; CHECK-I686-NEXT: movlps %xmm0, (%esp)		; CHECK-I686-NEXT: movlps %xmm0, (%esp)
; CHECK-I686-NEXT: calll __truncdfhf2		; CHECK-I686-NEXT: calll __truncdfhf2
; CHECK-I686-NEXT: movw %ax, %si		; CHECK-I686-NEXT: movaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-I686-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: movhps %xmm0, (%esp)		; CHECK-I686-NEXT: movhps %xmm0, (%esp)
; CHECK-I686-NEXT: calll __truncdfhf2		; CHECK-I686-NEXT: calll __truncdfhf2
; CHECK-I686-NEXT: movw %ax, %di		; CHECK-I686-NEXT: movaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-I686-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: movlps %xmm0, (%esp)		; CHECK-I686-NEXT: movlps %xmm0, (%esp)
; CHECK-I686-NEXT: calll __truncdfhf2		; CHECK-I686-NEXT: calll __truncdfhf2
; CHECK-I686-NEXT: movw %ax, %bx		; CHECK-I686-NEXT: movaps %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload		; CHECK-I686-NEXT: movaps {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: movhps %xmm0, (%esp)		; CHECK-I686-NEXT: movhps %xmm0, (%esp)
; CHECK-I686-NEXT: calll __truncdfhf2		; CHECK-I686-NEXT: calll __truncdfhf2
; CHECK-I686-NEXT: movw %ax, 6(%ebp)		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: movw %bx, 4(%ebp)		; CHECK-I686-NEXT: movw %ax, 6(%esi)
; CHECK-I686-NEXT: movw %di, 2(%ebp)		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
; CHECK-I686-NEXT: movw %si, (%ebp)		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: addl $60, %esp		; CHECK-I686-NEXT: movw %ax, 4(%esi)
		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
		; CHECK-I686-NEXT: movw %ax, 2(%esi)
		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
		; CHECK-I686-NEXT: movw %ax, (%esi)
		; CHECK-I686-NEXT: addl $88, %esp
; CHECK-I686-NEXT: popl %esi		; CHECK-I686-NEXT: popl %esi
; CHECK-I686-NEXT: popl %edi
; CHECK-I686-NEXT: popl %ebx
; CHECK-I686-NEXT: popl %ebp
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%v = fptrunc <4 x double> %a to <4 x half>		%v = fptrunc <4 x double> %a to <4 x half>
store <4 x half> %v, <4 x half>* %p		store <4 x half> %v, <4 x half>* %p
ret void		ret void
}		}

declare float @test_floatret();		declare float @test_floatret();

; On i686, if SSE2 is available, the return value from test_floatret is loaded		; On i686, if SSE2 is available, the return value from test_floatret is loaded
; to f80 and then rounded to f32. The DAG combiner should not combine this		; to f80 and then rounded to f32. The DAG combiner should not combine this
; fp_round and the subsequent fptrunc from float to half.		; fp_round and the subsequent fptrunc from float to half.
define half @test_f80trunc_nodagcombine() #0 {		define half @test_f80trunc_nodagcombine() #0 {
; CHECK-LIBCALL-LABEL: test_f80trunc_nodagcombine:		; CHECK-LIBCALL-LABEL: test_f80trunc_nodagcombine:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: pushq %rax		; CHECK-LIBCALL-NEXT: pushq %rax
; CHECK-LIBCALL-NEXT: callq test_floatret@PLT		; CHECK-LIBCALL-NEXT: callq test_floatret@PLT
; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee@PLT		; CHECK-LIBCALL-NEXT: callq __truncsfhf2@PLT
; CHECK-LIBCALL-NEXT: popq %rcx		; CHECK-LIBCALL-NEXT: popq %rax
; CHECK-LIBCALL-NEXT: retq		; CHECK-LIBCALL-NEXT: retq
;		;
; BWON-F16C-LABEL: test_f80trunc_nodagcombine:		; BWON-F16C-LABEL: test_f80trunc_nodagcombine:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: pushq %rax		; BWON-F16C-NEXT: pushq %rax
; BWON-F16C-NEXT: callq test_floatret@PLT		; BWON-F16C-NEXT: callq test_floatret@PLT
; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0		; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
; BWON-F16C-NEXT: vmovd %xmm0, %eax		; BWON-F16C-NEXT: vmovd %xmm0, %eax
; BWON-F16C-NEXT: # kill: def $ax killed $ax killed $eax		; BWON-F16C-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
; BWON-F16C-NEXT: popq %rcx		; BWON-F16C-NEXT: popq %rax
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_f80trunc_nodagcombine:		; CHECK-I686-LABEL: test_f80trunc_nodagcombine:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: subl $12, %esp		; CHECK-I686-NEXT: subl $12, %esp
; CHECK-I686-NEXT: calll test_floatret@PLT		; CHECK-I686-NEXT: calll test_floatret@PLT
; CHECK-I686-NEXT: fstps (%esp)		; CHECK-I686-NEXT: fstps (%esp)
; CHECK-I686-NEXT: calll __gnu_f2h_ieee		; CHECK-I686-NEXT: calll __truncsfhf2
; CHECK-I686-NEXT: addl $12, %esp		; CHECK-I686-NEXT: addl $12, %esp
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%1 = call float @test_floatret()		%1 = call float @test_floatret()
%2 = fptrunc float %1 to half		%2 = fptrunc float %1 to half
ret half %2		ret half %2
}		}




define float @test_sitofp_fadd_i32(i32 %a, half* %b) #0 {		define float @test_sitofp_fadd_i32(i32 %a, half* %b) #0 {
; CHECK-LIBCALL-LABEL: test_sitofp_fadd_i32:		; CHECK-LIBCALL-LABEL: test_sitofp_fadd_i32:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: pushq %rbx		; CHECK-LIBCALL-NEXT: subq $40, %rsp
; CHECK-LIBCALL-NEXT: subq $16, %rsp		; CHECK-LIBCALL-NEXT: pinsrw $0, (%rsi), %xmm0
; CHECK-LIBCALL-NEXT: movzwl (%rsi), %ebx		; CHECK-LIBCALL-NEXT: movdqa %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
; CHECK-LIBCALL-NEXT: cvtsi2ss %edi, %xmm0		; CHECK-LIBCALL-NEXT: addl $-2147483648, %edi # imm = 0x80000000
; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee@PLT		; CHECK-LIBCALL-NEXT: movl %edi, {{[0-9]+}}(%rsp)
; CHECK-LIBCALL-NEXT: movzwl %ax, %edi		; CHECK-LIBCALL-NEXT: movl $1127219200, {{[0-9]+}}(%rsp) # imm = 0x43300000
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-LIBCALL-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
		; CHECK-LIBCALL-NEXT: subsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
		; CHECK-LIBCALL-NEXT: callq __truncdfhf2@PLT
		; CHECK-LIBCALL-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
		; CHECK-LIBCALL-NEXT: movaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-LIBCALL-NEXT: callq __extendhfsf2@PLT
; CHECK-LIBCALL-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill		; CHECK-LIBCALL-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
; CHECK-LIBCALL-NEXT: movl %ebx, %edi		; CHECK-LIBCALL-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT		; CHECK-LIBCALL-NEXT: # xmm0 = mem[0],zero,zero,zero
		; CHECK-LIBCALL-NEXT: callq __extendhfsf2@PLT
; CHECK-LIBCALL-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload		; CHECK-LIBCALL-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
; CHECK-LIBCALL-NEXT: callq __gnu_f2h_ieee@PLT		; CHECK-LIBCALL-NEXT: callq __truncsfhf2@PLT
; CHECK-LIBCALL-NEXT: movzwl %ax, %edi		; CHECK-LIBCALL-NEXT: addq $40, %rsp
; CHECK-LIBCALL-NEXT: addq $16, %rsp		; CHECK-LIBCALL-NEXT: jmp __extendhfsf2@PLT # TAILCALL
; CHECK-LIBCALL-NEXT: popq %rbx
; CHECK-LIBCALL-NEXT: jmp __gnu_h2f_ieee@PLT # TAILCALL
;		;
; BWON-F16C-LABEL: test_sitofp_fadd_i32:		; BWON-F16C-LABEL: test_sitofp_fadd_i32:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: movzwl (%rsi), %eax		; BWON-F16C-NEXT: movzwl (%rsi), %eax
; BWON-F16C-NEXT: vcvtsi2ss %edi, %xmm0, %xmm0		; BWON-F16C-NEXT: addl $-2147483648, %edi # imm = 0x80000000
		; BWON-F16C-NEXT: movl %edi, -{{[0-9]+}}(%rsp)
		; BWON-F16C-NEXT: movl $1127219200, -{{[0-9]+}}(%rsp) # imm = 0x43300000
		; BWON-F16C-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
		; BWON-F16C-NEXT: vsubsd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
		; BWON-F16C-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0		; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
		; BWON-F16C-NEXT: vmovd %xmm0, %ecx
		; BWON-F16C-NEXT: movzwl %cx, %ecx
		; BWON-F16C-NEXT: vmovd %ecx, %xmm0
; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0		; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0
; BWON-F16C-NEXT: vmovd %eax, %xmm1		; BWON-F16C-NEXT: vmovd %eax, %xmm1
; BWON-F16C-NEXT: vcvtph2ps %xmm1, %xmm1		; BWON-F16C-NEXT: vcvtph2ps %xmm1, %xmm1
; BWON-F16C-NEXT: vaddss %xmm0, %xmm1, %xmm0		; BWON-F16C-NEXT: vaddss %xmm0, %xmm1, %xmm0
; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0		; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
		; BWON-F16C-NEXT: vmovd %xmm0, %eax
		; BWON-F16C-NEXT: movzwl %ax, %eax
		; BWON-F16C-NEXT: vmovd %eax, %xmm0
; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0		; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: test_sitofp_fadd_i32:		; CHECK-I686-LABEL: test_sitofp_fadd_i32:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: pushl %edi		; CHECK-I686-NEXT: subl $76, %esp
; CHECK-I686-NEXT: pushl %esi
; CHECK-I686-NEXT: subl $20, %esp
; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax		; CHECK-I686-NEXT: movl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: movzwl (%eax), %edi		; CHECK-I686-NEXT: pinsrw $0, (%eax), %xmm0
; CHECK-I686-NEXT: cvtsi2ssl {{[0-9]+}}(%esp), %xmm0		; CHECK-I686-NEXT: movdqa %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
; CHECK-I686-NEXT: movss %xmm0, (%esp)		; CHECK-I686-NEXT: movl $-2147483648, %eax # imm = 0x80000000
; CHECK-I686-NEXT: calll __gnu_f2h_ieee		; CHECK-I686-NEXT: xorl {{[0-9]+}}(%esp), %eax
; CHECK-I686-NEXT: movw %ax, %si		; CHECK-I686-NEXT: movl %eax, {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movl %edi, (%esp)		; CHECK-I686-NEXT: movl $1127219200, {{[0-9]+}}(%esp) # imm = 0x43300000
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
; CHECK-I686-NEXT: movzwl %si, %eax		; CHECK-I686-NEXT: subsd {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
; CHECK-I686-NEXT: movl %eax, (%esp)		; CHECK-I686-NEXT: movsd %xmm0, (%esp)
		; CHECK-I686-NEXT: calll __truncdfhf2
		; CHECK-I686-NEXT: movapd %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
		; CHECK-I686-NEXT: movw %ax, (%esp)
		; CHECK-I686-NEXT: calll __extendhfsf2
		; CHECK-I686-NEXT: movdqa {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
		; CHECK-I686-NEXT: movw %ax, (%esp)
; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: calll __extendhfsf2
; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; CHECK-I686-NEXT: addss {{[0-9]+}}(%esp), %xmm0		; CHECK-I686-NEXT: addss {{[0-9]+}}(%esp), %xmm0
; CHECK-I686-NEXT: movss %xmm0, (%esp)		; CHECK-I686-NEXT: movss %xmm0, (%esp)
; CHECK-I686-NEXT: calll __gnu_f2h_ieee		; CHECK-I686-NEXT: calll __truncsfhf2
; CHECK-I686-NEXT: movzwl %ax, %eax		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: movl %eax, (%esp)		; CHECK-I686-NEXT: movw %ax, (%esp)
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: calll __extendhfsf2
; CHECK-I686-NEXT: addl $20, %esp		; CHECK-I686-NEXT: addl $76, %esp
; CHECK-I686-NEXT: popl %esi
; CHECK-I686-NEXT: popl %edi
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%tmp0 = load half, half* %b		%tmp0 = load half, half* %b
%tmp1 = sitofp i32 %a to half		%tmp1 = sitofp i32 %a to half
%tmp2 = fadd half %tmp0, %tmp1		%tmp2 = fadd half %tmp0, %tmp1
%tmp3 = fpext half %tmp2 to float		%tmp3 = fpext half %tmp2 to float
ret float %tmp3		ret float %tmp3
}		}

define half @PR40273(half) #0 {		define half @PR40273(half) #0 {
; CHECK-LIBCALL-LABEL: PR40273:		; CHECK-LIBCALL-LABEL: PR40273:
; CHECK-LIBCALL: # %bb.0:		; CHECK-LIBCALL: # %bb.0:
; CHECK-LIBCALL-NEXT: pushq %rax		; CHECK-LIBCALL-NEXT: pushq %rax
; CHECK-LIBCALL-NEXT: movzwl %di, %edi		; CHECK-LIBCALL-NEXT: callq __extendhfsf2@PLT
; CHECK-LIBCALL-NEXT: callq __gnu_h2f_ieee@PLT
; CHECK-LIBCALL-NEXT: xorl %eax, %eax
; CHECK-LIBCALL-NEXT: xorps %xmm1, %xmm1		; CHECK-LIBCALL-NEXT: xorps %xmm1, %xmm1
; CHECK-LIBCALL-NEXT: ucomiss %xmm1, %xmm0		; CHECK-LIBCALL-NEXT: ucomiss %xmm1, %xmm0
; CHECK-LIBCALL-NEXT: movl $15360, %ecx # imm = 0x3C00		; CHECK-LIBCALL-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; CHECK-LIBCALL-NEXT: cmovnel %ecx, %eax		; CHECK-LIBCALL-NEXT: jne .LBB17_3
; CHECK-LIBCALL-NEXT: cmovpl %ecx, %eax		; CHECK-LIBCALL-NEXT: # %bb.1:
; CHECK-LIBCALL-NEXT: # kill: def $ax killed $ax killed $eax		; CHECK-LIBCALL-NEXT: jp .LBB17_3
; CHECK-LIBCALL-NEXT: popq %rcx		; CHECK-LIBCALL-NEXT: # %bb.2:
		; CHECK-LIBCALL-NEXT: xorps %xmm0, %xmm0
		; CHECK-LIBCALL-NEXT: .LBB17_3:
		; CHECK-LIBCALL-NEXT: callq __truncsfhf2@PLT
		; CHECK-LIBCALL-NEXT: popq %rax
; CHECK-LIBCALL-NEXT: retq		; CHECK-LIBCALL-NEXT: retq
;		;
; BWON-F16C-LABEL: PR40273:		; BWON-F16C-LABEL: PR40273:
; BWON-F16C: # %bb.0:		; BWON-F16C: # %bb.0:
; BWON-F16C-NEXT: movzwl %di, %eax		; BWON-F16C-NEXT: vpextrw $0, %xmm0, %eax
		; BWON-F16C-NEXT: movzwl %ax, %eax
; BWON-F16C-NEXT: vmovd %eax, %xmm0		; BWON-F16C-NEXT: vmovd %eax, %xmm0
; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0		; BWON-F16C-NEXT: vcvtph2ps %xmm0, %xmm0
; BWON-F16C-NEXT: xorl %eax, %eax
; BWON-F16C-NEXT: vxorps %xmm1, %xmm1, %xmm1		; BWON-F16C-NEXT: vxorps %xmm1, %xmm1, %xmm1
; BWON-F16C-NEXT: vucomiss %xmm1, %xmm0		; BWON-F16C-NEXT: vucomiss %xmm1, %xmm0
; BWON-F16C-NEXT: movl $15360, %ecx # imm = 0x3C00		; BWON-F16C-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; BWON-F16C-NEXT: cmovnel %ecx, %eax		; BWON-F16C-NEXT: jne .LBB17_3
; BWON-F16C-NEXT: cmovpl %ecx, %eax		; BWON-F16C-NEXT: # %bb.1:
; BWON-F16C-NEXT: # kill: def $ax killed $ax killed $eax		; BWON-F16C-NEXT: jp .LBB17_3
		; BWON-F16C-NEXT: # %bb.2:
		; BWON-F16C-NEXT: vxorps %xmm0, %xmm0, %xmm0
		; BWON-F16C-NEXT: .LBB17_3:
		; BWON-F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
		; BWON-F16C-NEXT: vmovd %xmm0, %eax
		; BWON-F16C-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
; BWON-F16C-NEXT: retq		; BWON-F16C-NEXT: retq
;		;
; CHECK-I686-LABEL: PR40273:		; CHECK-I686-LABEL: PR40273:
; CHECK-I686: # %bb.0:		; CHECK-I686: # %bb.0:
; CHECK-I686-NEXT: subl $12, %esp		; CHECK-I686-NEXT: subl $12, %esp
; CHECK-I686-NEXT: movzwl {{[0-9]+}}(%esp), %eax		; CHECK-I686-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
; CHECK-I686-NEXT: movl %eax, (%esp)		; CHECK-I686-NEXT: pextrw $0, %xmm0, %eax
; CHECK-I686-NEXT: calll __gnu_h2f_ieee		; CHECK-I686-NEXT: movw %ax, (%esp)
		; CHECK-I686-NEXT: calll __extendhfsf2
; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)		; CHECK-I686-NEXT: fstps {{[0-9]+}}(%esp)
; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; CHECK-I686-NEXT: xorl %eax, %eax
; CHECK-I686-NEXT: xorps %xmm1, %xmm1		; CHECK-I686-NEXT: xorps %xmm1, %xmm1
; CHECK-I686-NEXT: ucomiss %xmm1, %xmm0		; CHECK-I686-NEXT: ucomiss %xmm1, %xmm0
; CHECK-I686-NEXT: movl $15360, %ecx # imm = 0x3C00		; CHECK-I686-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; CHECK-I686-NEXT: cmovnel %ecx, %eax		; CHECK-I686-NEXT: jne .LBB17_3
; CHECK-I686-NEXT: cmovpl %ecx, %eax		; CHECK-I686-NEXT: # %bb.1:
; CHECK-I686-NEXT: # kill: def $ax killed $ax killed $eax		; CHECK-I686-NEXT: jp .LBB17_3
		; CHECK-I686-NEXT: # %bb.2:
		; CHECK-I686-NEXT: xorps %xmm0, %xmm0
		; CHECK-I686-NEXT: .LBB17_3:
		; CHECK-I686-NEXT: movss %xmm0, (%esp)
		; CHECK-I686-NEXT: calll __truncsfhf2
; CHECK-I686-NEXT: addl $12, %esp		; CHECK-I686-NEXT: addl $12, %esp
; CHECK-I686-NEXT: retl		; CHECK-I686-NEXT: retl
%2 = fcmp une half %0, 0xH0000		%2 = fcmp une half %0, 0xH0000
%3 = uitofp i1 %2 to half		%3 = uitofp i1 %2 to half
ret half %3		ret half %3
}		}

attributes #0 = { nounwind }		attributes #0 = { nounwind }
		LuoYuankeUnsubmitted Not Done Reply Inline Actions Why the x87 instruction is generated? LuoYuanke: Why the x87 instruction is generated?
		pengfeiAuthorUnsubmitted Done Reply Inline Actions On 32 bit, float and double are passed by x87 register. pengfei: On 32 bit, float and double are passed by x87 register.

llvm/test/CodeGen/X86/pr31088.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=X64
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+f16c \| FileCheck %s --check-prefix=F16C			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+f16c \| FileCheck %s --check-prefix=F16C
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+f16c -O0 \| FileCheck %s --check-prefix=F16C-O0			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+f16c -O0 \| FileCheck %s --check-prefix=F16C-O0

	define <1 x half> @ir_fadd_v1f16(<1 x half> %arg0, <1 x half> %arg1) nounwind {			define <1 x half> @ir_fadd_v1f16(<1 x half> %arg0, <1 x half> %arg1) nounwind {
	; X86-LABEL: ir_fadd_v1f16:			; X86-LABEL: ir_fadd_v1f16:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %esi			; X86-NEXT: subl $28, %esp
	; X86-NEXT: subl $12, %esp			; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: movzwl {{[0-9]+}}(%esp), %esi			; X86-NEXT: movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; X86-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: movl %eax, (%esp)			; X86-NEXT: pextrw $0, %xmm0, %eax
	; X86-NEXT: calll __gnu_h2f_ieee			; X86-NEXT: movw %ax, (%esp)
	; X86-NEXT: movl %esi, (%esp)			; X86-NEXT: calll __extendhfsf2
				; X86-NEXT: movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
				; X86-NEXT: pextrw $0, %xmm0, %eax
				; X86-NEXT: movw %ax, (%esp)
	; X86-NEXT: fstps {{[0-9]+}}(%esp)			; X86-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-NEXT: calll __gnu_h2f_ieee			; X86-NEXT: calll __extendhfsf2
	; X86-NEXT: fstps {{[0-9]+}}(%esp)			; X86-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0			; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: movss %xmm0, (%esp)			; X86-NEXT: movss %xmm0, (%esp)
	; X86-NEXT: calll __gnu_f2h_ieee			; X86-NEXT: calll __truncsfhf2
	; X86-NEXT: addl $12, %esp			; X86-NEXT: addl $28, %esp
	; X86-NEXT: popl %esi
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: ir_fadd_v1f16:			; X64-LABEL: ir_fadd_v1f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rbx			; X64-NEXT: pushq %rax
	; X64-NEXT: subq $16, %rsp
	; X64-NEXT: movl %edi, %ebx
	; X64-NEXT: movzwl %si, %edi
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: movzwl %bx, %edi			; X64-NEXT: movaps %xmm1, %xmm0
	; X64-NEXT: callq __gnu_h2f_ieee@PLT			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; X64-NEXT: movss %xmm0, (%rsp) # 4-byte Spill
	; X64-NEXT: callq __gnu_f2h_ieee@PLT			; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; X64-NEXT: addq $16, %rsp			; X64-NEXT: # xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: popq %rbx			; X64-NEXT: callq __extendhfsf2@PLT
				; X64-NEXT: addss (%rsp), %xmm0 # 4-byte Folded Reload
				; X64-NEXT: callq __truncsfhf2@PLT
				; X64-NEXT: popq %rax
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; F16C-LABEL: ir_fadd_v1f16:			; F16C-LABEL: ir_fadd_v1f16:
	; F16C: # %bb.0:			; F16C: # %bb.0:
	; F16C-NEXT: movzwl %si, %eax			; F16C-NEXT: vpextrw $0, %xmm0, %eax
	; F16C-NEXT: vmovd %eax, %xmm0			; F16C-NEXT: vpextrw $0, %xmm1, %ecx
				; F16C-NEXT: movzwl %cx, %ecx
				; F16C-NEXT: vmovd %ecx, %xmm0
	; F16C-NEXT: vcvtph2ps %xmm0, %xmm0			; F16C-NEXT: vcvtph2ps %xmm0, %xmm0
	; F16C-NEXT: movzwl %di, %eax			; F16C-NEXT: movzwl %ax, %eax
	; F16C-NEXT: vmovd %eax, %xmm1			; F16C-NEXT: vmovd %eax, %xmm1
	; F16C-NEXT: vcvtph2ps %xmm1, %xmm1			; F16C-NEXT: vcvtph2ps %xmm1, %xmm1
	; F16C-NEXT: vaddss %xmm0, %xmm1, %xmm0			; F16C-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; F16C-NEXT: vmovd %xmm0, %eax			; F16C-NEXT: vmovd %xmm0, %eax
	; F16C-NEXT: # kill: def $ax killed $ax killed $eax			; F16C-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
	; F16C-NEXT: retq			; F16C-NEXT: retq
	;			;
	; F16C-O0-LABEL: ir_fadd_v1f16:			; F16C-O0-LABEL: ir_fadd_v1f16:
	; F16C-O0: # %bb.0:			; F16C-O0: # %bb.0:
	; F16C-O0-NEXT: movw %si, %cx			; F16C-O0-NEXT: vpextrw $0, %xmm1, %eax
	; F16C-O0-NEXT: movw %di, %ax			; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax
	; F16C-O0-NEXT: movzwl %cx, %ecx			; F16C-O0-NEXT: movzwl %ax, %eax
	; F16C-O0-NEXT: vmovd %ecx, %xmm0			; F16C-O0-NEXT: vmovd %eax, %xmm1
	; F16C-O0-NEXT: vcvtph2ps %xmm0, %xmm1			; F16C-O0-NEXT: vcvtph2ps %xmm1, %xmm1
				; F16C-O0-NEXT: vpextrw $0, %xmm0, %eax
				; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax
	; F16C-O0-NEXT: movzwl %ax, %eax			; F16C-O0-NEXT: movzwl %ax, %eax
	; F16C-O0-NEXT: vmovd %eax, %xmm0			; F16C-O0-NEXT: vmovd %eax, %xmm0
	; F16C-O0-NEXT: vcvtph2ps %xmm0, %xmm0			; F16C-O0-NEXT: vcvtph2ps %xmm0, %xmm0
	; F16C-O0-NEXT: vaddss %xmm1, %xmm0, %xmm0			; F16C-O0-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; F16C-O0-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; F16C-O0-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; F16C-O0-NEXT: vmovd %xmm0, %eax			; F16C-O0-NEXT: vmovd %xmm0, %eax
	; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax			; F16C-O0-NEXT: movw %ax, %cx
				; F16C-O0-NEXT: # implicit-def: $eax
				; F16C-O0-NEXT: movw %cx, %ax
				; F16C-O0-NEXT: # implicit-def: $xmm0
				; F16C-O0-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
	; F16C-O0-NEXT: retq			; F16C-O0-NEXT: retq
	%retval = fadd <1 x half> %arg0, %arg1			%retval = fadd <1 x half> %arg0, %arg1
	ret <1 x half> %retval			ret <1 x half> %retval
	}			}

	define <2 x half> @ir_fadd_v2f16(<2 x half> %arg0, <2 x half> %arg1) nounwind {			define <2 x half> @ir_fadd_v2f16(<2 x half> %arg0, <2 x half> %arg1) nounwind {
	; X86-LABEL: ir_fadd_v2f16:			; X86-LABEL: ir_fadd_v2f16:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebp			; X86-NEXT: subl $80, %esp
	; X86-NEXT: movl %esp, %ebp			; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: pushl %ebx			; X86-NEXT: movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; X86-NEXT: pushl %edi			; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: pushl %esi			; X86-NEXT: movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; X86-NEXT: andl $-16, %esp			; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: subl $64, %esp			; X86-NEXT: movdqu %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 16-byte Spill
	; X86-NEXT: movzwl 8(%ebp), %esi			; X86-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: movzwl 12(%ebp), %edi			; X86-NEXT: pextrw $0, %xmm0, %eax
	; X86-NEXT: movzwl 20(%ebp), %ebx			; X86-NEXT: movw %ax, (%esp)
	; X86-NEXT: movzwl 16(%ebp), %eax			; X86-NEXT: calll __extendhfsf2
	; X86-NEXT: movl %eax, (%esp)
	; X86-NEXT: calll __gnu_h2f_ieee
	; X86-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill			; X86-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
	; X86-NEXT: movl %ebx, (%esp)			; X86-NEXT: movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
	; X86-NEXT: calll __gnu_h2f_ieee			; X86-NEXT: pextrw $0, %xmm0, %eax
				; X86-NEXT: movw %ax, (%esp)
				; X86-NEXT: calll __extendhfsf2
	; X86-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill			; X86-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
	; X86-NEXT: movl %edi, (%esp)			; X86-NEXT: movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
	; X86-NEXT: calll __gnu_h2f_ieee			; X86-NEXT: pextrw $0, %xmm0, %eax
	; X86-NEXT: movl %esi, (%esp)			; X86-NEXT: movw %ax, (%esp)
				; X86-NEXT: calll __extendhfsf2
				; X86-NEXT: movdqu {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 16-byte Reload
				; X86-NEXT: pextrw $0, %xmm0, %eax
				; X86-NEXT: movw %ax, (%esp)
	; X86-NEXT: fstps {{[0-9]+}}(%esp)			; X86-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload			; X86-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload
	; X86-NEXT: fstps {{[0-9]+}}(%esp)			; X86-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-NEXT: calll __gnu_h2f_ieee			; X86-NEXT: calll __extendhfsf2
	; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0			; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: movss %xmm0, (%esp)			; X86-NEXT: movss %xmm0, (%esp)
	; X86-NEXT: fstps {{[0-9]+}}(%esp)			; X86-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload			; X86-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload
	; X86-NEXT: fstps {{[0-9]+}}(%esp)			; X86-NEXT: fstps {{[0-9]+}}(%esp)
	; X86-NEXT: calll __gnu_f2h_ieee			; X86-NEXT: calll __truncsfhf2
				; X86-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0			; X86-NEXT: addss {{[0-9]+}}(%esp), %xmm0
	; X86-NEXT: movss %xmm0, (%esp)			; X86-NEXT: movss %xmm0, (%esp)
	; X86-NEXT: movw %ax, {{[0-9]+}}(%esp)			; X86-NEXT: calll __truncsfhf2
	; X86-NEXT: calll __gnu_f2h_ieee			; X86-NEXT: movaps %xmm0, %xmm1
	; X86-NEXT: movw %ax, {{[0-9]+}}(%esp)			; X86-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload
	; X86-NEXT: movdqa {{[0-9]+}}(%esp), %xmm0			; X86-NEXT: # xmm0 = mem[0],zero,zero,zero
	; X86-NEXT: movd %xmm0, %eax			; X86-NEXT: addl $80, %esp
	; X86-NEXT: pextrw $1, %xmm0, %edx
	; X86-NEXT: # kill: def $ax killed $ax killed $eax
	; X86-NEXT: # kill: def $dx killed $dx killed $edx
	; X86-NEXT: leal -12(%ebp), %esp
	; X86-NEXT: popl %esi
	; X86-NEXT: popl %edi
	; X86-NEXT: popl %ebx
	; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: ir_fadd_v2f16:			; X64-LABEL: ir_fadd_v2f16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pushq %rbp			; X64-NEXT: subq $24, %rsp
	; X64-NEXT: pushq %r14			; X64-NEXT: movss %xmm3, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: pushq %rbx			; X64-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: subq $32, %rsp			; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: movl %edx, %ebp			; X64-NEXT: movaps %xmm2, %xmm0
	; X64-NEXT: movl %esi, %ebx			; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: movl %edi, %r14d
	; X64-NEXT: movzwl %cx, %edi
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: movzwl %bx, %edi			; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; X64-NEXT: callq __gnu_h2f_ieee@PLT			; X64-NEXT: # xmm0 = mem[0],zero,zero,zero
				; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; X64-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
	; X64-NEXT: callq __gnu_f2h_ieee@PLT			; X64-NEXT: callq __truncsfhf2@PLT
	; X64-NEXT: movw %ax, {{[0-9]+}}(%rsp)
	; X64-NEXT: movzwl %bp, %edi
	; X64-NEXT: callq __gnu_h2f_ieee@PLT
	; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; X64-NEXT: movzwl %r14w, %edi			; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; X64-NEXT: callq __gnu_h2f_ieee@PLT			; X64-NEXT: # xmm0 = mem[0],zero,zero,zero
				; X64-NEXT: callq __extendhfsf2@PLT
				; X64-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
				; X64-NEXT: # xmm0 = mem[0],zero,zero,zero
				; X64-NEXT: callq __extendhfsf2@PLT
	; X64-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; X64-NEXT: addss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload
	; X64-NEXT: callq __gnu_f2h_ieee@PLT			; X64-NEXT: callq __truncsfhf2@PLT
	; X64-NEXT: movw %ax, {{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm0, %xmm1
	; X64-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm0			; X64-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; X64-NEXT: movd %xmm0, %eax			; X64-NEXT: # xmm0 = mem[0],zero,zero,zero
	; X64-NEXT: pextrw $1, %xmm0, %edx			; X64-NEXT: addq $24, %rsp
	; X64-NEXT: # kill: def $ax killed $ax killed $eax
	; X64-NEXT: # kill: def $dx killed $dx killed $edx
	; X64-NEXT: addq $32, %rsp
	; X64-NEXT: popq %rbx
	; X64-NEXT: popq %r14
	; X64-NEXT: popq %rbp
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; F16C-LABEL: ir_fadd_v2f16:			; F16C-LABEL: ir_fadd_v2f16:
	; F16C: # %bb.0:			; F16C: # %bb.0:
	; F16C-NEXT: movzwl %cx, %eax			; F16C-NEXT: vpextrw $0, %xmm1, %eax
	; F16C-NEXT: vmovd %eax, %xmm0			; F16C-NEXT: vpextrw $0, %xmm3, %ecx
				; F16C-NEXT: vpextrw $0, %xmm0, %edx
				; F16C-NEXT: vpextrw $0, %xmm2, %esi
				; F16C-NEXT: movzwl %si, %esi
				; F16C-NEXT: vmovd %esi, %xmm0
	; F16C-NEXT: vcvtph2ps %xmm0, %xmm0			; F16C-NEXT: vcvtph2ps %xmm0, %xmm0
	; F16C-NEXT: movzwl %si, %eax			; F16C-NEXT: movzwl %dx, %edx
	; F16C-NEXT: vmovd %eax, %xmm1			; F16C-NEXT: vmovd %edx, %xmm1
	; F16C-NEXT: vcvtph2ps %xmm1, %xmm1			; F16C-NEXT: vcvtph2ps %xmm1, %xmm1
	; F16C-NEXT: vaddss %xmm0, %xmm1, %xmm0			; F16C-NEXT: vaddss %xmm0, %xmm1, %xmm0
	; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; F16C-NEXT: vpextrw $0, %xmm0, -{{[0-9]+}}(%rsp)			; F16C-NEXT: vmovd %xmm0, %edx
	; F16C-NEXT: movzwl %dx, %eax			; F16C-NEXT: vpinsrw $0, %edx, %xmm0, %xmm0
	; F16C-NEXT: vmovd %eax, %xmm0			; F16C-NEXT: movzwl %cx, %ecx
	; F16C-NEXT: vcvtph2ps %xmm0, %xmm0			; F16C-NEXT: vmovd %ecx, %xmm1
	; F16C-NEXT: movzwl %di, %eax
	; F16C-NEXT: vmovd %eax, %xmm1
	; F16C-NEXT: vcvtph2ps %xmm1, %xmm1			; F16C-NEXT: vcvtph2ps %xmm1, %xmm1
	; F16C-NEXT: vaddss %xmm0, %xmm1, %xmm0			; F16C-NEXT: movzwl %ax, %eax
	; F16C-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; F16C-NEXT: vmovd %eax, %xmm2
	; F16C-NEXT: vpextrw $0, %xmm0, -{{[0-9]+}}(%rsp)			; F16C-NEXT: vcvtph2ps %xmm2, %xmm2
	; F16C-NEXT: vmovdqa -{{[0-9]+}}(%rsp), %xmm0			; F16C-NEXT: vaddss %xmm1, %xmm2, %xmm1
	; F16C-NEXT: vmovd %xmm0, %eax			; F16C-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; F16C-NEXT: vpextrw $1, %xmm0, %edx			; F16C-NEXT: vmovd %xmm1, %eax
	; F16C-NEXT: # kill: def $ax killed $ax killed $eax			; F16C-NEXT: vpinsrw $0, %eax, %xmm0, %xmm1
	; F16C-NEXT: # kill: def $dx killed $dx killed $edx
	; F16C-NEXT: retq			; F16C-NEXT: retq
	;			;
	; F16C-O0-LABEL: ir_fadd_v2f16:			; F16C-O0-LABEL: ir_fadd_v2f16:
	; F16C-O0: # %bb.0:			; F16C-O0: # %bb.0:
	; F16C-O0-NEXT: movl %esi, %eax			; F16C-O0-NEXT: vpextrw $0, %xmm2, %eax
	; F16C-O0-NEXT: # kill: def $cx killed $cx killed $ecx			; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax
	; F16C-O0-NEXT: movw %dx, %si			; F16C-O0-NEXT: movzwl %ax, %eax
	; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax			; F16C-O0-NEXT: vmovd %eax, %xmm2
	; F16C-O0-NEXT: movw %di, %dx			; F16C-O0-NEXT: vcvtph2ps %xmm2, %xmm2
	; F16C-O0-NEXT: movzwl %si, %esi			; F16C-O0-NEXT: vpextrw $0, %xmm0, %eax
	; F16C-O0-NEXT: vmovd %esi, %xmm0			; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax
	; F16C-O0-NEXT: vcvtph2ps %xmm0, %xmm1
	; F16C-O0-NEXT: movzwl %dx, %edx
	; F16C-O0-NEXT: vmovd %edx, %xmm0
	; F16C-O0-NEXT: vcvtph2ps %xmm0, %xmm0
	; F16C-O0-NEXT: vaddss %xmm1, %xmm0, %xmm0
	; F16C-O0-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; F16C-O0-NEXT: vpextrw $0, %xmm0, -{{[0-9]+}}(%rsp)
	; F16C-O0-NEXT: movzwl %cx, %ecx
	; F16C-O0-NEXT: vmovd %ecx, %xmm0
	; F16C-O0-NEXT: vcvtph2ps %xmm0, %xmm1
	; F16C-O0-NEXT: movzwl %ax, %eax			; F16C-O0-NEXT: movzwl %ax, %eax
	; F16C-O0-NEXT: vmovd %eax, %xmm0			; F16C-O0-NEXT: vmovd %eax, %xmm0
	; F16C-O0-NEXT: vcvtph2ps %xmm0, %xmm0			; F16C-O0-NEXT: vcvtph2ps %xmm0, %xmm0
	; F16C-O0-NEXT: vaddss %xmm1, %xmm0, %xmm0			; F16C-O0-NEXT: vaddss %xmm2, %xmm0, %xmm0
	; F16C-O0-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; F16C-O0-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; F16C-O0-NEXT: vpextrw $0, %xmm0, -{{[0-9]+}}(%rsp)
	; F16C-O0-NEXT: vmovdqa -{{[0-9]+}}(%rsp), %xmm0
	; F16C-O0-NEXT: vmovd %xmm0, %eax			; F16C-O0-NEXT: vmovd %xmm0, %eax
				; F16C-O0-NEXT: movw %ax, %cx
				; F16C-O0-NEXT: # implicit-def: $eax
				; F16C-O0-NEXT: movw %cx, %ax
				; F16C-O0-NEXT: # implicit-def: $xmm0
				; F16C-O0-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
				; F16C-O0-NEXT: vpextrw $0, %xmm3, %eax
	; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax			; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax
	; F16C-O0-NEXT: vpextrw $1, %xmm0, %ecx			; F16C-O0-NEXT: movzwl %ax, %eax
	; F16C-O0-NEXT: movw %cx, %dx			; F16C-O0-NEXT: vmovd %eax, %xmm2
				; F16C-O0-NEXT: vcvtph2ps %xmm2, %xmm2
				; F16C-O0-NEXT: vpextrw $0, %xmm1, %eax
				; F16C-O0-NEXT: # kill: def $ax killed $ax killed $eax
				; F16C-O0-NEXT: movzwl %ax, %eax
				; F16C-O0-NEXT: vmovd %eax, %xmm1
				; F16C-O0-NEXT: vcvtph2ps %xmm1, %xmm1
				; F16C-O0-NEXT: vaddss %xmm2, %xmm1, %xmm1
				; F16C-O0-NEXT: vcvtps2ph $4, %xmm1, %xmm1
				; F16C-O0-NEXT: vmovd %xmm1, %eax
				; F16C-O0-NEXT: movw %ax, %cx
				; F16C-O0-NEXT: # implicit-def: $eax
				; F16C-O0-NEXT: movw %cx, %ax
				; F16C-O0-NEXT: # implicit-def: $xmm1
				; F16C-O0-NEXT: vpinsrw $0, %eax, %xmm1, %xmm1
	; F16C-O0-NEXT: retq			; F16C-O0-NEXT: retq
	%retval = fadd <2 x half> %arg0, %arg1			%retval = fadd <2 x half> %arg0, %arg1
	ret <2 x half> %retval			ret <2 x half> %retval
	}			}

llvm/test/CodeGen/X86/pr38533.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown \| FileCheck %s --check-prefix=SSE2
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=avx512f \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=avx512f \| FileCheck %s --check-prefix=AVX512
				; RUN: llc < %s -mtriple=x86_64-unknown -mattr=avx512fp16 \| FileCheck %s --check-prefix=AVX512FP16

	; This test makes sure that a vector that needs to be promoted that is bitcasted to fp16 is legalized correctly without causing a width mismatch.			; This test makes sure that a vector that needs to be promoted that is bitcasted to fp16 is legalized correctly without causing a width mismatch.
	define void @constant_fold_vector_to_half() {			define void @constant_fold_vector_to_half() {
	; CHECK-LABEL: constant_fold_vector_to_half:			; SSE2-LABEL: constant_fold_vector_to_half:
	; CHECK: # %bb.0:			; SSE2: # %bb.0:
	; CHECK-NEXT: movw $16384, (%rax) # imm = 0x4000			; SSE2-NEXT: movw $16384, -{{[0-9]+}}(%rsp) # imm = 0x4000
	; CHECK-NEXT: retq			; SSE2-NEXT: pinsrw $0, -{{[0-9]+}}(%rsp), %xmm0
				; SSE2-NEXT: pextrw $0, %xmm0, %eax
				; SSE2-NEXT: movw %ax, (%rax)
				; SSE2-NEXT: retq
				;
				; AVX512-LABEL: constant_fold_vector_to_half:
				; AVX512: # %bb.0:
				; AVX512-NEXT: movw $16384, -{{[0-9]+}}(%rsp) # imm = 0x4000
				; AVX512-NEXT: vpinsrw $0, -{{[0-9]+}}(%rsp), %xmm0, %xmm0
				; AVX512-NEXT: vpextrw $0, %xmm0, (%rax)
				; AVX512-NEXT: retq
				;
				; AVX512FP16-LABEL: constant_fold_vector_to_half:
				; AVX512FP16: # %bb.0:
				; AVX512FP16-NEXT: movw $16384, -{{[0-9]+}}(%rsp) # imm = 0x4000
				; AVX512FP16-NEXT: vmovsh -{{[0-9]+}}(%rsp), %xmm0
				; AVX512FP16-NEXT: vmovsh %xmm0, (%rax)
				; AVX512FP16-NEXT: retq
	store volatile half bitcast (<4 x i4> <i4 0, i4 0, i4 0, i4 4> to half), half* undef			store volatile half bitcast (<4 x i4> <i4 0, i4 0, i4 0, i4 4> to half), half* undef
	ret void			ret void
	}			}

	; Similarly this makes sure that the opposite bitcast of the above is also legalized without crashing.			; Similarly this makes sure that the opposite bitcast of the above is also legalized without crashing.
	define void @pr38533_2(half %x) {			define void @pr38533_2(half %x) {
	; CHECK-LABEL: pr38533_2:			; SSE2-LABEL: pr38533_2:
	; CHECK: # %bb.0:			; SSE2: # %bb.0:
	; CHECK-NEXT: movw %di, (%rax)			; SSE2-NEXT: pextrw $0, %xmm0, %eax
	; CHECK-NEXT: retq			; SSE2-NEXT: movw %ax, (%rax)
				; SSE2-NEXT: retq
				;
				; AVX512-LABEL: pr38533_2:
				; AVX512: # %bb.0:
				; AVX512-NEXT: vpextrw $0, %xmm0, (%rax)
				; AVX512-NEXT: retq
				;
				; AVX512FP16-LABEL: pr38533_2:
				; AVX512FP16: # %bb.0:
				; AVX512FP16-NEXT: vmovsh %xmm0, (%rax)
				; AVX512FP16-NEXT: retq
	%a = bitcast half %x to <4 x i4>			%a = bitcast half %x to <4 x i4>
	store volatile <4 x i4> %a, <4 x i4>* undef			store volatile <4 x i4> %a, <4 x i4>* undef
	ret void			ret void
	}			}

	; This case is a bitcast from fp16 to a 16-bit wide legal vector type. In this case the result type is legal when the bitcast gets type legalized.			; This case is a bitcast from fp16 to a 16-bit wide legal vector type. In this case the result type is legal when the bitcast gets type legalized.
	define void @pr38533_3(half %x) {			define void @pr38533_3(half %x) {
	; CHECK-LABEL: pr38533_3:			; SSE2-LABEL: pr38533_3:
	; CHECK: # %bb.0:			; SSE2: # %bb.0:
	; CHECK-NEXT: movw %di, (%rax)			; SSE2-NEXT: pextrw $0, %xmm0, %eax
	; CHECK-NEXT: retq			; SSE2-NEXT: movw %ax, (%rax)
				; SSE2-NEXT: retq
				;
				; AVX512-LABEL: pr38533_3:
				; AVX512: # %bb.0:
				; AVX512-NEXT: vpextrw $0, %xmm0, (%rax)
				; AVX512-NEXT: retq
				;
				; AVX512FP16-LABEL: pr38533_3:
				; AVX512FP16: # %bb.0:
				; AVX512FP16-NEXT: vmovsh %xmm0, (%rax)
				; AVX512FP16-NEXT: retq
	%a = bitcast half %x to <16 x i1>			%a = bitcast half %x to <16 x i1>
	store volatile <16 x i1> %a, <16 x i1>* undef			store volatile <16 x i1> %a, <16 x i1>* undef
	ret void			ret void
	}			}

llvm/test/CodeGen/X86/pr47000.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mcpu=pentium4 -O0 \| FileCheck %s			; RUN: llc < %s -mcpu=pentium4 -O0 \| FileCheck %s

	target datalayout = "e-m:e-p:32:32-p270:32:32-p271:32:32-p272:64:64-f64:32:64-f80:32-n8:16:32-S128"			target datalayout = "e-m:e-p:32:32-p270:32:32-p271:32:32-p272:64:64-f64:32:64-f80:32-n8:16:32-S128"
	target triple = "i386-unknown-linux-unknown"			target triple = "i386-unknown-linux-unknown"

	define <4 x half> @doTheTestMod(<4 x half> %0, <4 x half> %1) nounwind {			define <4 x half> @doTheTestMod(<4 x half> %0, <4 x half> %1) nounwind {
	; CHECK-LABEL: doTheTestMod:			; CHECK-LABEL: doTheTestMod:
	; CHECK: # %bb.0: # %Entry			; CHECK: # %bb.0: # %Entry
	; CHECK-NEXT: pushl %ebp
	; CHECK-NEXT: pushl %ebx
	; CHECK-NEXT: pushl %edi
	; CHECK-NEXT: pushl %esi
	; CHECK-NEXT: subl $124, %esp			; CHECK-NEXT: subl $124, %esp
				; CHECK-NEXT: # implicit-def: $xmm3
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm3
				; CHECK-NEXT: # implicit-def: $xmm2
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm2
				; CHECK-NEXT: # implicit-def: $xmm1
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm1
				; CHECK-NEXT: # implicit-def: $xmm0
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
				; CHECK-NEXT: # implicit-def: $xmm4
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm4
				; CHECK-NEXT: # implicit-def: $xmm5
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm5
				; CHECK-NEXT: # implicit-def: $xmm6
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm6
				; CHECK-NEXT: # implicit-def: $xmm7
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm7
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: movw {{[0-9]+}}(%esp), %si			; CHECK-NEXT: pextrw $0, %xmm7, %eax
	; CHECK-NEXT: movw {{[0-9]+}}(%esp), %dx			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movw {{[0-9]+}}(%esp), %cx
	; CHECK-NEXT: movw {{[0-9]+}}(%esp), %ax
	; CHECK-NEXT: movw %ax, {{[-0-9]+}}(%e{{[sb]}}p) # 2-byte Spill
	; CHECK-NEXT: movw {{[0-9]+}}(%esp), %di
	; CHECK-NEXT: movw {{[0-9]+}}(%esp), %bx
	; CHECK-NEXT: movw {{[0-9]+}}(%esp), %bp
	; CHECK-NEXT: movw {{[0-9]+}}(%esp), %ax
	; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movw {{[-0-9]+}}(%e{{[sb]}}p), %ax # 2-byte Reload
	; CHECK-NEXT: movw %bp, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movw %bx, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movw %di, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movw %si, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movw %dx, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movw %cx, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: pextrw $0, %xmm6, %eax
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: pextrw $0, %xmm5, %eax
	; CHECK-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movzwl {{[0-9]+}}(%esp), %ecx			; CHECK-NEXT: pextrw $0, %xmm4, %eax
	; CHECK-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: pextrw $0, %xmm3, %eax
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: pextrw $0, %xmm2, %eax
	; CHECK-NEXT: movzwl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: movl %eax, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: pextrw $0, %xmm1, %eax
	; CHECK-NEXT: movl %ecx, (%eax)			; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NEXT: calll __gnu_h2f_ieee			; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload			; CHECK-NEXT: pextrw $0, %xmm0, %eax
				; CHECK-NEXT: # kill: def $ax killed $ax killed $eax
				; CHECK-NEXT: movw %ax, {{[0-9]+}}(%esp)
				; CHECK-NEXT: # implicit-def: $xmm0
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
				; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: # implicit-def: $xmm0
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
				; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: # implicit-def: $xmm0
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
				; CHECK-NEXT: movss %xmm0, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: # implicit-def: $xmm0
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm0
				; CHECK-NEXT: # implicit-def: $xmm1
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm1
				; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: # implicit-def: $xmm1
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm1
				; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: # implicit-def: $xmm1
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm1
				; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: # implicit-def: $xmm1
				; CHECK-NEXT: pinsrw $0, {{[0-9]+}}(%esp), %xmm1
				; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
				; CHECK-NEXT: pextrw $0, %xmm0, %eax
				; CHECK-NEXT: movw %ax, %cx
				; CHECK-NEXT: movl %esp, %eax
				; CHECK-NEXT: movw %cx, (%eax)
				; CHECK-NEXT: calll __extendhfsf2
				; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload
				; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill			; CHECK-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
				; CHECK-NEXT: pextrw $0, %xmm0, %eax
				; CHECK-NEXT: movw %ax, %cx
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: movl %ecx, (%eax)			; CHECK-NEXT: movw %cx, (%eax)
	; CHECK-NEXT: calll __gnu_h2f_ieee			; CHECK-NEXT: calll __extendhfsf2
	; CHECK-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload			; CHECK-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: fxch %st(1)			; CHECK-NEXT: fxch %st(1)
	; CHECK-NEXT: fstps 4(%eax)			; CHECK-NEXT: fstps 4(%eax)
	; CHECK-NEXT: fstps (%eax)			; CHECK-NEXT: fstps (%eax)
	; CHECK-NEXT: calll fmodf			; CHECK-NEXT: calll fmodf
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: fstps (%eax)			; CHECK-NEXT: fstps (%eax)
	; CHECK-NEXT: calll __gnu_f2h_ieee			; CHECK-NEXT: calll __truncsfhf2
	; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload			; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: movw %ax, {{[-0-9]+}}(%e{{[sb]}}p) # 2-byte Spill			; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movl %ecx, (%eax)			; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: calll __gnu_h2f_ieee			; CHECK-NEXT: pextrw $0, %xmm0, %eax
	; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload			; CHECK-NEXT: movw %ax, %cx
				; CHECK-NEXT: movl %esp, %eax
				; CHECK-NEXT: movw %cx, (%eax)
				; CHECK-NEXT: calll __extendhfsf2
				; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload
				; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill			; CHECK-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
				; CHECK-NEXT: pextrw $0, %xmm0, %eax
				; CHECK-NEXT: movw %ax, %cx
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: movl %ecx, (%eax)			; CHECK-NEXT: movw %cx, (%eax)
	; CHECK-NEXT: calll __gnu_h2f_ieee			; CHECK-NEXT: calll __extendhfsf2
	; CHECK-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload			; CHECK-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: fxch %st(1)			; CHECK-NEXT: fxch %st(1)
	; CHECK-NEXT: fstps 4(%eax)			; CHECK-NEXT: fstps 4(%eax)
	; CHECK-NEXT: fstps (%eax)			; CHECK-NEXT: fstps (%eax)
	; CHECK-NEXT: calll fmodf			; CHECK-NEXT: calll fmodf
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: fstps (%eax)			; CHECK-NEXT: fstps (%eax)
	; CHECK-NEXT: calll __gnu_f2h_ieee			; CHECK-NEXT: calll __truncsfhf2
	; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload			; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: movw %ax, %si			; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movl %ecx, (%eax)			; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: calll __gnu_h2f_ieee			; CHECK-NEXT: pextrw $0, %xmm0, %eax
	; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload			; CHECK-NEXT: movw %ax, %cx
				; CHECK-NEXT: movl %esp, %eax
				; CHECK-NEXT: movw %cx, (%eax)
				; CHECK-NEXT: calll __extendhfsf2
				; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload
				; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill			; CHECK-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
				; CHECK-NEXT: pextrw $0, %xmm0, %eax
				; CHECK-NEXT: movw %ax, %cx
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: movl %ecx, (%eax)			; CHECK-NEXT: movw %cx, (%eax)
	; CHECK-NEXT: calll __gnu_h2f_ieee			; CHECK-NEXT: calll __extendhfsf2
	; CHECK-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload			; CHECK-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: fxch %st(1)			; CHECK-NEXT: fxch %st(1)
	; CHECK-NEXT: fstps 4(%eax)			; CHECK-NEXT: fstps 4(%eax)
	; CHECK-NEXT: fstps (%eax)			; CHECK-NEXT: fstps (%eax)
	; CHECK-NEXT: calll fmodf			; CHECK-NEXT: calll fmodf
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: fstps (%eax)			; CHECK-NEXT: fstps (%eax)
	; CHECK-NEXT: calll __gnu_f2h_ieee			; CHECK-NEXT: calll __truncsfhf2
	; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload			; CHECK-NEXT: movaps %xmm0, %xmm1
	; CHECK-NEXT: movw %ax, %di			; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: movl %ecx, (%eax)			; CHECK-NEXT: movss %xmm1, {{[-0-9]+}}(%e{{[sb]}}p) # 4-byte Spill
	; CHECK-NEXT: calll __gnu_h2f_ieee			; CHECK-NEXT: pextrw $0, %xmm0, %eax
	; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload			; CHECK-NEXT: movw %ax, %cx
				; CHECK-NEXT: movl %esp, %eax
				; CHECK-NEXT: movw %cx, (%eax)
				; CHECK-NEXT: calll __extendhfsf2
				; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload
				; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
	; CHECK-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill			; CHECK-NEXT: fstpt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Spill
				; CHECK-NEXT: pextrw $0, %xmm0, %eax
				; CHECK-NEXT: movw %ax, %cx
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: movl %ecx, (%eax)			; CHECK-NEXT: movw %cx, (%eax)
	; CHECK-NEXT: calll __gnu_h2f_ieee			; CHECK-NEXT: calll __extendhfsf2
	; CHECK-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload			; CHECK-NEXT: fldt {{[-0-9]+}}(%e{{[sb]}}p) # 10-byte Folded Reload
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: fxch %st(1)			; CHECK-NEXT: fxch %st(1)
	; CHECK-NEXT: fstps 4(%eax)			; CHECK-NEXT: fstps 4(%eax)
	; CHECK-NEXT: fstps (%eax)			; CHECK-NEXT: fstps (%eax)
	; CHECK-NEXT: calll fmodf			; CHECK-NEXT: calll fmodf
	; CHECK-NEXT: movl %esp, %eax			; CHECK-NEXT: movl %esp, %eax
	; CHECK-NEXT: fstps (%eax)			; CHECK-NEXT: fstps (%eax)
	; CHECK-NEXT: calll __gnu_f2h_ieee			; CHECK-NEXT: calll __truncsfhf2
	; CHECK-NEXT: movw {{[-0-9]+}}(%e{{[sb]}}p), %dx # 2-byte Reload			; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm2 # 4-byte Reload
				; CHECK-NEXT: # xmm2 = mem[0],zero,zero,zero
				; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm1 # 4-byte Reload
				; CHECK-NEXT: # xmm1 = mem[0],zero,zero,zero
	; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload			; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %ecx # 4-byte Reload
	; CHECK-NEXT: movw %ax, %bx
	; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload			; CHECK-NEXT: movl {{[-0-9]+}}(%e{{[sb]}}p), %eax # 4-byte Reload
	; CHECK-NEXT: movw %bx, 6(%ecx)			; CHECK-NEXT: movaps %xmm0, %xmm3
	; CHECK-NEXT: movw %di, 4(%ecx)			; CHECK-NEXT: movss {{[-0-9]+}}(%e{{[sb]}}p), %xmm0 # 4-byte Reload
	; CHECK-NEXT: movw %si, 2(%ecx)			; CHECK-NEXT: # xmm0 = mem[0],zero,zero,zero
				; CHECK-NEXT: pextrw $0, %xmm3, %edx
				; CHECK-NEXT: # kill: def $dx killed $dx killed $edx
				; CHECK-NEXT: movw %dx, 6(%ecx)
				; CHECK-NEXT: pextrw $0, %xmm2, %edx
				; CHECK-NEXT: # kill: def $dx killed $dx killed $edx
				; CHECK-NEXT: movw %dx, 4(%ecx)
				; CHECK-NEXT: pextrw $0, %xmm1, %edx
				; CHECK-NEXT: # kill: def $dx killed $dx killed $edx
				; CHECK-NEXT: movw %dx, 2(%ecx)
				; CHECK-NEXT: pextrw $0, %xmm0, %edx
				; CHECK-NEXT: # kill: def $dx killed $dx killed $edx
	; CHECK-NEXT: movw %dx, (%ecx)			; CHECK-NEXT: movw %dx, (%ecx)
	; CHECK-NEXT: addl $124, %esp			; CHECK-NEXT: addl $124, %esp
	; CHECK-NEXT: popl %esi
	; CHECK-NEXT: popl %edi
	; CHECK-NEXT: popl %ebx
	; CHECK-NEXT: popl %ebp
	; CHECK-NEXT: retl $4			; CHECK-NEXT: retl $4
	Entry:			Entry:
	%x = alloca <4 x half>, align 8			%x = alloca <4 x half>, align 8
	%y = alloca <4 x half>, align 8			%y = alloca <4 x half>, align 8
	store <4 x half> %0, <4 x half>* %x, align 8			store <4 x half> %0, <4 x half>* %x, align 8
	store <4 x half> %1, <4 x half>* %y, align 8			store <4 x half> %1, <4 x half>* %y, align 8
	%2 = load <4 x half>, <4 x half>* %x, align 8			%2 = load <4 x half>, <4 x half>* %x, align 8
	%3 = load <4 x half>, <4 x half>* %y, align 8			%3 = load <4 x half>, <4 x half>* %y, align 8
	%4 = frem <4 x half> %2, %3			%4 = frem <4 x half> %2, %3
	ret <4 x half> %4			ret <4 x half> %4
	}			}

llvm/test/CodeGen/X86/scheduler-asm-moves.mir

Show First 20 Lines • Show All 122 Lines • ▼ Show 20 Lines	bb.0.entry:
; CHECK: liveins: $eax, $edx		; CHECK: liveins: $eax, $edx
; CHECK-NEXT: {{ $}}		; CHECK-NEXT: {{ $}}
; CHECK-NEXT: [[COPY:%[0-9]+]]:gr32 = COPY $edx		; CHECK-NEXT: [[COPY:%[0-9]+]]:gr32 = COPY $edx
; CHECK-NEXT: [[COPY1:%[0-9]+]]:gr32_abcd = COPY $eax		; CHECK-NEXT: [[COPY1:%[0-9]+]]:gr32_abcd = COPY $eax
; CHECK-NEXT: [[MOV8rm:%[0-9]+]]:gr8 = MOV8rm $noreg, 1, $noreg, @csum_ipv6_magic_saddr, $noreg :: (dereferenceable load (s8) from `i8* getelementptr inbounds (%struct.in6_addr, %struct.in6_addr* @csum_ipv6_magic_saddr, i32 0, i32 0, i32 0)`)		; CHECK-NEXT: [[MOV8rm:%[0-9]+]]:gr8 = MOV8rm $noreg, 1, $noreg, @csum_ipv6_magic_saddr, $noreg :: (dereferenceable load (s8) from `i8* getelementptr inbounds (%struct.in6_addr, %struct.in6_addr* @csum_ipv6_magic_saddr, i32 0, i32 0, i32 0)`)
; CHECK-NEXT: [[MOV32rm:%[0-9]+]]:gr32 = MOV32rm $noreg, 1, $noreg, @csum_ipv6_magic_daddr, $noreg :: (dereferenceable load (s32) from @csum_ipv6_magic_daddr, !tbaa !4)		; CHECK-NEXT: [[MOV32rm:%[0-9]+]]:gr32 = MOV32rm $noreg, 1, $noreg, @csum_ipv6_magic_daddr, $noreg :: (dereferenceable load (s32) from @csum_ipv6_magic_daddr, !tbaa !4)
; CHECK-NEXT: [[MOV32rm1:%[0-9]+]]:gr32 = MOV32rm $noreg, 1, $noreg, @csum_ipv6_magic_proto, $noreg :: (dereferenceable load (s32) from @csum_ipv6_magic_proto, !tbaa !4)		; CHECK-NEXT: [[MOV32rm1:%[0-9]+]]:gr32 = MOV32rm $noreg, 1, $noreg, @csum_ipv6_magic_proto, $noreg :: (dereferenceable load (s32) from @csum_ipv6_magic_proto, !tbaa !4)
; CHECK-NEXT: [[MOV32r0_:%[0-9]+]]:gr32 = MOV32r0 implicit-def dead $eflags		; CHECK-NEXT: [[MOV32r0_:%[0-9]+]]:gr32 = MOV32r0 implicit-def dead $eflags
; CHECK-NEXT: INLINEASM &"", 0 /* attdialect /, 2293771 / regdef-ec:GR32 /, def early-clobber %2, 65545 / reguse:GR8 /, [[MOV8rm]], 2293769 / reguse:GR32 /, [[MOV32rm]], 2293769 / reguse:GR32 /, [[MOV32r0_]], 2293769 / reguse:GR32 /, [[MOV32rm1]], 12 / clobber /, implicit-def dead early-clobber $df, 12 / clobber /, implicit-def early-clobber $fpsw, 12 / clobber */, implicit-def dead early-clobber $eflags, !8		; CHECK-NEXT: INLINEASM &"", 0 /* attdialect /, 2359307 / regdef-ec:GR32 /, def early-clobber %2, 65545 / reguse:GR8 /, [[MOV8rm]], 2359305 / reguse:GR32 /, [[MOV32rm]], 2359305 / reguse:GR32 /, [[MOV32r0_]], 2359305 / reguse:GR32 /, [[MOV32rm1]], 12 / clobber /, implicit-def dead early-clobber $df, 12 / clobber /, implicit-def early-clobber $fpsw, 12 / clobber */, implicit-def dead early-clobber $eflags, !8
; CHECK-NEXT: MOV32mr $noreg, 1, $noreg, @csum_ipv6_magic_sum, $noreg, %2 :: (store (s32) into @csum_ipv6_magic_sum, !tbaa !4)		; CHECK-NEXT: MOV32mr $noreg, 1, $noreg, @csum_ipv6_magic_sum, $noreg, %2 :: (store (s32) into @csum_ipv6_magic_sum, !tbaa !4)
; CHECK-NEXT: [[MOV32rm2:%[0-9]+]]:gr32 = MOV32rm $noreg, 1, $noreg, @synproxy_send_tcp_ipv6_nskb, $noreg :: (dereferenceable load (s32) from `i8 bitcast (%struct.sk_buff @synproxy_send_tcp_ipv6_nskb to i8**)`, !tbaa !9)		; CHECK-NEXT: [[MOV32rm2:%[0-9]+]]:gr32 = MOV32rm $noreg, 1, $noreg, @synproxy_send_tcp_ipv6_nskb, $noreg :: (dereferenceable load (s32) from `i8 bitcast (%struct.sk_buff @synproxy_send_tcp_ipv6_nskb to i8**)`, !tbaa !9)
; CHECK-NEXT: OR8mi [[MOV32rm2]], 1, $noreg, 0, $noreg, 3, implicit-def dead $eflags :: (store (s8) into %ir.4), (load (s8) from %ir.4)		; CHECK-NEXT: OR8mi [[MOV32rm2]], 1, $noreg, 0, $noreg, 3, implicit-def dead $eflags :: (store (s8) into %ir.4), (load (s8) from %ir.4)
; CHECK-NEXT: [[MOV8rm1:%[0-9]+]]:gr8 = MOV8rm [[COPY]], 1, $noreg, 0, $noreg :: (load (s8) from %ir.5, !tbaa !11)		; CHECK-NEXT: [[MOV8rm1:%[0-9]+]]:gr8 = MOV8rm [[COPY]], 1, $noreg, 0, $noreg :: (load (s8) from %ir.5, !tbaa !11)
; CHECK-NEXT: MOV8mr $noreg, 1, $noreg, @synproxy_send_tcp_ipv6_fl6, $noreg, [[MOV8rm1]] :: (store (s8) into `i8* getelementptr inbounds (%struct.in6_addr, %struct.in6_addr* @synproxy_send_tcp_ipv6_fl6, i32 0, i32 0, i32 0)`, !tbaa !11)		; CHECK-NEXT: MOV8mr $noreg, 1, $noreg, @synproxy_send_tcp_ipv6_fl6, $noreg, [[MOV8rm1]] :: (store (s8) into `i8* getelementptr inbounds (%struct.in6_addr, %struct.in6_addr* @synproxy_send_tcp_ipv6_fl6, i32 0, i32 0, i32 0)`, !tbaa !11)
; CHECK-NEXT: [[MOVZX32rr8_:%[0-9]+]]:gr32 = MOVZX32rr8 [[COPY1]].sub_8bit		; CHECK-NEXT: [[MOVZX32rr8_:%[0-9]+]]:gr32 = MOVZX32rr8 [[COPY1]].sub_8bit
; CHECK-NEXT: $eax = COPY [[MOVZX32rr8_]]		; CHECK-NEXT: $eax = COPY [[MOVZX32rr8_]]
; CHECK-NEXT: TCRETURNdi @fl6nthsecurity_skb_classify_flow, 0, csr_32, implicit $esp, implicit $ssp, implicit $eax		; CHECK-NEXT: TCRETURNdi @fl6nthsecurity_skb_classify_flow, 0, csr_32, implicit $esp, implicit $ssp, implicit $eax
%1:gr32 = COPY $edx		%1:gr32 = COPY $edx
%0:gr32_abcd = COPY $eax		%0:gr32_abcd = COPY $eax
%3:gr8 = MOV8rm $noreg, 1, $noreg, @csum_ipv6_magic_saddr, $noreg :: (dereferenceable load (s8) from `i8* getelementptr inbounds (%struct.in6_addr, %struct.in6_addr* @csum_ipv6_magic_saddr, i32 0, i32 0, i32 0)`)		%3:gr8 = MOV8rm $noreg, 1, $noreg, @csum_ipv6_magic_saddr, $noreg :: (dereferenceable load (s8) from `i8* getelementptr inbounds (%struct.in6_addr, %struct.in6_addr* @csum_ipv6_magic_saddr, i32 0, i32 0, i32 0)`)
%4:gr32 = MOV32rm $noreg, 1, $noreg, @csum_ipv6_magic_daddr, $noreg :: (dereferenceable load (s32) from @csum_ipv6_magic_daddr, !tbaa !5)		%4:gr32 = MOV32rm $noreg, 1, $noreg, @csum_ipv6_magic_daddr, $noreg :: (dereferenceable load (s32) from @csum_ipv6_magic_daddr, !tbaa !5)
%6:gr32 = MOV32rm $noreg, 1, $noreg, @csum_ipv6_magic_proto, $noreg :: (dereferenceable load (s32) from @csum_ipv6_magic_proto, !tbaa !5)		%6:gr32 = MOV32rm $noreg, 1, $noreg, @csum_ipv6_magic_proto, $noreg :: (dereferenceable load (s32) from @csum_ipv6_magic_proto, !tbaa !5)
%5:gr32 = MOV32r0 implicit-def dead $eflags		%5:gr32 = MOV32r0 implicit-def dead $eflags
INLINEASM &"", 0 /* attdialect /, 2293771 / regdef-ec:GR32 /, def early-clobber %2, 65545 / reguse:GR8 /, %3, 2293769 / reguse:GR32 /, %4, 2293769 / reguse:GR32 /, %5, 2293769 / reguse:GR32 /, %6, 12 / clobber /, implicit-def dead early-clobber $df, 12 / clobber /, implicit-def early-clobber $fpsw, 12 / clobber */, implicit-def dead early-clobber $eflags, !9		INLINEASM &"", 0 /* attdialect /, 2359307 / regdef-ec:GR32 /, def early-clobber %2, 65545 / reguse:GR8 /, %3, 2359305 / reguse:GR32 /, %4, 2359305 / reguse:GR32 /, %5, 2359305 / reguse:GR32 /, %6, 12 / clobber /, implicit-def dead early-clobber $df, 12 / clobber /, implicit-def early-clobber $fpsw, 12 / clobber */, implicit-def dead early-clobber $eflags, !9
MOV32mr $noreg, 1, $noreg, @csum_ipv6_magic_sum, $noreg, %2 :: (store (s32) into @csum_ipv6_magic_sum, !tbaa !5)		MOV32mr $noreg, 1, $noreg, @csum_ipv6_magic_sum, $noreg, %2 :: (store (s32) into @csum_ipv6_magic_sum, !tbaa !5)
%7:gr32 = MOV32rm $noreg, 1, $noreg, @synproxy_send_tcp_ipv6_nskb, $noreg :: (dereferenceable load (s32) from `i8 bitcast (%struct.sk_buff @synproxy_send_tcp_ipv6_nskb to i8**)`, !tbaa !10)		%7:gr32 = MOV32rm $noreg, 1, $noreg, @synproxy_send_tcp_ipv6_nskb, $noreg :: (dereferenceable load (s32) from `i8 bitcast (%struct.sk_buff @synproxy_send_tcp_ipv6_nskb to i8**)`, !tbaa !10)
OR8mi %7, 1, $noreg, 0, $noreg, 3, implicit-def dead $eflags :: (store (s8) into %ir.4), (load (s8) from %ir.4)		OR8mi %7, 1, $noreg, 0, $noreg, 3, implicit-def dead $eflags :: (store (s8) into %ir.4), (load (s8) from %ir.4)
%8:gr8 = MOV8rm %1, 1, $noreg, 0, $noreg :: (load (s8) from %ir.5, !tbaa !12)		%8:gr8 = MOV8rm %1, 1, $noreg, 0, $noreg :: (load (s8) from %ir.5, !tbaa !12)
MOV8mr $noreg, 1, $noreg, @synproxy_send_tcp_ipv6_fl6, $noreg, %8 :: (store (s8) into `i8* getelementptr inbounds (%struct.in6_addr, %struct.in6_addr* @synproxy_send_tcp_ipv6_fl6, i32 0, i32 0, i32 0)`, !tbaa !12)		MOV8mr $noreg, 1, $noreg, @synproxy_send_tcp_ipv6_fl6, $noreg, %8 :: (store (s8) into `i8* getelementptr inbounds (%struct.in6_addr, %struct.in6_addr* @synproxy_send_tcp_ipv6_fl6, i32 0, i32 0, i32 0)`, !tbaa !12)
%10:gr32 = MOVZX32rr8 %0.sub_8bit		%10:gr32 = MOVZX32rr8 %0.sub_8bit
$eax = COPY %10		$eax = COPY %10
TCRETURNdi @fl6nthsecurity_skb_classify_flow, 0, csr_32, implicit $esp, implicit $ssp, implicit $eax		TCRETURNdi @fl6nthsecurity_skb_classify_flow, 0, csr_32, implicit $esp, implicit $ssp, implicit $eax

...		...

llvm/test/CodeGen/X86/shuffle-extract-subvector.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s

	define void @f(<4 x half>* %a, <4 x half>* %b, <8 x half>* %c) {			define void @f(<4 x half>* %a, <4 x half>* %b, <8 x half>* %c) {
	; CHECK-LABEL: f:			; CHECK-LABEL: f:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: movzwl (%rdi), %eax			; CHECK-NEXT: pinsrw $0, (%rdi), %xmm0
	; CHECK-NEXT: movzwl 2(%rdi), %ecx			; CHECK-NEXT: pinsrw $0, 2(%rdi), %xmm1
	; CHECK-NEXT: movw %cx, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: pinsrw $0, 4(%rdi), %xmm2
	; CHECK-NEXT: movw %ax, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: pinsrw $0, 6(%rdi), %xmm3
	; CHECK-NEXT: movzwl 6(%rdi), %r8d			; CHECK-NEXT: pinsrw $0, (%rsi), %xmm4
	; CHECK-NEXT: movzwl 4(%rdi), %r11d			; CHECK-NEXT: pinsrw $0, 2(%rsi), %xmm5
	; CHECK-NEXT: movq (%rsi), %rsi			; CHECK-NEXT: pinsrw $0, 4(%rsi), %xmm6
	; CHECK-NEXT: movq %rsi, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: pinsrw $0, 6(%rsi), %xmm7
	; CHECK-NEXT: movdqa -{{[0-9]+}}(%rsp), %xmm0			; CHECK-NEXT: pextrw $0, %xmm7, %eax
	; CHECK-NEXT: pextrw $1, %xmm0, %r9d
	; CHECK-NEXT: movd %xmm0, %r10d
	; CHECK-NEXT: movl -{{[0-9]+}}(%rsp), %esi
	; CHECK-NEXT: pextrw $3, %xmm0, %eax
	; CHECK-NEXT: pextrw $2, %xmm0, %edi
	; CHECK-NEXT: movw %r11w, 8(%rdx)
	; CHECK-NEXT: movw %cx, 4(%rdx)
	; CHECK-NEXT: movw %r8w, 12(%rdx)
	; CHECK-NEXT: movw %si, (%rdx)
	; CHECK-NEXT: movw %di, 10(%rdx)
	; CHECK-NEXT: movw %ax, 14(%rdx)			; CHECK-NEXT: movw %ax, 14(%rdx)
	; CHECK-NEXT: movw %r10w, 2(%rdx)			; CHECK-NEXT: pextrw $0, %xmm3, %eax
	; CHECK-NEXT: movw %r9w, 6(%rdx)			; CHECK-NEXT: movw %ax, 12(%rdx)
				; CHECK-NEXT: pextrw $0, %xmm6, %eax
				; CHECK-NEXT: movw %ax, 10(%rdx)
				; CHECK-NEXT: pextrw $0, %xmm2, %eax
				; CHECK-NEXT: movw %ax, 8(%rdx)
				; CHECK-NEXT: pextrw $0, %xmm5, %eax
				; CHECK-NEXT: movw %ax, 6(%rdx)
				; CHECK-NEXT: pextrw $0, %xmm1, %eax
				; CHECK-NEXT: movw %ax, 4(%rdx)
				; CHECK-NEXT: pextrw $0, %xmm4, %eax
				; CHECK-NEXT: movw %ax, 2(%rdx)
				; CHECK-NEXT: pextrw $0, %xmm0, %eax
				; CHECK-NEXT: movw %ax, (%rdx)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%tmp4 = load <4 x half>, <4 x half>* %a			%tmp4 = load <4 x half>, <4 x half>* %a
	%tmp5 = load <4 x half>, <4 x half>* %b			%tmp5 = load <4 x half>, <4 x half>* %b
	%tmp7 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 0, i32 4>			%tmp7 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 0, i32 4>
	%tmp8 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 1, i32 5>			%tmp8 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 1, i32 5>
	%tmp9 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 2, i32 6>			%tmp9 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 2, i32 6>
	%tmp10 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 3, i32 7>			%tmp10 = shufflevector <4 x half> %tmp4, <4 x half> %tmp5, <2 x i32> <i32 3, i32 7>
	%tmp11 = extractelement <2 x half> %tmp7, i32 0			%tmp11 = extractelement <2 x half> %tmp7, i32 0
	Show All 18 Lines

llvm/test/CodeGen/X86/stack-folding-fp-avx512fp16-fma.ll

Show First 20 Lines • Show All 797 Lines • ▼ Show 20 Lines	define <32 x half> @stack_fold_fnmsub312ph_maskz(<32 x half> %a0, <32 x half> %a1, <32 x half> %a2, i32* %mask) {
%3 = load i32, i32* %mask		%3 = load i32, i32* %mask
%4 = bitcast i32 %3 to <32 x i1>		%4 = bitcast i32 %3 to <32 x i1>
%5 = select <32 x i1> %4, <32 x half> %2, <32 x half> zeroinitializer		%5 = select <32 x i1> %4, <32 x half> %2, <32 x half> zeroinitializer
ret <32 x half> %5		ret <32 x half> %5
}		}

define half @stack_fold_fmadd123sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmadd123sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmadd123sh:		;CHECK-LABEL: stack_fold_fmadd123sh:
;CHECK: vfmadd213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmadd213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = call half @llvm.fma.f16(half %a0, half %a1, half %a2)		%2 = call half @llvm.fma.f16(half %a0, half %a1, half %a2)
ret half %2		ret half %2
}		}
declare half @llvm.fma.f16(half, half, half)		declare half @llvm.fma.f16(half, half, half)

define half @stack_fold_fmadd213sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmadd213sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmadd213sh:		;CHECK-LABEL: stack_fold_fmadd213sh:
;CHECK: vfmadd213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmadd213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = call half @llvm.fma.f16(half %a1, half %a0, half %a2)		%2 = call half @llvm.fma.f16(half %a1, half %a0, half %a2)
ret half %2		ret half %2
}		}

define half @stack_fold_fmadd231sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmadd231sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmadd231sh:		;CHECK-LABEL: stack_fold_fmadd231sh:
;CHECK: vfmadd231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmadd231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = call half @llvm.fma.f16(half %a1, half %a2, half %a0)		%2 = call half @llvm.fma.f16(half %a1, half %a2, half %a0)
ret half %2		ret half %2
}		}

define half @stack_fold_fmadd321sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmadd321sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmadd321sh:		;CHECK-LABEL: stack_fold_fmadd321sh:
;CHECK: vfmadd231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmadd231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = call half @llvm.fma.f16(half %a2, half %a1, half %a0)		%2 = call half @llvm.fma.f16(half %a2, half %a1, half %a0)
ret half %2		ret half %2
}		}

define half @stack_fold_fmadd132sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmadd132sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmadd132sh:		;CHECK-LABEL: stack_fold_fmadd132sh:
;CHECK: vfmadd132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmadd132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = call half @llvm.fma.f16(half %a0, half %a2, half %a1)		%2 = call half @llvm.fma.f16(half %a0, half %a2, half %a1)
ret half %2		ret half %2
}		}

define half @stack_fold_fmadd312sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmadd312sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmadd312sh:		;CHECK-LABEL: stack_fold_fmadd312sh:
;CHECK: vfmadd132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmadd132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = call half @llvm.fma.f16(half %a2, half %a0, half %a1)		%2 = call half @llvm.fma.f16(half %a2, half %a0, half %a1)
ret half %2		ret half %2
}		}

define half @stack_fold_fmsub123sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmsub123sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmsub123sh:		;CHECK-LABEL: stack_fold_fmsub123sh:
;CHECK: vfmsub213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmsub213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a2		%2 = fneg half %a2
%3 = call half @llvm.fma.f16(half %a0, half %a1, half %2)		%3 = call half @llvm.fma.f16(half %a0, half %a1, half %2)
ret half %3		ret half %3
}		}

define half @stack_fold_fmsub213sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmsub213sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmsub213sh:		;CHECK-LABEL: stack_fold_fmsub213sh:
;CHECK: vfmsub213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmsub213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a2		%2 = fneg half %a2
%3 = call half @llvm.fma.f16(half %a1, half %a0, half %2)		%3 = call half @llvm.fma.f16(half %a1, half %a0, half %2)
ret half %3		ret half %3
}		}

define half @stack_fold_fmsub231sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmsub231sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmsub231sh:		;CHECK-LABEL: stack_fold_fmsub231sh:
;CHECK: vfmsub231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmsub231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a0		%2 = fneg half %a0
%3 = call half @llvm.fma.f16(half %a1, half %a2, half %2)		%3 = call half @llvm.fma.f16(half %a1, half %a2, half %2)
ret half %3		ret half %3
}		}

define half @stack_fold_fmsub321sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmsub321sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmsub321sh:		;CHECK-LABEL: stack_fold_fmsub321sh:
;CHECK: vfmsub231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmsub231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a0		%2 = fneg half %a0
%3 = call half @llvm.fma.f16(half %a2, half %a1, half %2)		%3 = call half @llvm.fma.f16(half %a2, half %a1, half %2)
ret half %3		ret half %3
}		}

define half @stack_fold_fmsub132sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmsub132sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmsub132sh:		;CHECK-LABEL: stack_fold_fmsub132sh:
;CHECK: vfmsub132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmsub132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a1		%2 = fneg half %a1
%3 = call half @llvm.fma.f16(half %a0, half %a2, half %2)		%3 = call half @llvm.fma.f16(half %a0, half %a2, half %2)
ret half %3		ret half %3
}		}

define half @stack_fold_fmsub312sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fmsub312sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fmsub312sh:		;CHECK-LABEL: stack_fold_fmsub312sh:
;CHECK: vfmsub132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfmsub132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a1		%2 = fneg half %a1
%3 = call half @llvm.fma.f16(half %a2, half %a0, half %2)		%3 = call half @llvm.fma.f16(half %a2, half %a0, half %2)
ret half %3		ret half %3
}		}

define half @stack_fold_fnmadd123sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmadd123sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmadd123sh:		;CHECK-LABEL: stack_fold_fnmadd123sh:
;CHECK: vfnmadd213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmadd213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a0		%2 = fneg half %a0
%3 = call half @llvm.fma.f16(half %2, half %a1, half %a2)		%3 = call half @llvm.fma.f16(half %2, half %a1, half %a2)
ret half %3		ret half %3
}		}

define half @stack_fold_fnmadd213sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmadd213sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmadd213sh:		;CHECK-LABEL: stack_fold_fnmadd213sh:
;CHECK: vfnmadd213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmadd213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a1		%2 = fneg half %a1
%3 = call half @llvm.fma.f16(half %2, half %a0, half %a2)		%3 = call half @llvm.fma.f16(half %2, half %a0, half %a2)
ret half %3		ret half %3
}		}

define half @stack_fold_fnmadd231sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmadd231sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmadd231sh:		;CHECK-LABEL: stack_fold_fnmadd231sh:
;CHECK: vfnmadd231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmadd231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a1		%2 = fneg half %a1
%3 = call half @llvm.fma.f16(half %2, half %a2, half %a0)		%3 = call half @llvm.fma.f16(half %2, half %a2, half %a0)
ret half %3		ret half %3
}		}

define half @stack_fold_fnmadd321sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmadd321sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmadd321sh:		;CHECK-LABEL: stack_fold_fnmadd321sh:
;CHECK: vfnmadd231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmadd231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a2		%2 = fneg half %a2
%3 = call half @llvm.fma.f16(half %2, half %a1, half %a0)		%3 = call half @llvm.fma.f16(half %2, half %a1, half %a0)
ret half %3		ret half %3
}		}

define half @stack_fold_fnmadd132sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmadd132sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmadd132sh:		;CHECK-LABEL: stack_fold_fnmadd132sh:
;CHECK: vfnmadd132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmadd132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a0		%2 = fneg half %a0
%3 = call half @llvm.fma.f16(half %2, half %a2, half %a1)		%3 = call half @llvm.fma.f16(half %2, half %a2, half %a1)
ret half %3		ret half %3
}		}

define half @stack_fold_fnmadd312sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmadd312sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmadd312sh:		;CHECK-LABEL: stack_fold_fnmadd312sh:
;CHECK: vfnmadd132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmadd132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a2		%2 = fneg half %a2
%3 = call half @llvm.fma.f16(half %2, half %a0, half %a1)		%3 = call half @llvm.fma.f16(half %2, half %a0, half %a1)
ret half %3		ret half %3
}		}

define half @stack_fold_fnmsub123sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmsub123sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmsub123sh:		;CHECK-LABEL: stack_fold_fnmsub123sh:
;CHECK: vfnmsub213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmsub213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a0		%2 = fneg half %a0
%3 = fneg half %a2		%3 = fneg half %a2
%4 = call half @llvm.fma.f16(half %2, half %a1, half %3)		%4 = call half @llvm.fma.f16(half %2, half %a1, half %3)
ret half %4		ret half %4
}		}

define half @stack_fold_fnmsub213sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmsub213sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmsub213sh:		;CHECK-LABEL: stack_fold_fnmsub213sh:
;CHECK: vfnmsub213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmsub213sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a1		%2 = fneg half %a1
%3 = fneg half %a2		%3 = fneg half %a2
%4 = call half @llvm.fma.f16(half %2, half %a0, half %3)		%4 = call half @llvm.fma.f16(half %2, half %a0, half %3)
ret half %4		ret half %4
}		}

define half @stack_fold_fnmsub231sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmsub231sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmsub231sh:		;CHECK-LABEL: stack_fold_fnmsub231sh:
;CHECK: vfnmsub231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmsub231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a1		%2 = fneg half %a1
%3 = fneg half %a0		%3 = fneg half %a0
%4 = call half @llvm.fma.f16(half %2, half %a2, half %3)		%4 = call half @llvm.fma.f16(half %2, half %a2, half %3)
ret half %4		ret half %4
}		}

define half @stack_fold_fnmsub321sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmsub321sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmsub321sh:		;CHECK-LABEL: stack_fold_fnmsub321sh:
;CHECK: vfnmsub231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmsub231sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a2		%2 = fneg half %a2
%3 = fneg half %a0		%3 = fneg half %a0
%4 = call half @llvm.fma.f16(half %2, half %a1, half %3)		%4 = call half @llvm.fma.f16(half %2, half %a1, half %3)
ret half %4		ret half %4
}		}

define half @stack_fold_fnmsub132sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmsub132sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmsub132sh:		;CHECK-LABEL: stack_fold_fnmsub132sh:
;CHECK: vfnmsub132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmsub132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a0		%2 = fneg half %a0
%3 = fneg half %a1		%3 = fneg half %a1
%4 = call half @llvm.fma.f16(half %2, half %a2, half %3)		%4 = call half @llvm.fma.f16(half %2, half %a2, half %3)
ret half %4		ret half %4
}		}

define half @stack_fold_fnmsub312sh(half %a0, half %a1, half %a2) {		define half @stack_fold_fnmsub312sh(half %a0, half %a1, half %a2) {
;CHECK-LABEL: stack_fold_fnmsub312sh:		;CHECK-LABEL: stack_fold_fnmsub312sh:
;CHECK: vfnmsub132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vfnmsub132sh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fneg half %a2		%2 = fneg half %a2
%3 = fneg half %a1		%3 = fneg half %a1
%4 = call half @llvm.fma.f16(half %2, half %a0, half %3)		%4 = call half @llvm.fma.f16(half %2, half %a0, half %3)
ret half %4		ret half %4
}		}

define <8 x half> @stack_fold_fmadd123sh_int(<8 x half> %a0v, <8 x half> %a1v, <8 x half> %a2v) {		define <8 x half> @stack_fold_fmadd123sh_int(<8 x half> %a0v, <8 x half> %a1v, <8 x half> %a2v) {
▲ Show 20 Lines • Show All 1,505 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/stack-folding-fp-avx512fp16.ll

Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	define <32 x half> @stack_fold_addph_zmm_kz(<32 x half> %a0, <32 x half> %a1, i32 %mask) {
%2 = fadd <32 x half> %a1, %a0		%2 = fadd <32 x half> %a1, %a0
%3 = bitcast i32 %mask to <32 x i1>		%3 = bitcast i32 %mask to <32 x i1>
%4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer		%4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
ret <32 x half> %4		ret <32 x half> %4
}		}

define half @stack_fold_addsh(half %a0, half %a1) {		define half @stack_fold_addsh(half %a0, half %a1) {
;CHECK-LABEL: stack_fold_addsh		;CHECK-LABEL: stack_fold_addsh
;CHECK: vaddsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vaddsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fadd half %a0, %a1		%2 = fadd half %a0, %a1
ret half %2		ret half %2
}		}

define <8 x half> @stack_fold_addsh_int(<8 x half> %a0, <8 x half> %a1) {		define <8 x half> @stack_fold_addsh_int(<8 x half> %a0, <8 x half> %a1) {
;CHECK-LABEL: stack_fold_addsh_int		;CHECK-LABEL: stack_fold_addsh_int
;CHECK: vaddsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload		;CHECK: vaddsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
Show All 40 Lines	define <32 x half> @stack_fold_cmpph_mask_commuted(<32 x half> %a0, <32 x half> %a1, <32 x half>* %a2, i32 %mask, <32 x half> %b0, <32 x half> %b1) {
%5 = call <32 x i1> @llvm.x86.avx512fp16.mask.cmp.ph.512(<32 x half> %a0, <32 x half> %3, i32 0, <32 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, i32 4)		%5 = call <32 x i1> @llvm.x86.avx512fp16.mask.cmp.ph.512(<32 x half> %a0, <32 x half> %3, i32 0, <32 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, i32 4)
%6 = and <32 x i1> %4, %5		%6 = and <32 x i1> %4, %5
%7 = select <32 x i1> %6, <32 x half> %b0, <32 x half> %b1		%7 = select <32 x i1> %6, <32 x half> %b0, <32 x half> %b1
ret <32 x half> %7		ret <32 x half> %7
}		}

define half @stack_fold_divsh(half %a0, half %a1) {		define half @stack_fold_divsh(half %a0, half %a1) {
;CHECK-LABEL: stack_fold_divsh		;CHECK-LABEL: stack_fold_divsh
;CHECK: vdivsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vdivsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fdiv half %a0, %a1		%2 = fdiv half %a0, %a1
ret half %2		ret half %2
}		}

define <8 x half> @stack_fold_divsh_int(<8 x half> %a0, <8 x half> %a1) {		define <8 x half> @stack_fold_divsh_int(<8 x half> %a0, <8 x half> %a1) {
;CHECK-LABEL: stack_fold_divsh_int		;CHECK-LABEL: stack_fold_divsh_int
;CHECK: vdivsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload		;CHECK: vdivsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
▲ Show 20 Lines • Show All 266 Lines • ▼ Show 20 Lines	define <32 x half> @stack_fold_maxph_zmm_commutable_kz_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask) #1 {
%2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)		%2 = call <32 x half> @llvm.x86.avx512fp16.max.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
%3 = bitcast i32 %mask to <32 x i1>		%3 = bitcast i32 %mask to <32 x i1>
%4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer		%4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
ret <32 x half> %4		ret <32 x half> %4
}		}

define half @stack_fold_maxsh(half %a0, half %a1) #0 {		define half @stack_fold_maxsh(half %a0, half %a1) #0 {
;CHECK-LABEL: stack_fold_maxsh:		;CHECK-LABEL: stack_fold_maxsh:
;CHECK: vmaxsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vmaxsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fcmp ogt half %a0, %a1		%2 = fcmp ogt half %a0, %a1
%3 = select i1 %2, half %a0, half %a1		%3 = select i1 %2, half %a0, half %a1
ret half %3		ret half %3
}		}

define half @stack_fold_maxsh_commuted(half %a0, half %a1) #0 {		define half @stack_fold_maxsh_commuted(half %a0, half %a1) #0 {
;CHECK-LABEL: stack_fold_maxsh_commuted:		;CHECK-LABEL: stack_fold_maxsh_commuted:
;CHECK-NOT: vmaxsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK-NOT: vmaxsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fcmp ogt half %a1, %a0		%2 = fcmp ogt half %a1, %a0
%3 = select i1 %2, half %a1, half %a0		%3 = select i1 %2, half %a1, half %a0
ret half %3		ret half %3
}		}

define half @stack_fold_maxsh_commutable(half %a0, half %a1) #1 {		define half @stack_fold_maxsh_commutable(half %a0, half %a1) #1 {
;CHECK-LABEL: stack_fold_maxsh_commutable:		;CHECK-LABEL: stack_fold_maxsh_commutable:
;CHECK: vmaxsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vmaxsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fcmp ogt half %a0, %a1		%2 = fcmp ogt half %a0, %a1
%3 = select i1 %2, half %a0, half %a1		%3 = select i1 %2, half %a0, half %a1
ret half %3		ret half %3
}		}

define half @stack_fold_maxsh_commutable_commuted(half %a0, half %a1) #1 {		define half @stack_fold_maxsh_commutable_commuted(half %a0, half %a1) #1 {
;CHECK-LABEL: stack_fold_maxsh_commutable_commuted:		;CHECK-LABEL: stack_fold_maxsh_commutable_commuted:
;CHECK: vmaxsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vmaxsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fcmp ogt half %a1, %a0		%2 = fcmp ogt half %a1, %a0
%3 = select i1 %2, half %a1, half %a0		%3 = select i1 %2, half %a1, half %a0
ret half %3		ret half %3
}		}

define <8 x half> @stack_fold_maxsh_int(<8 x half> %a0, <8 x half> %a1) #0 {		define <8 x half> @stack_fold_maxsh_int(<8 x half> %a0, <8 x half> %a1) #0 {
;CHECK-LABEL: stack_fold_maxsh_int:		;CHECK-LABEL: stack_fold_maxsh_int:
▲ Show 20 Lines • Show All 135 Lines • ▼ Show 20 Lines	define <32 x half> @stack_fold_minph_zmm_commutable_kz_commuted(<32 x half> %a0, <32 x half> %a1, i32 %mask) #1 {
%2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)		%2 = call <32 x half> @llvm.x86.avx512fp16.min.ph.512(<32 x half> %a1, <32 x half> %a0, i32 4)
%3 = bitcast i32 %mask to <32 x i1>		%3 = bitcast i32 %mask to <32 x i1>
%4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer		%4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
ret <32 x half> %4		ret <32 x half> %4
}		}

define half @stack_fold_minsh(half %a0, half %a1) #0 {		define half @stack_fold_minsh(half %a0, half %a1) #0 {
;CHECK-LABEL: stack_fold_minsh:		;CHECK-LABEL: stack_fold_minsh:
;CHECK: vminsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vminsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fcmp olt half %a0, %a1		%2 = fcmp olt half %a0, %a1
%3 = select i1 %2, half %a0, half %a1		%3 = select i1 %2, half %a0, half %a1
ret half %3		ret half %3
}		}

define half @stack_fold_minsh_commuted(half %a0, half %a1) #0 {		define half @stack_fold_minsh_commuted(half %a0, half %a1) #0 {
;CHECK-LABEL: stack_fold_minsh_commuted:		;CHECK-LABEL: stack_fold_minsh_commuted:
;CHECK-NOT: vminsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK-NOT: vminsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fcmp olt half %a1, %a0		%2 = fcmp olt half %a1, %a0
%3 = select i1 %2, half %a1, half %a0		%3 = select i1 %2, half %a1, half %a0
ret half %3		ret half %3
}		}

define half @stack_fold_minsh_commutable(half %a0, half %a1) #1 {		define half @stack_fold_minsh_commutable(half %a0, half %a1) #1 {
;CHECK-LABEL: stack_fold_minsh_commutable:		;CHECK-LABEL: stack_fold_minsh_commutable:
;CHECK: vminsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vminsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fcmp olt half %a0, %a1		%2 = fcmp olt half %a0, %a1
%3 = select i1 %2, half %a0, half %a1		%3 = select i1 %2, half %a0, half %a1
ret half %3		ret half %3
}		}

define half @stack_fold_minsh_commutable_commuted(half %a0, half %a1) #1 {		define half @stack_fold_minsh_commutable_commuted(half %a0, half %a1) #1 {
;CHECK-LABEL: stack_fold_minsh_commutable_commuted:		;CHECK-LABEL: stack_fold_minsh_commutable_commuted:
;CHECK: vminsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vminsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fcmp olt half %a1, %a0		%2 = fcmp olt half %a1, %a0
%3 = select i1 %2, half %a1, half %a0		%3 = select i1 %2, half %a1, half %a0
ret half %3		ret half %3
}		}

define <8 x half> @stack_fold_minsh_int(<8 x half> %a0, <8 x half> %a1) #0 {		define <8 x half> @stack_fold_minsh_int(<8 x half> %a0, <8 x half> %a1) #0 {
;CHECK-LABEL: stack_fold_minsh_int:		;CHECK-LABEL: stack_fold_minsh_int:
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	define <32 x half> @stack_fold_mulph_zmm_kz(<32 x half> %a0, <32 x half> %a1, i32 %mask) {
%2 = fmul <32 x half> %a1, %a0		%2 = fmul <32 x half> %a1, %a0
%3 = bitcast i32 %mask to <32 x i1>		%3 = bitcast i32 %mask to <32 x i1>
%4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer		%4 = select <32 x i1> %3, <32 x half> %2, <32 x half> zeroinitializer
ret <32 x half> %4		ret <32 x half> %4
}		}

define half @stack_fold_mulsh(half %a0, half %a1) {		define half @stack_fold_mulsh(half %a0, half %a1) {
;CHECK-LABEL: stack_fold_mulsh		;CHECK-LABEL: stack_fold_mulsh
;CHECK-NOT: vmulss {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK-NOT: vmulss {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fmul half %a0, %a1		%2 = fmul half %a0, %a1
ret half %2		ret half %2
}		}

define <8 x half> @stack_fold_mulsh_int(<8 x half> %a0, <8 x half> %a1) {		define <8 x half> @stack_fold_mulsh_int(<8 x half> %a0, <8 x half> %a1) {
;CHECK-LABEL: stack_fold_mulsh_int		;CHECK-LABEL: stack_fold_mulsh_int
;CHECK-NOT: vmulss {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload		;CHECK-NOT: vmulss {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
▲ Show 20 Lines • Show All 284 Lines • ▼ Show 20 Lines	define <32 x half> @stack_fold_subph_zmm(<32 x half> %a0, <32 x half> %a1) {
;CHECK: vsubph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload		;CHECK: vsubph {{-?[0-9]}}(%rsp), {{%zmm[0-9][0-9]}}, {{%zmm[0-9][0-9]}} {{.#+}} 64-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fsub <32 x half> %a0, %a1		%2 = fsub <32 x half> %a0, %a1
ret <32 x half> %2		ret <32 x half> %2
}		}

define half @stack_fold_subsh(half %a0, half %a1) {		define half @stack_fold_subsh(half %a0, half %a1) {
;CHECK-LABEL: stack_fold_subsh		;CHECK-LABEL: stack_fold_subsh
;CHECK: vsubsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 2-byte Folded Reload		;CHECK: vsubsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 4-byte Folded Reload
%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()		%1 = tail call <2 x i64> asm sideeffect "nop", "=x,~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15},~{xmm16},~{xmm17},~{xmm18},~{xmm19},~{xmm20},~{xmm21},~{xmm22},~{xmm23},~{xmm24},~{xmm25},~{xmm26},~{xmm27},~{xmm28},~{xmm29},~{xmm30},~{xmm31},~{flags}"()
%2 = fsub half %a0, %a1		%2 = fsub half %a0, %a1
ret half %2		ret half %2
}		}

define <8 x half> @stack_fold_subsh_int(<8 x half> %a0, <8 x half> %a1) {		define <8 x half> @stack_fold_subsh_int(<8 x half> %a0, <8 x half> %a1) {
;CHECK-LABEL: stack_fold_subsh_int		;CHECK-LABEL: stack_fold_subsh_int
;CHECK: vsubsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload		;CHECK: vsubsh {{-?[0-9]}}(%rsp), {{%xmm[0-9][0-9]}}, {{%xmm[0-9][0-9]}} {{.#+}} 16-byte Folded Reload
▲ Show 20 Lines • Show All 298 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/statepoint-invoke-ra-enter-at-end.mir

Show First 20 Lines • Show All 334 Lines • ▼ Show 20 Lines	body: \|
; CHECK: bb.7.bb33:		; CHECK: bb.7.bb33:
; CHECK: successors: %bb.7(0x80000000)		; CHECK: successors: %bb.7(0x80000000)
; CHECK: [[INC64r:%[0-9]+]]:gr64_with_sub_8bit = nuw nsw INC64r [[INC64r]], implicit-def dead $eflags		; CHECK: [[INC64r:%[0-9]+]]:gr64_with_sub_8bit = nuw nsw INC64r [[INC64r]], implicit-def dead $eflags
; CHECK: [[MOV64rm2:%[0-9]+]]:gr64 = MOV64rm undef %59:gr64, 1, $noreg, 0, $noreg :: (load unordered (s64) from `i8 addrspace(1)* addrspace(1)* undef`, addrspace 1)		; CHECK: [[MOV64rm2:%[0-9]+]]:gr64 = MOV64rm undef %59:gr64, 1, $noreg, 0, $noreg :: (load unordered (s64) from `i8 addrspace(1)* addrspace(1)* undef`, addrspace 1)
; CHECK: [[NOT64r2:%[0-9]+]]:gr64 = NOT64r [[NOT64r2]]		; CHECK: [[NOT64r2:%[0-9]+]]:gr64 = NOT64r [[NOT64r2]]
; CHECK: CMP64rr [[NOT64r2]], [[COPY6]], implicit-def $eflags		; CHECK: CMP64rr [[NOT64r2]], [[COPY6]], implicit-def $eflags
; CHECK: undef %102.sub_32bit:gr64_with_sub_8bit = MOV32ri 0		; CHECK: undef %102.sub_32bit:gr64_with_sub_8bit = MOV32ri 0
; CHECK: [[CMOV64rr:%[0-9]+]]:gr64 = CMOV64rr [[CMOV64rr]], %102, 4, implicit killed $eflags		; CHECK: [[CMOV64rr:%[0-9]+]]:gr64 = CMOV64rr [[CMOV64rr]], %102, 4, implicit killed $eflags
; CHECK: INLINEASM &"lock btsq $0,($1)", 1 /* sideeffect attdialect /, 4390921 / reguse:GR64 /, %102, 4390921 / reguse:GR64 /, undef %56:gr64, 12 / clobber /, implicit-def dead early-clobber $df, 12 / clobber /, implicit-def early-clobber $fpsw, 12 / clobber */, implicit-def dead early-clobber $eflags		; CHECK: INLINEASM &"lock btsq $0,($1)", 1 /* sideeffect attdialect /, 4456457 / reguse:GR64 /, %102, 4456457 / reguse:GR64 /, undef %56:gr64, 12 / clobber /, implicit-def dead early-clobber $df, 12 / clobber /, implicit-def early-clobber $fpsw, 12 / clobber */, implicit-def dead early-clobber $eflags
; CHECK: LCMPXCHG32 undef %67:gr64, 1, $noreg, 0, $noreg, [[COPY5]], implicit-def dead $eax, implicit-def dead $eflags, implicit undef $eax :: (load store acquire monotonic (s32) on `i32 addrspace(1)* undef`, addrspace 1)		; CHECK: LCMPXCHG32 undef %67:gr64, 1, $noreg, 0, $noreg, [[COPY5]], implicit-def dead $eax, implicit-def dead $eflags, implicit undef $eax :: (load store acquire monotonic (s32) on `i32 addrspace(1)* undef`, addrspace 1)
; CHECK: ADJCALLSTACKDOWN64 0, 0, 0, implicit-def dead $rsp, implicit-def dead $eflags, implicit-def dead $ssp, implicit $rsp, implicit $ssp		; CHECK: ADJCALLSTACKDOWN64 0, 0, 0, implicit-def dead $rsp, implicit-def dead $eflags, implicit-def dead $ssp, implicit $rsp, implicit $ssp
; CHECK: $rdi = COPY [[COPY4]]		; CHECK: $rdi = COPY [[COPY4]]
; CHECK: CALL64pcrel32 target-flags(x86-plt) @wobble, csr_64, implicit $rsp, implicit $ssp, implicit $rdi, implicit-def $rsp, implicit-def $ssp		; CHECK: CALL64pcrel32 target-flags(x86-plt) @wobble, csr_64, implicit $rsp, implicit $ssp, implicit $rdi, implicit-def $rsp, implicit-def $ssp
; CHECK: ADJCALLSTACKUP64 0, 0, implicit-def dead $rsp, implicit-def dead $eflags, implicit-def dead $ssp, implicit $rsp, implicit $ssp		; CHECK: ADJCALLSTACKUP64 0, 0, implicit-def dead $rsp, implicit-def dead $eflags, implicit-def dead $ssp, implicit $rsp, implicit $ssp
; CHECK: [[MOV64rm2:%[0-9]+]]:gr64 = MOV64rm $rip, 1, $noreg, target-flags(x86-gotpcrel) @global, $noreg :: (load (s64) from got)		; CHECK: [[MOV64rm2:%[0-9]+]]:gr64 = MOV64rm $rip, 1, $noreg, target-flags(x86-gotpcrel) @global, $noreg :: (load (s64) from got)
; CHECK: [[MOV64rm3:%[0-9]+]]:gr64 = MOV64rm [[MOV64rm2]], 1, $noreg, 0, $noreg :: (dereferenceable load unordered (s64) from @global)		; CHECK: [[MOV64rm3:%[0-9]+]]:gr64 = MOV64rm [[MOV64rm2]], 1, $noreg, 0, $noreg :: (dereferenceable load unordered (s64) from @global)
; CHECK: [[NOT64r2:%[0-9]+]]:gr64 = NOT64r [[NOT64r2]]		; CHECK: [[NOT64r2:%[0-9]+]]:gr64 = NOT64r [[NOT64r2]]
▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines	body: \|
bb.7.bb33:		bb.7.bb33:
successors: %bb.7(0x80000000)		successors: %bb.7(0x80000000)

%81:gr64_with_sub_8bit = nuw nsw INC64r %81, implicit-def dead $eflags		%81:gr64_with_sub_8bit = nuw nsw INC64r %81, implicit-def dead $eflags
%63:gr64 = MOV64rm undef %59:gr64, 1, $noreg, 0, $noreg :: (load unordered (s64) from `i8 addrspace(1)* addrspace(1)* undef`, addrspace 1)		%63:gr64 = MOV64rm undef %59:gr64, 1, $noreg, 0, $noreg :: (load unordered (s64) from `i8 addrspace(1)* addrspace(1)* undef`, addrspace 1)
%63:gr64 = NOT64r %63		%63:gr64 = NOT64r %63
CMP64rr %63, %31, implicit-def $eflags		CMP64rr %63, %31, implicit-def $eflags
%63:gr64 = CMOV64rr %63, %53, 4, implicit killed $eflags		%63:gr64 = CMOV64rr %63, %53, 4, implicit killed $eflags
INLINEASM &"lock btsq $0,($1)", 1 /* sideeffect attdialect /, 4390921 / reguse:GR64 /, %53, 4390921 / reguse:GR64 /, undef %56:gr64, 12 / clobber /, implicit-def dead early-clobber $df, 12 / clobber /, implicit-def early-clobber $fpsw, 12 / clobber */, implicit-def dead early-clobber $eflags		INLINEASM &"lock btsq $0,($1)", 1 /* sideeffect attdialect /, 4456457 / reguse:GR64 /, %53, 4456457 / reguse:GR64 /, undef %56:gr64, 12 / clobber /, implicit-def dead early-clobber $df, 12 / clobber /, implicit-def early-clobber $fpsw, 12 / clobber */, implicit-def dead early-clobber $eflags
LCMPXCHG32 undef %67:gr64, 1, $noreg, 0, $noreg, %65, implicit-def dead $eax, implicit-def dead $eflags, implicit undef $eax :: (load store acquire monotonic (s32) on `i32 addrspace(1)* undef`, addrspace 1)		LCMPXCHG32 undef %67:gr64, 1, $noreg, 0, $noreg, %65, implicit-def dead $eax, implicit-def dead $eflags, implicit undef $eax :: (load store acquire monotonic (s32) on `i32 addrspace(1)* undef`, addrspace 1)
ADJCALLSTACKDOWN64 0, 0, 0, implicit-def dead $rsp, implicit-def dead $eflags, implicit-def dead $ssp, implicit $rsp, implicit $ssp		ADJCALLSTACKDOWN64 0, 0, 0, implicit-def dead $rsp, implicit-def dead $eflags, implicit-def dead $ssp, implicit $rsp, implicit $ssp
$rdi = COPY %64		$rdi = COPY %64
CALL64pcrel32 target-flags(x86-plt) @wobble, csr_64, implicit $rsp, implicit $ssp, implicit killed $rdi, implicit-def $rsp, implicit-def $ssp		CALL64pcrel32 target-flags(x86-plt) @wobble, csr_64, implicit $rsp, implicit $ssp, implicit killed $rdi, implicit-def $rsp, implicit-def $ssp
ADJCALLSTACKUP64 0, 0, implicit-def dead $rsp, implicit-def dead $eflags, implicit-def dead $ssp, implicit $rsp, implicit $ssp		ADJCALLSTACKUP64 0, 0, implicit-def dead $rsp, implicit-def dead $eflags, implicit-def dead $ssp, implicit $rsp, implicit $ssp
%71:gr64 = MOV64rm %46, 1, $noreg, 0, $noreg :: (dereferenceable load unordered (s64) from @global)		%71:gr64 = MOV64rm %46, 1, $noreg, 0, $noreg :: (dereferenceable load unordered (s64) from @global)
%71:gr64 = NOT64r %71		%71:gr64 = NOT64r %71
ADJCALLSTACKDOWN64 0, 0, 0, implicit-def dead $rsp, implicit-def dead $eflags, implicit-def dead $ssp, implicit $rsp, implicit $ssp		ADJCALLSTACKDOWN64 0, 0, 0, implicit-def dead $rsp, implicit-def dead $eflags, implicit-def dead $ssp, implicit $rsp, implicit $ssp
Show All 25 Lines

llvm/test/CodeGen/X86/vec_fp_to_int.ll

	Show First 20 Lines • Show All 2,095 Lines • ▼ Show 20 Lines

	;			;
	; Special Cases			; Special Cases
	;			;

	define <4 x i32> @fptosi_2f16_to_4i32(<2 x half> %a) nounwind {			define <4 x i32> @fptosi_2f16_to_4i32(<2 x half> %a) nounwind {
	; SSE-LABEL: fptosi_2f16_to_4i32:			; SSE-LABEL: fptosi_2f16_to_4i32:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pushq %rbp
	; SSE-NEXT: pushq %rbx			; SSE-NEXT: pushq %rbx
	; SSE-NEXT: pushq %rax			; SSE-NEXT: subq $16, %rsp
	; SSE-NEXT: movl %esi, %ebx			; SSE-NEXT: movss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; SSE-NEXT: movzwl %di, %edi			; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: callq __gnu_h2f_ieee@PLT			; SSE-NEXT: cvttss2si %xmm0, %ebx
	; SSE-NEXT: cvttss2si %xmm0, %ebp			; SSE-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; SSE-NEXT: movzwl %bx, %edi			; SSE-NEXT: # xmm0 = mem[0],zero,zero,zero
	; SSE-NEXT: callq __gnu_h2f_ieee@PLT			; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: cvttss2si %xmm0, %eax			; SSE-NEXT: cvttss2si %xmm0, %eax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movd %ebp, %xmm1			; SSE-NEXT: movd %ebx, %xmm1
	; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE-NEXT: movq {{.*#+}} xmm0 = xmm1[0],zero			; SSE-NEXT: movq {{.*#+}} xmm0 = xmm1[0],zero
	; SSE-NEXT: addq $8, %rsp			; SSE-NEXT: addq $16, %rsp
	; SSE-NEXT: popq %rbx			; SSE-NEXT: popq %rbx
	; SSE-NEXT: popq %rbp
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; VEX-LABEL: fptosi_2f16_to_4i32:			; VEX-LABEL: fptosi_2f16_to_4i32:
	; VEX: # %bb.0:			; VEX: # %bb.0:
	; VEX-NEXT: pushq %rbp
	; VEX-NEXT: pushq %rbx			; VEX-NEXT: pushq %rbx
	; VEX-NEXT: pushq %rax			; VEX-NEXT: subq $16, %rsp
	; VEX-NEXT: movl %esi, %ebx			; VEX-NEXT: vmovss %xmm1, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; VEX-NEXT: movzwl %di, %edi			; VEX-NEXT: callq __extendhfsf2@PLT
	; VEX-NEXT: callq __gnu_h2f_ieee@PLT			; VEX-NEXT: vcvttss2si %xmm0, %ebx
	; VEX-NEXT: vcvttss2si %xmm0, %ebp			; VEX-NEXT: vmovss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; VEX-NEXT: movzwl %bx, %edi			; VEX-NEXT: # xmm0 = mem[0],zero,zero,zero
	; VEX-NEXT: callq __gnu_h2f_ieee@PLT			; VEX-NEXT: callq __extendhfsf2@PLT
	; VEX-NEXT: vcvttss2si %xmm0, %eax			; VEX-NEXT: vcvttss2si %xmm0, %eax
	; VEX-NEXT: vmovd %eax, %xmm0			; VEX-NEXT: vmovd %eax, %xmm0
	; VEX-NEXT: vmovd %ebp, %xmm1			; VEX-NEXT: vmovd %ebx, %xmm1
	; VEX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; VEX-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; VEX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero			; VEX-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; VEX-NEXT: addq $8, %rsp			; VEX-NEXT: addq $16, %rsp
	; VEX-NEXT: popq %rbx			; VEX-NEXT: popq %rbx
	; VEX-NEXT: popq %rbp
	; VEX-NEXT: retq			; VEX-NEXT: retq
	;			;
	; AVX512-LABEL: fptosi_2f16_to_4i32:			; AVX512-LABEL: fptosi_2f16_to_4i32:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: movzwl %di, %eax			; AVX512-NEXT: vpextrw $0, %xmm1, %eax
	; AVX512-NEXT: vmovd %eax, %xmm0			; AVX512-NEXT: vpextrw $0, %xmm0, %ecx
	; AVX512-NEXT: vcvtph2ps %xmm0, %xmm0			; AVX512-NEXT: movzwl %cx, %ecx
	; AVX512-NEXT: vcvttss2si %xmm0, %eax
	; AVX512-NEXT: movzwl %si, %ecx
	; AVX512-NEXT: vmovd %ecx, %xmm0			; AVX512-NEXT: vmovd %ecx, %xmm0
	; AVX512-NEXT: vcvtph2ps %xmm0, %xmm0			; AVX512-NEXT: vcvtph2ps %xmm0, %xmm0
	; AVX512-NEXT: vcvttss2si %xmm0, %ecx			; AVX512-NEXT: vcvttss2si %xmm0, %ecx
	; AVX512-NEXT: vmovd %ecx, %xmm0			; AVX512-NEXT: movzwl %ax, %eax
	; AVX512-NEXT: vmovd %eax, %xmm1			; AVX512-NEXT: vmovd %eax, %xmm0
				; AVX512-NEXT: vcvtph2ps %xmm0, %xmm0
				; AVX512-NEXT: vcvttss2si %xmm0, %eax
				; AVX512-NEXT: vmovd %eax, %xmm0
				; AVX512-NEXT: vmovd %ecx, %xmm1
	; AVX512-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; AVX512-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; AVX512-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero			; AVX512-NEXT: vmovq {{.*#+}} xmm0 = xmm0[0],zero
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%cvt = fptosi <2 x half> %a to <2 x i32>			%cvt = fptosi <2 x half> %a to <2 x i32>
	%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>			%ext = shufflevector <2 x i32> %cvt, <2 x i32> zeroinitializer, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
	ret <4 x i32> %ext			ret <4 x i32> %ext
	}			}

	▲ Show 20 Lines • Show All 674 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-half-conversions.ll

	Show First 20 Lines • Show All 551 Lines • ▼ Show 20 Lines
	;			;
	; Float to Half (Store)			; Float to Half (Store)
	;			;

	define void @store_cvt_f32_to_i16(float %a0, i16* %a1) nounwind {			define void @store_cvt_f32_to_i16(float %a0, i16* %a1) nounwind {
	; ALL-LABEL: store_cvt_f32_to_i16:			; ALL-LABEL: store_cvt_f32_to_i16:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0			; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; ALL-NEXT: vpextrw $0, %xmm0, (%rdi)			; ALL-NEXT: vmovd %xmm0, %eax
				; ALL-NEXT: movw %ax, (%rdi)
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%1 = fptrunc float %a0 to half			%1 = fptrunc float %a0 to half
	%2 = bitcast half %1 to i16			%2 = bitcast half %1 to i16
	store i16 %2, i16* %a1			store i16 %2, i16* %a1
	ret void			ret void
	}			}

	define void @store_cvt_4f32_to_4i16(<4 x float> %a0, <4 x i16>* %a1) nounwind {			define void @store_cvt_4f32_to_4i16(<4 x float> %a0, <4 x i16>* %a1) nounwind {
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines

	;			;
	; Double to Half			; Double to Half
	;			;

	define i16 @cvt_f64_to_i16(double %a0) nounwind {			define i16 @cvt_f64_to_i16(double %a0) nounwind {
	; ALL-LABEL: cvt_f64_to_i16:			; ALL-LABEL: cvt_f64_to_i16:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: jmp __truncdfhf2@PLT # TAILCALL			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
				; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; ALL-NEXT: vmovd %xmm0, %eax
				; ALL-NEXT: # kill: def $ax killed $ax killed $eax
				; ALL-NEXT: retq
	%1 = fptrunc double %a0 to half			%1 = fptrunc double %a0 to half
	%2 = bitcast half %1 to i16			%2 = bitcast half %1 to i16
	ret i16 %2			ret i16 %2
	}			}

	define <2 x i16> @cvt_2f64_to_2i16(<2 x double> %a0) nounwind {			define <2 x i16> @cvt_2f64_to_2i16(<2 x double> %a0) nounwind {
	; ALL-LABEL: cvt_2f64_to_2i16:			; ALL-LABEL: cvt_2f64_to_2i16:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: subq $40, %rsp			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm1
	; ALL-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vmovd %xmm1, %eax
	; ALL-NEXT: movw %ax, (%rsp)			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; ALL-NEXT: # xmm0 = mem[1,0]			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)			; ALL-NEXT: vmovd %xmm0, %eax
	; ALL-NEXT: vmovaps (%rsp), %xmm0			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: addq $40, %rsp			; ALL-NEXT: vmovaps -{{[0-9]+}}(%rsp), %xmm0
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%1 = fptrunc <2 x double> %a0 to <2 x half>			%1 = fptrunc <2 x double> %a0 to <2 x half>
	%2 = bitcast <2 x half> %1 to <2 x i16>			%2 = bitcast <2 x half> %1 to <2 x i16>
	ret <2 x i16> %2			ret <2 x i16> %2
	}			}

	define <4 x i16> @cvt_4f64_to_4i16(<4 x double> %a0) nounwind {			define <4 x i16> @cvt_4f64_to_4i16(<4 x double> %a0) nounwind {
	; ALL-LABEL: cvt_4f64_to_4i16:			; ALL-LABEL: cvt_4f64_to_4i16:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: subq $72, %rsp			; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1
	; ALL-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm2
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm0			; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; ALL-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; ALL-NEXT: vmovd %xmm2, %eax
	; ALL-NEXT: vzeroupper			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)			; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; ALL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; ALL-NEXT: vmovd %xmm2, %eax
	; ALL-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
				; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
				; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
				; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
				; ALL-NEXT: vmovd %xmm1, %eax
				; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
				; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
				; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; ALL-NEXT: vmovd %xmm0, %eax
				; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
				; ALL-NEXT: vmovaps -{{[0-9]+}}(%rsp), %xmm0
	; ALL-NEXT: vzeroupper			; ALL-NEXT: vzeroupper
	; ALL-NEXT: callq __truncdfhf2@PLT
	; ALL-NEXT: movw %ax, (%rsp)
	; ALL-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; ALL-NEXT: # xmm0 = mem[1,0]
	; ALL-NEXT: callq __truncdfhf2@PLT
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)
	; ALL-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; ALL-NEXT: # xmm0 = mem[1,0]
	; ALL-NEXT: callq __truncdfhf2@PLT
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)
	; ALL-NEXT: vmovaps (%rsp), %xmm0
	; ALL-NEXT: addq $72, %rsp
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%1 = fptrunc <4 x double> %a0 to <4 x half>			%1 = fptrunc <4 x double> %a0 to <4 x half>
	%2 = bitcast <4 x half> %1 to <4 x i16>			%2 = bitcast <4 x half> %1 to <4 x i16>
	ret <4 x i16> %2			ret <4 x i16> %2
	}			}

	define <8 x i16> @cvt_4f64_to_8i16_undef(<4 x double> %a0) nounwind {			define <8 x i16> @cvt_4f64_to_8i16_undef(<4 x double> %a0) nounwind {
	; ALL-LABEL: cvt_4f64_to_8i16_undef:			; ALL-LABEL: cvt_4f64_to_8i16_undef:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: subq $72, %rsp			; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1
	; ALL-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm2
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm0			; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; ALL-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; ALL-NEXT: vmovd %xmm2, %eax
	; ALL-NEXT: vzeroupper			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)			; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; ALL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; ALL-NEXT: vmovd %xmm2, %eax
	; ALL-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
				; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
				; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
				; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
				; ALL-NEXT: vmovd %xmm1, %eax
				; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
				; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
				; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; ALL-NEXT: vmovd %xmm0, %eax
				; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
				; ALL-NEXT: vmovaps -{{[0-9]+}}(%rsp), %xmm0
	; ALL-NEXT: vzeroupper			; ALL-NEXT: vzeroupper
	; ALL-NEXT: callq __truncdfhf2@PLT
	; ALL-NEXT: movw %ax, (%rsp)
	; ALL-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; ALL-NEXT: # xmm0 = mem[1,0]
	; ALL-NEXT: callq __truncdfhf2@PLT
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)
	; ALL-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; ALL-NEXT: # xmm0 = mem[1,0]
	; ALL-NEXT: callq __truncdfhf2@PLT
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)
	; ALL-NEXT: vmovaps (%rsp), %xmm0
	; ALL-NEXT: addq $72, %rsp
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%1 = fptrunc <4 x double> %a0 to <4 x half>			%1 = fptrunc <4 x double> %a0 to <4 x half>
	%2 = bitcast <4 x half> %1 to <4 x i16>			%2 = bitcast <4 x half> %1 to <4 x i16>
	%3 = shufflevector <4 x i16> %2, <4 x i16> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%3 = shufflevector <4 x i16> %2, <4 x i16> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	ret <8 x i16> %3			ret <8 x i16> %3
	}			}

	define <8 x i16> @cvt_4f64_to_8i16_zero(<4 x double> %a0) nounwind {			define <8 x i16> @cvt_4f64_to_8i16_zero(<4 x double> %a0) nounwind {
	; ALL-LABEL: cvt_4f64_to_8i16_zero:			; ALL-LABEL: cvt_4f64_to_8i16_zero:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: subq $72, %rsp			; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1
	; ALL-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm2
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm0			; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; ALL-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; ALL-NEXT: vmovd %xmm2, %eax
	; ALL-NEXT: vzeroupper			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)			; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; ALL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; ALL-NEXT: vmovd %xmm2, %eax
	; ALL-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: vzeroupper			; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
	; ALL-NEXT: movw %ax, (%rsp)			; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; ALL-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; ALL-NEXT: vmovd %xmm1, %eax
	; ALL-NEXT: # xmm0 = mem[1,0]			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; ALL-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; ALL-NEXT: # xmm0 = mem[1,0]			; ALL-NEXT: vmovd %xmm0, %eax
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)
	; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; ALL-NEXT: addq $72, %rsp			; ALL-NEXT: vzeroupper
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%1 = fptrunc <4 x double> %a0 to <4 x half>			%1 = fptrunc <4 x double> %a0 to <4 x half>
	%2 = bitcast <4 x half> %1 to <4 x i16>			%2 = bitcast <4 x half> %1 to <4 x i16>
	%3 = shufflevector <4 x i16> %2, <4 x i16> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%3 = shufflevector <4 x i16> %2, <4 x i16> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	ret <8 x i16> %3			ret <8 x i16> %3
	}			}

	define <8 x i16> @cvt_8f64_to_8i16(<8 x double> %a0) nounwind {			define <8 x i16> @cvt_8f64_to_8i16(<8 x double> %a0) nounwind {
	; AVX1-LABEL: cvt_8f64_to_8i16:			; AVX1-LABEL: cvt_8f64_to_8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: pushq %r15			; AVX1-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-NEXT: pushq %r14			; AVX1-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: pushq %rbx			; AVX1-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; AVX1-NEXT: subq $64, %rsp			; AVX1-NEXT: vmovd %xmm2, %eax
	; AVX1-NEXT: vmovups %ymm1, (%rsp) # 32-byte Spill			; AVX1-NEXT: shll $16, %eax
	; AVX1-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vmovd %xmm2, %ecx
	; AVX1-NEXT: callq __truncdfhf2@PLT			; AVX1-NEXT: movzwl %cx, %ecx
	; AVX1-NEXT: movl %eax, %ebx			; AVX1-NEXT: orl %eax, %ecx
	; AVX1-NEXT: shll $16, %ebx
	; AVX1-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movzwl %ax, %r15d
	; AVX1-NEXT: orl %ebx, %r15d
	; AVX1-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX1-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; AVX1-NEXT: callq __truncdfhf2@PLT			; AVX1-NEXT: vmovd %xmm2, %edx
	; AVX1-NEXT: movl %eax, %ebx			; AVX1-NEXT: shll $16, %edx
	; AVX1-NEXT: shll $16, %ebx			; AVX1-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX1-NEXT: callq __truncdfhf2@PLT			; AVX1-NEXT: vmovd %xmm0, %eax
	; AVX1-NEXT: movzwl %ax, %r14d
	; AVX1-NEXT: orl %ebx, %r14d
	; AVX1-NEXT: shlq $32, %r14
	; AVX1-NEXT: orq %r15, %r14
	; AVX1-NEXT: vpermilpd $1, (%rsp), %xmm0 # 16-byte Folded Reload
	; AVX1-NEXT: # xmm0 = mem[1,0]
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movl %eax, %ebx
	; AVX1-NEXT: shll $16, %ebx
	; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
	; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movzwl %ax, %r15d
	; AVX1-NEXT: orl %ebx, %r15d
	; AVX1-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movl %eax, %ebx
	; AVX1-NEXT: shll $16, %ebx
	; AVX1-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movzwl %ax, %eax			; AVX1-NEXT: movzwl %ax, %eax
	; AVX1-NEXT: orl %ebx, %eax			; AVX1-NEXT: orl %edx, %eax
	; AVX1-NEXT: shlq $32, %rax			; AVX1-NEXT: shlq $32, %rax
	; AVX1-NEXT: orq %r15, %rax			; AVX1-NEXT: orq %rcx, %rax
	; AVX1-NEXT: vmovq %rax, %xmm0			; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX1-NEXT: vmovq %r14, %xmm1			; AVX1-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
				; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX1-NEXT: vmovd %xmm0, %ecx
				; AVX1-NEXT: shll $16, %ecx
				; AVX1-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
				; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX1-NEXT: vmovd %xmm0, %edx
				; AVX1-NEXT: movzwl %dx, %edx
				; AVX1-NEXT: orl %ecx, %edx
				; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0
				; AVX1-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; AVX1-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
				; AVX1-NEXT: vcvtps2ph $4, %xmm1, %xmm1
				; AVX1-NEXT: vmovd %xmm1, %ecx
				; AVX1-NEXT: shll $16, %ecx
				; AVX1-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
				; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX1-NEXT: vmovd %xmm0, %esi
				; AVX1-NEXT: movzwl %si, %esi
				; AVX1-NEXT: orl %ecx, %esi
				; AVX1-NEXT: shlq $32, %rsi
				; AVX1-NEXT: orq %rdx, %rsi
				; AVX1-NEXT: vmovq %rsi, %xmm0
				; AVX1-NEXT: vmovq %rax, %xmm1
	; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX1-NEXT: addq $64, %rsp			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: popq %rbx
	; AVX1-NEXT: popq %r14
	; AVX1-NEXT: popq %r15
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: cvt_8f64_to_8i16:			; AVX2-LABEL: cvt_8f64_to_8i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: pushq %r15			; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX2-NEXT: pushq %r14			; AVX2-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: pushq %rbx			; AVX2-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; AVX2-NEXT: subq $64, %rsp			; AVX2-NEXT: vmovd %xmm2, %eax
	; AVX2-NEXT: vmovups %ymm1, (%rsp) # 32-byte Spill			; AVX2-NEXT: shll $16, %eax
	; AVX2-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX2-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX2-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vmovd %xmm2, %ecx
	; AVX2-NEXT: callq __truncdfhf2@PLT			; AVX2-NEXT: movzwl %cx, %ecx
	; AVX2-NEXT: movl %eax, %ebx			; AVX2-NEXT: orl %eax, %ecx
	; AVX2-NEXT: shll $16, %ebx
	; AVX2-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movzwl %ax, %r15d
	; AVX2-NEXT: orl %ebx, %r15d
	; AVX2-NEXT: vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX2-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; AVX2-NEXT: callq __truncdfhf2@PLT			; AVX2-NEXT: vmovd %xmm2, %edx
	; AVX2-NEXT: movl %eax, %ebx			; AVX2-NEXT: shll $16, %edx
	; AVX2-NEXT: shll $16, %ebx			; AVX2-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; AVX2-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload			; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX2-NEXT: callq __truncdfhf2@PLT			; AVX2-NEXT: vmovd %xmm0, %eax
	; AVX2-NEXT: movzwl %ax, %r14d
	; AVX2-NEXT: orl %ebx, %r14d
	; AVX2-NEXT: shlq $32, %r14
	; AVX2-NEXT: orq %r15, %r14
	; AVX2-NEXT: vpermilpd $1, (%rsp), %xmm0 # 16-byte Folded Reload
	; AVX2-NEXT: # xmm0 = mem[1,0]
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movl %eax, %ebx
	; AVX2-NEXT: shll $16, %ebx
	; AVX2-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
	; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movzwl %ax, %r15d
	; AVX2-NEXT: orl %ebx, %r15d
	; AVX2-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movl %eax, %ebx
	; AVX2-NEXT: shll $16, %ebx
	; AVX2-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movzwl %ax, %eax			; AVX2-NEXT: movzwl %ax, %eax
	; AVX2-NEXT: orl %ebx, %eax			; AVX2-NEXT: orl %edx, %eax
	; AVX2-NEXT: shlq $32, %rax			; AVX2-NEXT: shlq $32, %rax
	; AVX2-NEXT: orq %r15, %rax			; AVX2-NEXT: orq %rcx, %rax
	; AVX2-NEXT: vmovq %rax, %xmm0			; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm1[1,0]
	; AVX2-NEXT: vmovq %r14, %xmm1			; AVX2-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
				; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX2-NEXT: vmovd %xmm0, %ecx
				; AVX2-NEXT: shll $16, %ecx
				; AVX2-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
				; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX2-NEXT: vmovd %xmm0, %edx
				; AVX2-NEXT: movzwl %dx, %edx
				; AVX2-NEXT: orl %ecx, %edx
				; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm0
				; AVX2-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; AVX2-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
				; AVX2-NEXT: vcvtps2ph $4, %xmm1, %xmm1
				; AVX2-NEXT: vmovd %xmm1, %ecx
				; AVX2-NEXT: shll $16, %ecx
				; AVX2-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
				; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX2-NEXT: vmovd %xmm0, %esi
				; AVX2-NEXT: movzwl %si, %esi
				; AVX2-NEXT: orl %ecx, %esi
				; AVX2-NEXT: shlq $32, %rsi
				; AVX2-NEXT: orq %rdx, %rsi
				; AVX2-NEXT: vmovq %rsi, %xmm0
				; AVX2-NEXT: vmovq %rax, %xmm1
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-NEXT: addq $64, %rsp			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: popq %rbx
	; AVX2-NEXT: popq %r14
	; AVX2-NEXT: popq %r15
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: cvt_8f64_to_8i16:			; AVX512-LABEL: cvt_8f64_to_8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: pushq %r15			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: pushq %r14			; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: pushq %rbx			; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; AVX512-NEXT: subq $80, %rsp			; AVX512-NEXT: vmovd %xmm1, %eax
	; AVX512-NEXT: vmovupd %zmm0, (%rsp) # 64-byte Spill			; AVX512-NEXT: shll $16, %eax
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm1
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; AVX512-NEXT: callq __truncdfhf2@PLT			; AVX512-NEXT: vmovd %xmm1, %ecx
	; AVX512-NEXT: movl %eax, %ebx			; AVX512-NEXT: movzwl %cx, %ecx
	; AVX512-NEXT: shll $16, %ebx			; AVX512-NEXT: orl %eax, %ecx
	; AVX512-NEXT: vmovups (%rsp), %zmm0 # 64-byte Reload			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
	; AVX512-NEXT: callq __truncdfhf2@PLT			; AVX512-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; AVX512-NEXT: movzwl %ax, %r15d			; AVX512-NEXT: vmovd %xmm2, %edx
	; AVX512-NEXT: orl %ebx, %r15d			; AVX512-NEXT: shll $16, %edx
	; AVX512-NEXT: vmovupd (%rsp), %zmm0 # 64-byte Reload			; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; AVX512-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX512-NEXT: vmovd %xmm1, %eax
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movl %eax, %ebx
	; AVX512-NEXT: shll $16, %ebx
	; AVX512-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movzwl %ax, %r14d
	; AVX512-NEXT: orl %ebx, %r14d
	; AVX512-NEXT: shlq $32, %r14
	; AVX512-NEXT: orq %r15, %r14
	; AVX512-NEXT: vmovupd (%rsp), %zmm0 # 64-byte Reload
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm0
	; AVX512-NEXT: vmovupd %ymm0, (%rsp) # 32-byte Spill
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movl %eax, %ebx
	; AVX512-NEXT: shll $16, %ebx
	; AVX512-NEXT: vmovups (%rsp), %ymm0 # 32-byte Reload
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movzwl %ax, %r15d
	; AVX512-NEXT: orl %ebx, %r15d
	; AVX512-NEXT: vmovupd (%rsp), %ymm0 # 32-byte Reload
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movl %eax, %ebx
	; AVX512-NEXT: shll $16, %ebx
	; AVX512-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movzwl %ax, %eax			; AVX512-NEXT: movzwl %ax, %eax
	; AVX512-NEXT: orl %ebx, %eax			; AVX512-NEXT: orl %edx, %eax
	; AVX512-NEXT: shlq $32, %rax			; AVX512-NEXT: shlq $32, %rax
	; AVX512-NEXT: orq %r15, %rax			; AVX512-NEXT: orq %rcx, %rax
	; AVX512-NEXT: vmovq %rax, %xmm0			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm0
	; AVX512-NEXT: vmovq %r14, %xmm1			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
				; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
				; AVX512-NEXT: vmovd %xmm1, %ecx
				; AVX512-NEXT: shll $16, %ecx
				; AVX512-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm1
				; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
				; AVX512-NEXT: vmovd %xmm1, %edx
				; AVX512-NEXT: movzwl %dx, %edx
				; AVX512-NEXT: orl %ecx, %edx
				; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
				; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
				; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
				; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
				; AVX512-NEXT: vmovd %xmm1, %ecx
				; AVX512-NEXT: shll $16, %ecx
				; AVX512-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
				; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX512-NEXT: vmovd %xmm0, %esi
				; AVX512-NEXT: movzwl %si, %esi
				; AVX512-NEXT: orl %ecx, %esi
				; AVX512-NEXT: shlq $32, %rsi
				; AVX512-NEXT: orq %rdx, %rsi
				; AVX512-NEXT: vmovq %rsi, %xmm0
				; AVX512-NEXT: vmovq %rax, %xmm1
	; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX512-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX512-NEXT: addq $80, %rsp			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: popq %rbx
	; AVX512-NEXT: popq %r14
	; AVX512-NEXT: popq %r15
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = fptrunc <8 x double> %a0 to <8 x half>			%1 = fptrunc <8 x double> %a0 to <8 x half>
	%2 = bitcast <8 x half> %1 to <8 x i16>			%2 = bitcast <8 x half> %1 to <8 x i16>
	ret <8 x i16> %2			ret <8 x i16> %2
	}			}

	;			;
	; Double to Half (Store)			; Double to Half (Store)
	;			;

	define void @store_cvt_f64_to_i16(double %a0, i16* %a1) nounwind {			define void @store_cvt_f64_to_i16(double %a0, i16* %a1) nounwind {
	; ALL-LABEL: store_cvt_f64_to_i16:			; ALL-LABEL: store_cvt_f64_to_i16:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: pushq %rbx			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; ALL-NEXT: movq %rdi, %rbx			; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vmovd %xmm0, %eax
	; ALL-NEXT: movw %ax, (%rbx)			; ALL-NEXT: movw %ax, (%rdi)
	; ALL-NEXT: popq %rbx
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%1 = fptrunc double %a0 to half			%1 = fptrunc double %a0 to half
	%2 = bitcast half %1 to i16			%2 = bitcast half %1 to i16
	store i16 %2, i16* %a1			store i16 %2, i16* %a1
	ret void			ret void
	}			}

	define void @store_cvt_2f64_to_2i16(<2 x double> %a0, <2 x i16>* %a1) nounwind {			define void @store_cvt_2f64_to_2i16(<2 x double> %a0, <2 x i16>* %a1) nounwind {
	; ALL-LABEL: store_cvt_2f64_to_2i16:			; ALL-LABEL: store_cvt_2f64_to_2i16:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: pushq %rbp			; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; ALL-NEXT: pushq %rbx			; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
	; ALL-NEXT: subq $24, %rsp			; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; ALL-NEXT: movq %rdi, %rbx			; ALL-NEXT: vmovd %xmm1, %eax
	; ALL-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vmovd %xmm0, %ecx
	; ALL-NEXT: movl %eax, %ebp			; ALL-NEXT: movw %cx, (%rdi)
	; ALL-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload			; ALL-NEXT: movw %ax, 2(%rdi)
	; ALL-NEXT: callq __truncdfhf2@PLT
	; ALL-NEXT: movw %ax, (%rbx)
	; ALL-NEXT: movw %bp, 2(%rbx)
	; ALL-NEXT: addq $24, %rsp
	; ALL-NEXT: popq %rbx
	; ALL-NEXT: popq %rbp
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%1 = fptrunc <2 x double> %a0 to <2 x half>			%1 = fptrunc <2 x double> %a0 to <2 x half>
	%2 = bitcast <2 x half> %1 to <2 x i16>			%2 = bitcast <2 x half> %1 to <2 x i16>
	store <2 x i16> %2, <2 x i16>* %a1			store <2 x i16> %2, <2 x i16>* %a1
	ret void			ret void
	}			}

	define void @store_cvt_4f64_to_4i16(<4 x double> %a0, <4 x i16>* %a1) nounwind {			define void @store_cvt_4f64_to_4i16(<4 x double> %a0, <4 x i16>* %a1) nounwind {
	; AVX1-LABEL: store_cvt_4f64_to_4i16:			; ALL-LABEL: store_cvt_4f64_to_4i16:
	; AVX1: # %bb.0:			; ALL: # %bb.0:
	; AVX1-NEXT: pushq %rbp			; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX1-NEXT: pushq %r15			; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
	; AVX1-NEXT: pushq %r14			; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; AVX1-NEXT: pushq %rbx			; ALL-NEXT: vmovd %xmm1, %eax
	; AVX1-NEXT: subq $56, %rsp			; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: movq %rdi, %rbx			; ALL-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX1-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; ALL-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; AVX1-NEXT: vzeroupper			; ALL-NEXT: vmovd %xmm2, %ecx
	; AVX1-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: movl %eax, %r14d			; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX1-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; ALL-NEXT: vmovd %xmm0, %edx
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
	; AVX1-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill			; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; ALL-NEXT: vmovd %xmm0, %esi
	; AVX1-NEXT: vzeroupper			; ALL-NEXT: movw %si, 4(%rdi)
	; AVX1-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: movw %dx, (%rdi)
	; AVX1-NEXT: movl %eax, %r15d			; ALL-NEXT: movw %cx, 6(%rdi)
	; AVX1-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; ALL-NEXT: movw %ax, 2(%rdi)
	; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; ALL-NEXT: vzeroupper
	; AVX1-NEXT: vzeroupper			; ALL-NEXT: retq
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movl %eax, %ebp
	; AVX1-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movw %ax, 4(%rbx)
	; AVX1-NEXT: movw %bp, (%rbx)
	; AVX1-NEXT: movw %r15w, 6(%rbx)
	; AVX1-NEXT: movw %r14w, 2(%rbx)
	; AVX1-NEXT: addq $56, %rsp
	; AVX1-NEXT: popq %rbx
	; AVX1-NEXT: popq %r14
	; AVX1-NEXT: popq %r15
	; AVX1-NEXT: popq %rbp
	; AVX1-NEXT: retq
	;
	; AVX2-LABEL: store_cvt_4f64_to_4i16:
	; AVX2: # %bb.0:
	; AVX2-NEXT: pushq %rbp
	; AVX2-NEXT: pushq %r15
	; AVX2-NEXT: pushq %r14
	; AVX2-NEXT: pushq %rbx
	; AVX2-NEXT: subq $56, %rsp
	; AVX2-NEXT: movq %rdi, %rbx
	; AVX2-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movl %eax, %r14d
	; AVX2-NEXT: vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movl %eax, %r15d
	; AVX2-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movl %eax, %ebp
	; AVX2-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movw %ax, 4(%rbx)
	; AVX2-NEXT: movw %bp, (%rbx)
	; AVX2-NEXT: movw %r15w, 6(%rbx)
	; AVX2-NEXT: movw %r14w, 2(%rbx)
	; AVX2-NEXT: addq $56, %rsp
	; AVX2-NEXT: popq %rbx
	; AVX2-NEXT: popq %r14
	; AVX2-NEXT: popq %r15
	; AVX2-NEXT: popq %rbp
	; AVX2-NEXT: retq
	;
	; AVX512-LABEL: store_cvt_4f64_to_4i16:
	; AVX512: # %bb.0:
	; AVX512-NEXT: pushq %rbp
	; AVX512-NEXT: pushq %r15
	; AVX512-NEXT: pushq %r14
	; AVX512-NEXT: pushq %rbx
	; AVX512-NEXT: subq $56, %rsp
	; AVX512-NEXT: movq %rdi, %rbx
	; AVX512-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movl %eax, %r14d
	; AVX512-NEXT: vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vmovapd %xmm0, (%rsp) # 16-byte Spill
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movl %eax, %r15d
	; AVX512-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movl %eax, %ebp
	; AVX512-NEXT: vmovaps (%rsp), %xmm0 # 16-byte Reload
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movw %ax, 4(%rbx)
	; AVX512-NEXT: movw %bp, (%rbx)
	; AVX512-NEXT: movw %r15w, 6(%rbx)
	; AVX512-NEXT: movw %r14w, 2(%rbx)
	; AVX512-NEXT: addq $56, %rsp
	; AVX512-NEXT: popq %rbx
	; AVX512-NEXT: popq %r14
	; AVX512-NEXT: popq %r15
	; AVX512-NEXT: popq %rbp
	; AVX512-NEXT: retq
	%1 = fptrunc <4 x double> %a0 to <4 x half>			%1 = fptrunc <4 x double> %a0 to <4 x half>
	%2 = bitcast <4 x half> %1 to <4 x i16>			%2 = bitcast <4 x half> %1 to <4 x i16>
	store <4 x i16> %2, <4 x i16>* %a1			store <4 x i16> %2, <4 x i16>* %a1
	ret void			ret void
	}			}

	define void @store_cvt_4f64_to_8i16_undef(<4 x double> %a0, <8 x i16>* %a1) nounwind {			define void @store_cvt_4f64_to_8i16_undef(<4 x double> %a0, <8 x i16>* %a1) nounwind {
	; ALL-LABEL: store_cvt_4f64_to_8i16_undef:			; ALL-LABEL: store_cvt_4f64_to_8i16_undef:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: pushq %rbx			; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1
	; ALL-NEXT: subq $64, %rsp			; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm2
	; ALL-NEXT: movq %rdi, %rbx			; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; ALL-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; ALL-NEXT: vmovd %xmm2, %eax
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm0			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
	; ALL-NEXT: vzeroupper			; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vmovd %xmm2, %eax
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; ALL-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
				; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
				; ALL-NEXT: vmovd %xmm1, %eax
				; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
				; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
				; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
				; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; ALL-NEXT: vmovd %xmm0, %eax
				; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
				; ALL-NEXT: vmovaps -{{[0-9]+}}(%rsp), %xmm0
				; ALL-NEXT: vmovaps %xmm0, (%rdi)
	; ALL-NEXT: vzeroupper			; ALL-NEXT: vzeroupper
	; ALL-NEXT: callq __truncdfhf2@PLT
	; ALL-NEXT: movw %ax, (%rsp)
	; ALL-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; ALL-NEXT: # xmm0 = mem[1,0]
	; ALL-NEXT: callq __truncdfhf2@PLT
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)
	; ALL-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; ALL-NEXT: # xmm0 = mem[1,0]
	; ALL-NEXT: callq __truncdfhf2@PLT
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)
	; ALL-NEXT: vmovaps (%rsp), %xmm0
	; ALL-NEXT: vmovaps %xmm0, (%rbx)
	; ALL-NEXT: addq $64, %rsp
	; ALL-NEXT: popq %rbx
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%1 = fptrunc <4 x double> %a0 to <4 x half>			%1 = fptrunc <4 x double> %a0 to <4 x half>
	%2 = bitcast <4 x half> %1 to <4 x i16>			%2 = bitcast <4 x half> %1 to <4 x i16>
	%3 = shufflevector <4 x i16> %2, <4 x i16> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%3 = shufflevector <4 x i16> %2, <4 x i16> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	store <8 x i16> %3, <8 x i16>* %a1			store <8 x i16> %3, <8 x i16>* %a1
	ret void			ret void
	}			}

	define void @store_cvt_4f64_to_8i16_zero(<4 x double> %a0, <8 x i16>* %a1) nounwind {			define void @store_cvt_4f64_to_8i16_zero(<4 x double> %a0, <8 x i16>* %a1) nounwind {
	; ALL-LABEL: store_cvt_4f64_to_8i16_zero:			; ALL-LABEL: store_cvt_4f64_to_8i16_zero:
	; ALL: # %bb.0:			; ALL: # %bb.0:
	; ALL-NEXT: pushq %rbx			; ALL-NEXT: vextractf128 $1, %ymm0, %xmm1
	; ALL-NEXT: subq $64, %rsp			; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm2
	; ALL-NEXT: movq %rdi, %rbx			; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; ALL-NEXT: vmovups %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; ALL-NEXT: vmovd %xmm2, %eax
	; ALL-NEXT: vextractf128 $1, %ymm0, %xmm0			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: vmovaps %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm2
	; ALL-NEXT: vzeroupper			; ALL-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vmovd %xmm2, %eax
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; ALL-NEXT: vpermilpd {{.*#+}} xmm1 = xmm1[1,0]
	; ALL-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; ALL-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
	; ALL-NEXT: vzeroupper			; ALL-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vmovd %xmm1, %eax
	; ALL-NEXT: movw %ax, (%rsp)			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; ALL-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; ALL-NEXT: # xmm0 = mem[1,0]			; ALL-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; ALL-NEXT: callq __truncdfhf2@PLT			; ALL-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)			; ALL-NEXT: vmovd %xmm0, %eax
	; ALL-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload			; ALL-NEXT: movw %ax, -{{[0-9]+}}(%rsp)
	; ALL-NEXT: # xmm0 = mem[1,0]
	; ALL-NEXT: callq __truncdfhf2@PLT
	; ALL-NEXT: movw %ax, {{[0-9]+}}(%rsp)
	; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; ALL-NEXT: vmovaps %xmm0, (%rbx)			; ALL-NEXT: vmovaps %xmm0, (%rdi)
	; ALL-NEXT: addq $64, %rsp			; ALL-NEXT: vzeroupper
	; ALL-NEXT: popq %rbx
	; ALL-NEXT: retq			; ALL-NEXT: retq
	%1 = fptrunc <4 x double> %a0 to <4 x half>			%1 = fptrunc <4 x double> %a0 to <4 x half>
	%2 = bitcast <4 x half> %1 to <4 x i16>			%2 = bitcast <4 x half> %1 to <4 x i16>
	%3 = shufflevector <4 x i16> %2, <4 x i16> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%3 = shufflevector <4 x i16> %2, <4 x i16> zeroinitializer, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	store <8 x i16> %3, <8 x i16>* %a1			store <8 x i16> %3, <8 x i16>* %a1
	ret void			ret void
	}			}

	define void @store_cvt_8f64_to_8i16(<8 x double> %a0, <8 x i16>* %a1) nounwind {			define void @store_cvt_8f64_to_8i16(<8 x double> %a0, <8 x i16>* %a1) nounwind {
	; AVX1-LABEL: store_cvt_8f64_to_8i16:			; AVX1-LABEL: store_cvt_8f64_to_8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: pushq %rbp			; AVX1-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX1-NEXT: pushq %r15			; AVX1-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
	; AVX1-NEXT: pushq %r14			; AVX1-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; AVX1-NEXT: pushq %r13			; AVX1-NEXT: vmovd %xmm2, %r8d
	; AVX1-NEXT: pushq %r12			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: pushq %rbx			; AVX1-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX1-NEXT: subq $120, %rsp			; AVX1-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm3
	; AVX1-NEXT: movq %rdi, %rbx			; AVX1-NEXT: vcvtps2ph $4, %xmm3, %xmm3
	; AVX1-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-NEXT: vmovd %xmm3, %r9d
	; AVX1-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX1-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX1-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm3
				; AVX1-NEXT: vcvtps2ph $4, %xmm3, %xmm3
				; AVX1-NEXT: vmovd %xmm3, %r10d
				; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
				; AVX1-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
				; AVX1-NEXT: vcvtsd2ss %xmm4, %xmm4, %xmm4
				; AVX1-NEXT: vcvtps2ph $4, %xmm4, %xmm4
				; AVX1-NEXT: vmovd %xmm4, %r11d
				; AVX1-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
				; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX1-NEXT: vmovd %xmm0, %eax
				; AVX1-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm0
				; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX1-NEXT: vmovd %xmm0, %ecx
				; AVX1-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
				; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX1-NEXT: vmovd %xmm0, %edx
				; AVX1-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm0
				; AVX1-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX1-NEXT: vmovd %xmm0, %esi
				; AVX1-NEXT: movw %si, 12(%rdi)
				; AVX1-NEXT: movw %dx, 8(%rdi)
				; AVX1-NEXT: movw %cx, 4(%rdi)
				; AVX1-NEXT: movw %ax, (%rdi)
				; AVX1-NEXT: movw %r11w, 14(%rdi)
				; AVX1-NEXT: movw %r10w, 10(%rdi)
				; AVX1-NEXT: movw %r9w, 6(%rdi)
				; AVX1-NEXT: movw %r8w, 2(%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movw %ax, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
	; AVX1-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movw %ax, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
	; AVX1-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; AVX1-NEXT: # xmm0 = mem[1,0]
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movl %eax, %r12d
	; AVX1-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX1-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movl %eax, %r13d
	; AVX1-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movl %eax, %ebp
	; AVX1-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movl %eax, %r14d
	; AVX1-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX1-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movl %eax, %r15d
	; AVX1-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; AVX1-NEXT: callq __truncdfhf2@PLT
	; AVX1-NEXT: movw %ax, 12(%rbx)
	; AVX1-NEXT: movw %r15w, 8(%rbx)
	; AVX1-NEXT: movw %r14w, 4(%rbx)
	; AVX1-NEXT: movw %bp, (%rbx)
	; AVX1-NEXT: movw %r13w, 14(%rbx)
	; AVX1-NEXT: movw %r12w, 10(%rbx)
	; AVX1-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 2-byte Folded Reload
	; AVX1-NEXT: movw %ax, 6(%rbx)
	; AVX1-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 2-byte Folded Reload
	; AVX1-NEXT: movw %ax, 2(%rbx)
	; AVX1-NEXT: addq $120, %rsp
	; AVX1-NEXT: popq %rbx
	; AVX1-NEXT: popq %r12
	; AVX1-NEXT: popq %r13
	; AVX1-NEXT: popq %r14
	; AVX1-NEXT: popq %r15
	; AVX1-NEXT: popq %rbp
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: store_cvt_8f64_to_8i16:			; AVX2-LABEL: store_cvt_8f64_to_8i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: pushq %rbp			; AVX2-NEXT: vpermilpd {{.*#+}} xmm2 = xmm0[1,0]
	; AVX2-NEXT: pushq %r15			; AVX2-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: pushq %r14			; AVX2-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; AVX2-NEXT: pushq %r13			; AVX2-NEXT: vmovd %xmm2, %r8d
	; AVX2-NEXT: pushq %r12			; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX2-NEXT: pushq %rbx			; AVX2-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX2-NEXT: subq $120, %rsp			; AVX2-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm3
	; AVX2-NEXT: movq %rdi, %rbx			; AVX2-NEXT: vcvtps2ph $4, %xmm3, %xmm3
	; AVX2-NEXT: vmovups %ymm1, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX2-NEXT: vmovd %xmm3, %r9d
	; AVX2-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX2-NEXT: vpermilpd {{.*#+}} xmm3 = xmm1[1,0]
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX2-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm3
				; AVX2-NEXT: vcvtps2ph $4, %xmm3, %xmm3
				; AVX2-NEXT: vmovd %xmm3, %r10d
				; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm3
				; AVX2-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
				; AVX2-NEXT: vcvtsd2ss %xmm4, %xmm4, %xmm4
				; AVX2-NEXT: vcvtps2ph $4, %xmm4, %xmm4
				; AVX2-NEXT: vmovd %xmm4, %r11d
				; AVX2-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
				; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX2-NEXT: vmovd %xmm0, %eax
				; AVX2-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm0
				; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX2-NEXT: vmovd %xmm0, %ecx
				; AVX2-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
				; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX2-NEXT: vmovd %xmm0, %edx
				; AVX2-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm0
				; AVX2-NEXT: vcvtps2ph $4, %xmm0, %xmm0
				; AVX2-NEXT: vmovd %xmm0, %esi
				; AVX2-NEXT: movw %si, 12(%rdi)
				; AVX2-NEXT: movw %dx, 8(%rdi)
				; AVX2-NEXT: movw %cx, 4(%rdi)
				; AVX2-NEXT: movw %ax, (%rdi)
				; AVX2-NEXT: movw %r11w, 14(%rdi)
				; AVX2-NEXT: movw %r10w, 10(%rdi)
				; AVX2-NEXT: movw %r9w, 6(%rdi)
				; AVX2-NEXT: movw %r8w, 2(%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movw %ax, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
	; AVX2-NEXT: vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movw %ax, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
	; AVX2-NEXT: vpermilpd $1, {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Folded Reload
	; AVX2-NEXT: # xmm0 = mem[1,0]
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movl %eax, %r12d
	; AVX2-NEXT: vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill
	; AVX2-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movl %eax, %r13d
	; AVX2-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movl %eax, %ebp
	; AVX2-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movl %eax, %r14d
	; AVX2-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movl %eax, %r15d
	; AVX2-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; AVX2-NEXT: callq __truncdfhf2@PLT
	; AVX2-NEXT: movw %ax, 12(%rbx)
	; AVX2-NEXT: movw %r15w, 8(%rbx)
	; AVX2-NEXT: movw %r14w, 4(%rbx)
	; AVX2-NEXT: movw %bp, (%rbx)
	; AVX2-NEXT: movw %r13w, 14(%rbx)
	; AVX2-NEXT: movw %r12w, 10(%rbx)
	; AVX2-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 2-byte Folded Reload
	; AVX2-NEXT: movw %ax, 6(%rbx)
	; AVX2-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 2-byte Folded Reload
	; AVX2-NEXT: movw %ax, 2(%rbx)
	; AVX2-NEXT: addq $120, %rsp
	; AVX2-NEXT: popq %rbx
	; AVX2-NEXT: popq %r12
	; AVX2-NEXT: popq %r13
	; AVX2-NEXT: popq %r14
	; AVX2-NEXT: popq %r15
	; AVX2-NEXT: popq %rbp
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: store_cvt_8f64_to_8i16:			; AVX512-LABEL: store_cvt_8f64_to_8i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: pushq %rbp			; AVX512-NEXT: vpermilpd {{.*#+}} xmm1 = xmm0[1,0]
	; AVX512-NEXT: pushq %r15			; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: pushq %r14			; AVX512-NEXT: vcvtps2ph $4, %xmm1, %xmm1
	; AVX512-NEXT: pushq %r13			; AVX512-NEXT: vmovd %xmm1, %r8d
	; AVX512-NEXT: pushq %r12			; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX512-NEXT: pushq %rbx			; AVX512-NEXT: vpermilpd {{.*#+}} xmm2 = xmm1[1,0]
	; AVX512-NEXT: subq $152, %rsp			; AVX512-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm2
	; AVX512-NEXT: movq %rdi, %rbx			; AVX512-NEXT: vcvtps2ph $4, %xmm2, %xmm2
	; AVX512-NEXT: vmovupd %zmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; AVX512-NEXT: vmovd %xmm2, %r9d
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm2
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vpermilpd {{.*#+}} xmm3 = xmm2[1,0]
	; AVX512-NEXT: callq __truncdfhf2@PLT			; AVX512-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm3
	; AVX512-NEXT: movw %ax, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill			; AVX512-NEXT: vcvtps2ph $4, %xmm3, %xmm3
	; AVX512-NEXT: vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload			; AVX512-NEXT: vmovd %xmm3, %r10d
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextractf128 $1, %ymm2, %xmm3
	; AVX512-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX512-NEXT: vpermilpd {{.*#+}} xmm4 = xmm3[1,0]
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vcvtsd2ss %xmm4, %xmm4, %xmm4
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vcvtps2ph $4, %xmm4, %xmm4
	; AVX512-NEXT: callq __truncdfhf2@PLT			; AVX512-NEXT: vmovd %xmm4, %r11d
	; AVX512-NEXT: movw %ax, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill			; AVX512-NEXT: vcvtsd2ss %xmm0, %xmm0, %xmm0
	; AVX512-NEXT: vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload			; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX512-NEXT: vextractf64x4 $1, %zmm0, %ymm0			; AVX512-NEXT: vmovd %xmm0, %eax
	; AVX512-NEXT: vmovupd %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; AVX512-NEXT: vcvtsd2ss %xmm1, %xmm1, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vmovd %xmm0, %ecx
	; AVX512-NEXT: callq __truncdfhf2@PLT			; AVX512-NEXT: vcvtsd2ss %xmm2, %xmm2, %xmm0
	; AVX512-NEXT: movl %eax, %r12d			; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX512-NEXT: vmovupd {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload			; AVX512-NEXT: vmovd %xmm0, %edx
	; AVX512-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX512-NEXT: vcvtsd2ss %xmm3, %xmm3, %xmm0
	; AVX512-NEXT: vmovapd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 16-byte Spill			; AVX512-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX512-NEXT: vpermilpd {{.*#+}} xmm0 = xmm0[1,0]			; AVX512-NEXT: vmovd %xmm0, %esi
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: movw %si, 12(%rdi)
	; AVX512-NEXT: callq __truncdfhf2@PLT			; AVX512-NEXT: movw %dx, 8(%rdi)
	; AVX512-NEXT: movl %eax, %r13d			; AVX512-NEXT: movw %cx, 4(%rdi)
	; AVX512-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm0 # 64-byte Reload			; AVX512-NEXT: movw %ax, (%rdi)
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512-NEXT: movw %r11w, 14(%rdi)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: movw %r10w, 10(%rdi)
	; AVX512-NEXT: callq __truncdfhf2@PLT			; AVX512-NEXT: movw %r9w, 6(%rdi)
	; AVX512-NEXT: movl %eax, %ebp			; AVX512-NEXT: movw %r8w, 2(%rdi)
	; AVX512-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movl %eax, %r14d
	; AVX512-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %ymm0 # 32-byte Reload
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movl %eax, %r15d
	; AVX512-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 16-byte Reload
	; AVX512-NEXT: callq __truncdfhf2@PLT
	; AVX512-NEXT: movw %ax, 12(%rbx)
	; AVX512-NEXT: movw %r15w, 8(%rbx)
	; AVX512-NEXT: movw %r14w, 4(%rbx)
	; AVX512-NEXT: movw %bp, (%rbx)
	; AVX512-NEXT: movw %r13w, 14(%rbx)
	; AVX512-NEXT: movw %r12w, 10(%rbx)
	; AVX512-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 2-byte Folded Reload
	; AVX512-NEXT: movw %ax, 6(%rbx)
	; AVX512-NEXT: movzwl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 2-byte Folded Reload
	; AVX512-NEXT: movw %ax, 2(%rbx)
	; AVX512-NEXT: addq $152, %rsp
	; AVX512-NEXT: popq %rbx
	; AVX512-NEXT: popq %r12
	; AVX512-NEXT: popq %r13
	; AVX512-NEXT: popq %r14
	; AVX512-NEXT: popq %r15
	; AVX512-NEXT: popq %rbp
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = fptrunc <8 x double> %a0 to <8 x half>			%1 = fptrunc <8 x double> %a0 to <8 x half>
	%2 = bitcast <8 x half> %1 to <8 x i16>			%2 = bitcast <8 x half> %1 to <8 x i16>
	store <8 x i16> %2, <8 x i16>* %a1			store <8 x i16> %2, <8 x i16>* %a1
	ret void			ret void
	}			}

	define void @store_cvt_32f32_to_32f16(<32 x float> %a0, <32 x half>* %a1) nounwind {			define void @store_cvt_32f32_to_32f16(<32 x float> %a0, <32 x half>* %a1) nounwind {
	Show All 28 Lines

llvm/test/CodeGen/X86/vector-reduce-fmax-nnan.ll

	Show First 20 Lines • Show All 361 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.vector.reduce.fmax.v16f64(<16 x double> %a0)			%1 = call nnan double @llvm.vector.reduce.fmax.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	define half @test_v2f16(<2 x half> %a0) nounwind {			define half @test_v2f16(<2 x half> %a0) nounwind {
	; SSE-LABEL: test_v2f16:			; SSE-LABEL: test_v2f16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pushq %rbp			; SSE-NEXT: pushq %rax
	; SSE-NEXT: pushq %r14
	; SSE-NEXT: pushq %rbx
	; SSE-NEXT: subq $16, %rsp
	; SSE-NEXT: movl %esi, %ebx
	; SSE-NEXT: movl %edi, %r14d
	; SSE-NEXT: movzwl %bx, %ebp
	; SSE-NEXT: movl %ebp, %edi
	; SSE-NEXT: callq __gnu_h2f_ieee@PLT
	; SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; SSE-NEXT: movzwl %r14w, %edi			; SSE-NEXT: movaps %xmm1, %xmm0
	; SSE-NEXT: callq __gnu_h2f_ieee@PLT			; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: ucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; SSE-NEXT: movss %xmm0, (%rsp) # 4-byte Spill
	; SSE-NEXT: movw %bp, {{[0-9]+}}(%rsp)			; SSE-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; SSE-NEXT: cmoval %r14d, %ebx			; SSE-NEXT: # xmm0 = mem[0],zero,zero,zero
	; SSE-NEXT: movw %bx, (%rsp)			; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: movl (%rsp), %eax			; SSE-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # xmm1 = mem[0],zero,zero,zero
	; SSE-NEXT: addq $16, %rsp			; SSE-NEXT: ucomiss %xmm1, %xmm0
	; SSE-NEXT: popq %rbx			; SSE-NEXT: ja .LBB10_2
	; SSE-NEXT: popq %r14			; SSE-NEXT: # %bb.1:
	; SSE-NEXT: popq %rbp			; SSE-NEXT: movaps %xmm1, %xmm0
				; SSE-NEXT: .LBB10_2:
				; SSE-NEXT: callq __truncsfhf2@PLT
				; SSE-NEXT: popq %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f16:			; AVX-LABEL: test_v2f16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: pushq %rbp			; AVX-NEXT: pushq %rax
	; AVX-NEXT: pushq %r14
	; AVX-NEXT: pushq %rbx
	; AVX-NEXT: subq $16, %rsp
	; AVX-NEXT: movl %esi, %ebx
	; AVX-NEXT: movl %edi, %r14d
	; AVX-NEXT: movzwl %bx, %ebp
	; AVX-NEXT: movl %ebp, %edi
	; AVX-NEXT: callq __gnu_h2f_ieee@PLT
	; AVX-NEXT: vmovss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; AVX-NEXT: vmovss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; AVX-NEXT: movzwl %r14w, %edi			; AVX-NEXT: vmovaps %xmm1, %xmm0
	; AVX-NEXT: callq __gnu_h2f_ieee@PLT			; AVX-NEXT: callq __extendhfsf2@PLT
	; AVX-NEXT: vucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; AVX-NEXT: vmovss %xmm0, (%rsp) # 4-byte Spill
	; AVX-NEXT: movw %bp, {{[0-9]+}}(%rsp)			; AVX-NEXT: vmovss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; AVX-NEXT: cmoval %r14d, %ebx			; AVX-NEXT: # xmm0 = mem[0],zero,zero,zero
	; AVX-NEXT: movw %bx, (%rsp)			; AVX-NEXT: callq __extendhfsf2@PLT
	; AVX-NEXT: movl (%rsp), %eax			; AVX-NEXT: vmovss (%rsp), %xmm1 # 4-byte Reload
	; AVX-NEXT: # kill: def $ax killed $ax killed $eax			; AVX-NEXT: # xmm1 = mem[0],zero,zero,zero
	; AVX-NEXT: addq $16, %rsp			; AVX-NEXT: vucomiss %xmm1, %xmm0
	; AVX-NEXT: popq %rbx			; AVX-NEXT: ja .LBB10_2
	; AVX-NEXT: popq %r14			; AVX-NEXT: # %bb.1:
	; AVX-NEXT: popq %rbp			; AVX-NEXT: vmovaps %xmm1, %xmm0
				; AVX-NEXT: .LBB10_2:
				; AVX-NEXT: callq __truncsfhf2@PLT
				; AVX-NEXT: popq %rax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v2f16:			; AVX512BW-LABEL: test_v2f16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: movzwl %si, %eax			; AVX512BW-NEXT: vpextrw $0, %xmm0, %eax
	; AVX512BW-NEXT: vmovd %eax, %xmm0			; AVX512BW-NEXT: vpextrw $0, %xmm1, %ecx
				; AVX512BW-NEXT: movzwl %cx, %ecx
				; AVX512BW-NEXT: vmovd %ecx, %xmm0
	; AVX512BW-NEXT: vcvtph2ps %xmm0, %xmm0			; AVX512BW-NEXT: vcvtph2ps %xmm0, %xmm0
	; AVX512BW-NEXT: movzwl %di, %ecx			; AVX512BW-NEXT: movzwl %ax, %eax
	; AVX512BW-NEXT: vmovd %ecx, %xmm1			; AVX512BW-NEXT: vmovd %eax, %xmm1
	; AVX512BW-NEXT: vcvtph2ps %xmm1, %xmm1			; AVX512BW-NEXT: vcvtph2ps %xmm1, %xmm1
	; AVX512BW-NEXT: vucomiss %xmm0, %xmm1			; AVX512BW-NEXT: vucomiss %xmm0, %xmm1
	; AVX512BW-NEXT: movw %ax, -{{[0-9]+}}(%rsp)			; AVX512BW-NEXT: seta %al
	; AVX512BW-NEXT: cmoval %edi, %esi			; AVX512BW-NEXT: kmovd %eax, %k1
	; AVX512BW-NEXT: movw %si, -{{[0-9]+}}(%rsp)			; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: movl -{{[0-9]+}}(%rsp), %eax			; AVX512BW-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
				; AVX512BW-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512FP16-LABEL: test_v2f16:			; AVX512FP16-LABEL: test_v2f16:
	; AVX512FP16: # %bb.0:			; AVX512FP16: # %bb.0:
	; AVX512FP16-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512FP16-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512FP16-NEXT: vcmpltph %xmm0, %xmm1, %k1			; AVX512FP16-NEXT: vcmpltph %xmm0, %xmm1, %k1
	; AVX512FP16-NEXT: vmovsh %xmm0, %xmm0, %xmm1 {%k1}			; AVX512FP16-NEXT: vmovsh %xmm0, %xmm0, %xmm1 {%k1}
	; AVX512FP16-NEXT: vmovaps %xmm1, %xmm0			; AVX512FP16-NEXT: vmovaps %xmm1, %xmm0
	Show All 17 Lines

llvm/test/CodeGen/X86/vector-reduce-fmin-nnan.ll

	Show First 20 Lines • Show All 360 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = call nnan double @llvm.vector.reduce.fmin.v16f64(<16 x double> %a0)			%1 = call nnan double @llvm.vector.reduce.fmin.v16f64(<16 x double> %a0)
	ret double %1			ret double %1
	}			}

	define half @test_v2f16(<2 x half> %a0) nounwind {			define half @test_v2f16(<2 x half> %a0) nounwind {
	; SSE-LABEL: test_v2f16:			; SSE-LABEL: test_v2f16:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: pushq %rbp			; SSE-NEXT: pushq %rax
	; SSE-NEXT: pushq %r14
	; SSE-NEXT: pushq %rbx
	; SSE-NEXT: subq $16, %rsp
	; SSE-NEXT: movl %esi, %ebx
	; SSE-NEXT: movl %edi, %r14d
	; SSE-NEXT: movzwl %bx, %ebp
	; SSE-NEXT: movl %ebp, %edi
	; SSE-NEXT: callq __gnu_h2f_ieee@PLT
	; SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; SSE-NEXT: movss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; SSE-NEXT: movzwl %r14w, %edi			; SSE-NEXT: movaps %xmm1, %xmm0
	; SSE-NEXT: callq __gnu_h2f_ieee@PLT			; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: ucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; SSE-NEXT: movss %xmm0, (%rsp) # 4-byte Spill
	; SSE-NEXT: movw %bp, {{[0-9]+}}(%rsp)			; SSE-NEXT: movss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; SSE-NEXT: cmovbl %r14d, %ebx			; SSE-NEXT: # xmm0 = mem[0],zero,zero,zero
	; SSE-NEXT: movw %bx, (%rsp)			; SSE-NEXT: callq __extendhfsf2@PLT
	; SSE-NEXT: movl (%rsp), %eax			; SSE-NEXT: movss (%rsp), %xmm1 # 4-byte Reload
	; SSE-NEXT: # kill: def $ax killed $ax killed $eax			; SSE-NEXT: # xmm1 = mem[0],zero,zero,zero
	; SSE-NEXT: addq $16, %rsp			; SSE-NEXT: ucomiss %xmm1, %xmm0
	; SSE-NEXT: popq %rbx			; SSE-NEXT: jb .LBB10_2
	; SSE-NEXT: popq %r14			; SSE-NEXT: # %bb.1:
	; SSE-NEXT: popq %rbp			; SSE-NEXT: movaps %xmm1, %xmm0
				; SSE-NEXT: .LBB10_2:
				; SSE-NEXT: callq __truncsfhf2@PLT
				; SSE-NEXT: popq %rax
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: test_v2f16:			; AVX-LABEL: test_v2f16:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: pushq %rbp			; AVX-NEXT: pushq %rax
	; AVX-NEXT: pushq %r14
	; AVX-NEXT: pushq %rbx
	; AVX-NEXT: subq $16, %rsp
	; AVX-NEXT: movl %esi, %ebx
	; AVX-NEXT: movl %edi, %r14d
	; AVX-NEXT: movzwl %bx, %ebp
	; AVX-NEXT: movl %ebp, %edi
	; AVX-NEXT: callq __gnu_h2f_ieee@PLT
	; AVX-NEXT: vmovss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; AVX-NEXT: vmovss %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; AVX-NEXT: movzwl %r14w, %edi			; AVX-NEXT: vmovaps %xmm1, %xmm0
	; AVX-NEXT: callq __gnu_h2f_ieee@PLT			; AVX-NEXT: callq __extendhfsf2@PLT
	; AVX-NEXT: vucomiss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Folded Reload			; AVX-NEXT: vmovss %xmm0, (%rsp) # 4-byte Spill
	; AVX-NEXT: movw %bp, {{[0-9]+}}(%rsp)			; AVX-NEXT: vmovss {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 4-byte Reload
	; AVX-NEXT: cmovbl %r14d, %ebx			; AVX-NEXT: # xmm0 = mem[0],zero,zero,zero
	; AVX-NEXT: movw %bx, (%rsp)			; AVX-NEXT: callq __extendhfsf2@PLT
	; AVX-NEXT: movl (%rsp), %eax			; AVX-NEXT: vmovss (%rsp), %xmm1 # 4-byte Reload
	; AVX-NEXT: # kill: def $ax killed $ax killed $eax			; AVX-NEXT: # xmm1 = mem[0],zero,zero,zero
	; AVX-NEXT: addq $16, %rsp			; AVX-NEXT: vucomiss %xmm1, %xmm0
	; AVX-NEXT: popq %rbx			; AVX-NEXT: jb .LBB10_2
	; AVX-NEXT: popq %r14			; AVX-NEXT: # %bb.1:
	; AVX-NEXT: popq %rbp			; AVX-NEXT: vmovaps %xmm1, %xmm0
				; AVX-NEXT: .LBB10_2:
				; AVX-NEXT: callq __truncsfhf2@PLT
				; AVX-NEXT: popq %rax
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512BW-LABEL: test_v2f16:			; AVX512BW-LABEL: test_v2f16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: movzwl %si, %eax			; AVX512BW-NEXT: vpextrw $0, %xmm0, %eax
	; AVX512BW-NEXT: vmovd %eax, %xmm0			; AVX512BW-NEXT: vpextrw $0, %xmm1, %ecx
				; AVX512BW-NEXT: movzwl %cx, %ecx
				; AVX512BW-NEXT: vmovd %ecx, %xmm0
	; AVX512BW-NEXT: vcvtph2ps %xmm0, %xmm0			; AVX512BW-NEXT: vcvtph2ps %xmm0, %xmm0
	; AVX512BW-NEXT: movzwl %di, %ecx			; AVX512BW-NEXT: movzwl %ax, %eax
	; AVX512BW-NEXT: vmovd %ecx, %xmm1			; AVX512BW-NEXT: vmovd %eax, %xmm1
	; AVX512BW-NEXT: vcvtph2ps %xmm1, %xmm1			; AVX512BW-NEXT: vcvtph2ps %xmm1, %xmm1
	; AVX512BW-NEXT: vucomiss %xmm0, %xmm1			; AVX512BW-NEXT: vucomiss %xmm0, %xmm1
	; AVX512BW-NEXT: movw %ax, -{{[0-9]+}}(%rsp)			; AVX512BW-NEXT: setb %al
	; AVX512BW-NEXT: cmovbl %edi, %esi			; AVX512BW-NEXT: kmovd %eax, %k1
	; AVX512BW-NEXT: movw %si, -{{[0-9]+}}(%rsp)			; AVX512BW-NEXT: vmovss %xmm1, %xmm0, %xmm0 {%k1}
	; AVX512BW-NEXT: movl -{{[0-9]+}}(%rsp), %eax			; AVX512BW-NEXT: vcvtps2ph $4, %xmm0, %xmm0
	; AVX512BW-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512BW-NEXT: vmovd %xmm0, %eax
				; AVX512BW-NEXT: vpinsrw $0, %eax, %xmm0, %xmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512FP16-LABEL: test_v2f16:			; AVX512FP16-LABEL: test_v2f16:
	; AVX512FP16: # %bb.0:			; AVX512FP16: # %bb.0:
	; AVX512FP16-NEXT: vpsrld $16, %xmm0, %xmm1			; AVX512FP16-NEXT: vpsrld $16, %xmm0, %xmm1
	; AVX512FP16-NEXT: vcmpltph %xmm1, %xmm0, %k1			; AVX512FP16-NEXT: vcmpltph %xmm1, %xmm0, %k1
	; AVX512FP16-NEXT: vmovsh %xmm0, %xmm0, %xmm1 {%k1}			; AVX512FP16-NEXT: vmovsh %xmm0, %xmm0, %xmm1 {%k1}
	; AVX512FP16-NEXT: vmovaps %xmm1, %xmm0			; AVX512FP16-NEXT: vmovaps %xmm1, %xmm0
	Show All 18 Lines

llvm/test/MC/X86/x86_64-asm-match.s

	// REQUIRES: asserts			// REQUIRES: asserts
	// RUN: llvm-mc -triple x86_64-unknown-unknown -debug-only=asm-matcher %s 2>&1 \| FileCheck %s			// RUN: llvm-mc -triple x86_64-unknown-unknown -debug-only=asm-matcher %s 2>&1 \| FileCheck %s

	// CHECK: AsmMatcher: found 4 encodings with mnemonic 'pshufb'			// CHECK: AsmMatcher: found 4 encodings with mnemonic 'pshufb'
	// CHECK: Trying to match opcode MMX_PSHUFBrr			// CHECK: Trying to match opcode MMX_PSHUFBrr
	// CHECK: Matching formal operand class MCK_VR64 against actual operand at index 1 (Memory: ModeSize=64,BaseReg=rip,Scale=1,Disp=CPI1_0): Opcode result: multiple operand mismatches, ignoring this opcode			// CHECK: Matching formal operand class MCK_VR64 against actual operand at index 1 (Memory: ModeSize=64,BaseReg=rip,Scale=1,Disp=CPI1_0): Opcode result: multiple operand mismatches, ignoring this opcode
	// CHECK: Trying to match opcode PSHUFBrr			// CHECK: Trying to match opcode PSHUFBrr
	// CHECK: Matching formal operand class MCK_FR32 against actual operand at index 1 (Memory: ModeSize=64,BaseReg=rip,Scale=1,Disp=CPI1_0): Opcode result: multiple operand mismatches, ignoring this opcode			// CHECK: Matching formal operand class MCK_FR16 against actual operand at index 1 (Memory: ModeSize=64,BaseReg=rip,Scale=1,Disp=CPI1_0): Opcode result: multiple operand mismatches, ignoring this opcode
	// CHECK: Trying to match opcode PSHUFBrm			// CHECK: Trying to match opcode PSHUFBrm
	// CHECK: Matching formal operand class MCK_Mem128 against actual operand at index 1 (Memory: ModeSize=64,BaseReg=rip,Scale=1,Disp=CPI1_0): match success using generic matcher			// CHECK: Matching formal operand class MCK_Mem128 against actual operand at index 1 (Memory: ModeSize=64,BaseReg=rip,Scale=1,Disp=CPI1_0): match success using generic matcher
	// CHECK: Matching formal operand class MCK_FR32 against actual operand at index 2 (Reg:xmm1): match success using generic matcher			// CHECK: Matching formal operand class MCK_FR16 against actual operand at index 2 (Reg:xmm1): match success using generic matcher
	// CHECK: Matching formal operand class InvalidMatchClass against actual operand at index 3: actual operand index out of range Opcode result: complete match, selecting this opcode			// CHECK: Matching formal operand class InvalidMatchClass against actual operand at index 3: actual operand index out of range Opcode result: complete match, selecting this opcode
	// CHECK: AsmMatcher: found 2 encodings with mnemonic 'sha1rnds4'			// CHECK: AsmMatcher: found 2 encodings with mnemonic 'sha1rnds4'
	// CHECK: Trying to match opcode SHA1RNDS4rri			// CHECK: Trying to match opcode SHA1RNDS4rri
	// CHECK: Matching formal operand class MCK_ImmUnsignedi8 against actual operand at index 1 (Imm:1): match success using generic matcher			// CHECK: Matching formal operand class MCK_ImmUnsignedi8 against actual operand at index 1 (Imm:1): match success using generic matcher
	// CHECK: Matching formal operand class MCK_FR32 against actual operand at index 2 (Reg:xmm1): match success using generic matcher			// CHECK: Matching formal operand class MCK_FR16 against actual operand at index 2 (Reg:xmm1): match success using generic matcher
	// CHECK: Matching formal operand class MCK_FR32 against actual operand at index 3 (Reg:xmm2): match success using generic matcher			// CHECK: Matching formal operand class MCK_FR16 against actual operand at index 3 (Reg:xmm2): match success using generic matcher
	// CHECK: Matching formal operand class InvalidMatchClass against actual operand at index 4: actual operand index out of range Opcode result: complete match, selecting this opcode			// CHECK: Matching formal operand class InvalidMatchClass against actual operand at index 4: actual operand index out of range Opcode result: complete match, selecting this opcode
	// CHECK: AsmMatcher: found 4 encodings with mnemonic 'pinsrw'			// CHECK: AsmMatcher: found 4 encodings with mnemonic 'pinsrw'
	// CHECK: Trying to match opcode MMX_PINSRWrr			// CHECK: Trying to match opcode MMX_PINSRWrr
	// CHECK: Matching formal operand class MCK_ImmUnsignedi8 against actual operand at index 1 (Imm:3): match success using generic matcher			// CHECK: Matching formal operand class MCK_ImmUnsignedi8 against actual operand at index 1 (Imm:3): match success using generic matcher
	// CHECK: Matching formal operand class MCK_GR32orGR64 against actual operand at index 2 (Reg:ecx): match success using generic matcher			// CHECK: Matching formal operand class MCK_GR32orGR64 against actual operand at index 2 (Reg:ecx): match success using generic matcher
	// CHECK: Matching formal operand class MCK_VR64 against actual operand at index 3 (Reg:xmm5): Opcode result: multiple operand mismatches, ignoring this opcode			// CHECK: Matching formal operand class MCK_VR64 against actual operand at index 3 (Reg:xmm5): Opcode result: multiple operand mismatches, ignoring this opcode
	// CHECK: Trying to match opcode PINSRWrr			// CHECK: Trying to match opcode PINSRWrr
	// CHECK: Matching formal operand class MCK_ImmUnsignedi8 against actual operand at index 1 (Imm:3): match success using generic matcher			// CHECK: Matching formal operand class MCK_ImmUnsignedi8 against actual operand at index 1 (Imm:3): match success using generic matcher
	// CHECK: Matching formal operand class MCK_GR32orGR64 against actual operand at index 2 (Reg:ecx): match success using generic matcher			// CHECK: Matching formal operand class MCK_GR32orGR64 against actual operand at index 2 (Reg:ecx): match success using generic matcher
	// CHECK: Matching formal operand class MCK_FR32 against actual operand at index 3 (Reg:xmm5): match success using generic matcher			// CHECK: Matching formal operand class MCK_FR16 against actual operand at index 3 (Reg:xmm5): match success using generic matcher
	// CHECK: Matching formal operand class InvalidMatchClass against actual operand at index 4: actual operand index out of range Opcode result: complete match, selecting this opcode			// CHECK: Matching formal operand class InvalidMatchClass against actual operand at index 4: actual operand index out of range Opcode result: complete match, selecting this opcode
	// CHECK: AsmMatcher: found 2 encodings with mnemonic 'crc32l'			// CHECK: AsmMatcher: found 2 encodings with mnemonic 'crc32l'
	// CHECK: Trying to match opcode CRC32r32r32			// CHECK: Trying to match opcode CRC32r32r32
	// CHECK: Matching formal operand class MCK_GR32 against actual operand at index 1 (Memory: ModeSize=64,BaseReg=rbx,IndexReg=rcx,Scale=8,Disp=3735928559,SegReg=gs): Opcode result: multiple operand mismatches, ignoring this opcode			// CHECK: Matching formal operand class MCK_GR32 against actual operand at index 1 (Memory: ModeSize=64,BaseReg=rbx,IndexReg=rcx,Scale=8,Disp=3735928559,SegReg=gs): Opcode result: multiple operand mismatches, ignoring this opcode
	// CHECK: Trying to match opcode CRC32r32m32			// CHECK: Trying to match opcode CRC32r32m32
	// CHECK: Matching formal operand class MCK_Mem32 against actual operand at index 1 (Memory: ModeSize=64,BaseReg=rbx,IndexReg=rcx,Scale=8,Disp=3735928559,SegReg=gs): match success using generic matcher			// CHECK: Matching formal operand class MCK_Mem32 against actual operand at index 1 (Memory: ModeSize=64,BaseReg=rbx,IndexReg=rcx,Scale=8,Disp=3735928559,SegReg=gs): match success using generic matcher
	// CHECK: Matching formal operand class MCK_GR32 against actual operand at index 2 (Reg:ecx): match success using generic matcher			// CHECK: Matching formal operand class MCK_GR32 against actual operand at index 2 (Reg:ecx): match success using generic matcher
	// CHECK: Matching formal operand class InvalidMatchClass against actual operand at index 3: actual operand index out of range Opcode result: complete match, selecting this opcode			// CHECK: Matching formal operand class InvalidMatchClass against actual operand at index 3: actual operand index out of range Opcode result: complete match, selecting this opcode
	Show All 16 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[X86][RFC] Enable `_Float16` type support on X86 following the psABIClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 430897

llvm/docs/ReleaseNotes.rst

llvm/lib/Target/X86/X86FastISel.cpp

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86InstrAVX512.td

llvm/lib/Target/X86/X86InstrCompiler.td

llvm/lib/Target/X86/X86InstrInfo.cpp

llvm/lib/Target/X86/X86InstrSSE.td

llvm/lib/Target/X86/X86InstrVecCompiler.td

llvm/lib/Target/X86/X86InstructionSelector.cpp

llvm/lib/Target/X86/X86RegisterInfo.td

llvm/test/Analysis/CostModel/X86/fptoi_sat.ll

llvm/test/CodeGen/MIR/X86/inline-asm-registers.mir

llvm/test/CodeGen/X86/atomic-non-integer.ll

llvm/test/CodeGen/X86/avx512-insert-extract.ll

llvm/test/CodeGen/X86/avx512-masked_memop-16-8.ll

llvm/test/CodeGen/X86/callbr-asm-bb-exports.ll

llvm/test/CodeGen/X86/cvt16-2.ll

llvm/test/CodeGen/X86/cvt16.ll

llvm/test/CodeGen/X86/fastmath-float-half-conversion.ll

llvm/test/CodeGen/X86/fmf-flags.ll

llvm/test/CodeGen/X86/fp-round.ll

llvm/test/CodeGen/X86/fp-roundeven.ll

llvm/test/CodeGen/X86/fp128-cast-strict.ll

llvm/test/CodeGen/X86/fpclamptosat.ll

llvm/test/CodeGen/X86/fpclamptosat_vec.ll

llvm/test/CodeGen/X86/fptosi-sat-scalar.ll

llvm/test/CodeGen/X86/fptosi-sat-vector-128.ll

llvm/test/CodeGen/X86/fptoui-sat-scalar.ll

llvm/test/CodeGen/X86/fptoui-sat-vector-128.ll

llvm/test/CodeGen/X86/freeze.ll

llvm/test/CodeGen/X86/half-constrained.ll

llvm/test/CodeGen/X86/half.ll

llvm/test/CodeGen/X86/pr31088.ll

llvm/test/CodeGen/X86/pr38533.ll

llvm/test/CodeGen/X86/pr47000.ll

llvm/test/CodeGen/X86/scheduler-asm-moves.mir

llvm/test/CodeGen/X86/shuffle-extract-subvector.ll

llvm/test/CodeGen/X86/stack-folding-fp-avx512fp16-fma.ll

llvm/test/CodeGen/X86/stack-folding-fp-avx512fp16.ll

llvm/test/CodeGen/X86/statepoint-invoke-ra-enter-at-end.mir

llvm/test/CodeGen/X86/vec_fp_to_int.ll

llvm/test/CodeGen/X86/vector-half-conversions.ll

llvm/test/CodeGen/X86/vector-reduce-fmax-nnan.ll

llvm/test/CodeGen/X86/vector-reduce-fmin-nnan.ll

llvm/test/MC/X86/x86_64-asm-match.s

[X86][RFC] Enable `_Float16` type support on X86 following the psABI
ClosedPublic